IndexTTS

IndexTTS 是 B 站推出的文本转语音模型，它结合了 XTTS 和 Tortoise 模型的先进技术，采用了 GPT 风格的生成技术。这个系统在将文本转换为自然流畅的语音方面表现出色，尤其擅长处理中文文本。IndexTTS 不仅支持拼音纠正汉字发音，还可以利用标点符号来精准控制停顿，有效解决多音字和长尾字符的发音问题。其字词错误率仅为 1.3%，扬声器相似性达到 0.776，主观音质评分为 4.01，展现出非常优秀的性能。

IndexTTS 是一款工业级的可控文本转语音系统，基于 XTTS 和 Tortoise 模型，并结合了 GPT 风格的生成技术。它能够高效地将文本转换为自然流畅的语音，特别擅长处理中文文本。IndexTTS 支持拼音纠正汉字发音，并利用标点符号精准控制停顿，有效克服多音字和长尾字符的发音困难。其字词错误率低至 1.3%，扬声器相似性达到 0.776，主观音质评分为 4.01，表现出色。系统使用了大量数据进行训练，包括 2.5 万小时的中文音频和 9000 小时的英文音频，以确保音质和音色的高质量。

IndexTTS 的主要功能包括拼音纠正与停顿控制、音质优化以及多语言支持。它还采用混合建模方法，结合字符与拼音，优化语音生成效果。此外，IndexTTS 使用基于 Conformer 的条件编码器和 BigVGAN2 语音解码器，显著提升音质与音色相似性。未来，IndexTTS 还计划扩展到更多语言，拓展应用领域。