小型文本转语音模型Kokoro-TTS，登顶TTS排行榜冠军

10个月前发布AI俱乐部

摘要：

对于那些致力于语音合成的人来说，这里介绍一个能生成高质量音频的项目。最近，Kokoro 团队发布了他们在 Hu […]

对于那些致力于语音合成的人来说，这里介绍一个能生成高质量音频的项目。最近，Kokoro 团队发布了他们在 Hugging Face 平台上训练的语音模型，该模型参数量达到了 8200 万，为社区贡献了一个强大的声音生成工具。

Kokoro v0.19 版本的发布带来了一系列优化，尤其是在文本转语音（TTS）方面的性能提升，它现在能够支持更自然的停顿和更准确的发音。与之前的版本相比，新模型在超过 100 小时的语音数据上进行了训练，并融合了 467M 参数的 XTTS v2 和 1.2B 参数的 MetaVoice 模型的技术优势。此外，该版本还优化了模型推理的速度，以便更快地生成音频，并提升了整体的稳定性和可靠性。

如果您想尝试一下，可以在 Google Colab 上找到相关的演示示例，无需本地安装任何软件或配置复杂的环境，即可体验模型的语音生成能力。Kokoro 社区鼓励用户积极参与，共同改进模型，分享使用心得。

如果您想更高效地使用 Kokoro，可以考虑在 Vast.ai 上租用配备 A100 80GB 显存的服务器，这样可以大幅缩短训练和推理时间，获得更流畅的使用体验。即使没有高性能的硬件，也可以在不到 20 分钟的时间内完成模型的部署，或者在 100 小时的数据集上进行微调。Kokoro 模型在设计上充分考虑了资源有限用户的需求，力求在保证性能的同时降低使用门槛，实现更广泛的应用。

总而言之，Kokoro 在语音合成领域取得了显著进展，它不仅提供了高质量的音频生成能力，还兼顾了性能和易用性，为开发者和研究人员提供了强大的工具。无论您是资深专家还是初学者，都能从中受益。

模型链接：https://huggingface.co/hexgrad/Kokoro-82M

演示链接：https://huggingface.co/spaces/hexgrad/Kokoro-TTS