阿里通义实验室CosyVoice语音生成大模型升级至2.0版本

11个月前发布AI俱乐部

摘要：

总的来说，语音合成技术领域迎来了一项重大升级，科大讯飞推出了CosyVoice声音克隆2.0版本。这一版本的发 […]

总的来说，语音合成技术领域迎来了一项重大升级，科大讯飞推出了CosyVoice声音克隆2.0版本。这一版本的发布标志着，仅需一段极短的参考音频，即可实现高质量的声音复刻，显著提升了语音合成的效率和便捷性。CosyVoice2.0旨在提供更加自然流畅、富有表现力的语音合成体验，为用户带来前所未有的声音定制可能性。

相较于前代产品，CosyVoice2.0在多个关键技术指标上实现了突破。性能方面，新版本在Seed-TTS框架的基础上，实现了高达30%至50%的性能提升。尤其是在处理Seed-TTS模型中常见的“hard”样本时，效果更为显著，保证了在包括噪声环境、背景音乐以及复杂语音场景下，依然能够生成清晰自然的合成语音。此外，2.0版本还在保证语音质量的同时，将首包时间（首次生成语音所需的时间）缩短至150毫秒以内，极大地优化了用户体验。

在保证高效与便捷的同时，CosyVoice2.0还致力于提升合成语音的表现力与自然度。通过采用全新的架构设计，2.0版本在情感控制和风格迁移方面实现了质的飞跃，使得合成的语音更加贴近真人发声。实验数据显示，CosyVoice2.0在语音合成质量评估（MOS）中取得了5.4到5.53的高分，超越了现有的大部分语音合成模型。这意味着，新版本在语音的自然度、流畅度以及情感表达等方面，都达到了行业领先水平。具体来说，2.0版本能够更好地处理停顿、重音、语气的变化，使得合成的语音不仅清晰可懂，而且富有感染力，能够广泛应用于个人助理、内容创作、教育培训等多个领域，满足不同场景下的语音需求。

CosyVoice2.0的发布，不仅提升了语音合成的技术水平，也降低了声音克隆的门槛。这意味着，即使没有专业的录音设备和技术，用户也能够轻松地创建个性化的声音模型，为语音交互带来更多可能性。这一技术的进步，无疑将推动语音合成技术在各个领域的应用，为人们的生活带来更多便利与乐趣。

GitHub链接：访问CosyVoice（https://github.com/FunAudioLLM/CosyVoice）了解更多信息，同时也可以关注CosyVoice2的更新动态。
在线体验DEMO:通过https://www.modelscope.cn/studios/iic/CosyVoice2-0.5B在线体验CosyVoice2.0的功能。
代码资源：访问https://github.com/FunAudioLLM/CosyVoice获取CosyVoice的代码。
模型资源：在https://www.modelscope.cn/models/iic/CosyVoice2-0.5B下载CosyVoice2-0.5B模型。