Spark-TTS

AI产品8个月前发布 AI工具箱
0 0 0
Spark-TTS的封面图

Spark-TTS是一款由SparkAudio团队推出的AI文本转语音工具,支持中英文零样本语音克隆。该工具基于大型语言模型(LLM)构建,能够在没有额外生成模型的情况下,直接通过LLM预测的编码重建音频,实现零样本文本到语音的转换。用户可以通过调节参数(如性别、音调、语速等)来生成符合个性化需求的虚拟说话者声音,满足多样化的应用场景需求。

Spark-TTS采用基于Qwen2.5架构,无需额外的生成模型,通过直接从LLM预测的编码重建音频,实现了高效简洁的语音合成。同时,支持零样本语音克隆和风格迁移,用户可提取少量语音样本中的风格特征,并将其迁移到合成语音中,实现个性化语音风格的复制。该工具还具备多语言支持和虚拟说话者创建功能,适用于智能客服、多语言内容创作、虚拟角色配音等多种应用场景。

想了解更多关于Spark-TTS的信息,可以访问官方网站https://sparkaudio.github.io/spark-tts/,或查看其Github仓库https://github.com/SparkAudio/Spark-TTS,以及HuggingFace模型库https://huggingface.co/SparkAudio/Spark-TTS-0.5B。

© 版权声明

相关AI热点

暂无评论

none
暂无评论...