Llasa TTS

Llasa TTS是香港科技大学开发的一款基于LLaMA架构的开源文本转语音（TTS）模型。这一模型采用高质量的语音合成和克隆技术，在训练和推理阶段表现出色，并支持情感表达、音色克隆等多种功能。Llasa TTS提供不同参数规模的模型，包括1B、3B和8B，能够生成多语言合成。

主要功能包括高质量语音合成、情感表达、语音克隆、长文本支持和零样本学习。技术原理基于Transformer架构，利用语音分词器进行语音特征提取，采用自回归生成方式确保生成的语音与输入文本的一致性。项目地址包括GitHub仓库、HuggingFace模型库以及在线体验Demo等。

Llasa TTS适用于智能语音助手、有声读物、在线教育、语音播报、客服系统、游戏与娱乐以及语音克隆与内容创作等各种应用场景。用户可免费使用和修改该模型，支持中英文双语合成，并对多语言扩展具备能力。

文章版权归作者所有，未经允许请勿转载。

暂无评论

暂无评论...