芝麻发布CSM模型:实时情感定制的AI语音合成技术迎来新突破

2个月前发布AI俱乐部
3 0 0
芝麻发布CSM模型:实时情感定制的AI语音合成技术迎来新突破的封面图

2023年3月13日,Sesame公司推出了其最新的语音合成模型CSM,引起了业界的广泛关注。官方介绍指出,CSM采用了一种端到端的基于Transformer的多模态学习架构,具备理解上下文信息的能力,能够生成自然且情感丰富的语音,其声音效果与真人相近,令人印象深刻。

该模型支持实时语音生成,能够有效处理文本和音频输入。用户还可以通过调整相关参数,以控制语气、语调、节奏及情感等多种特性,从而展现出卓越的灵活性。

CSM被视为AI语音技术的重要突破,其语音的自然度极高,甚至让人难以分辨是人工合成还是人声。有用户录制的视频展示了CSM几乎无延迟的表现,称其为“体验过的最强模型”。此前,Sesame曾开源其小版本CSM-1B,支持多轮对话生成连贯语音,获得了广泛的好评。

目前,CSM主要针对英语进行训练,表现十分优秀,但在多语言支持方面仍存在一些限制。目前尚不支持中文,但业界期待未来能够扩展这一功能。

Sesame表示将部分开源相关研究成果,社区开发者在GitHub上已对其潜力展开热议。CSM不仅适用于对话式AI,还可能推动教育、娱乐等领域的语音交互体验革新。业内人士认为,CSM有望重塑AI语音助手的标准,带来更为自然的人机对话体验。

© 版权声明:
本文地址:https://aidh.net/kuaixun/mjbsgd28

暂无评论

none
暂无评论...