

2023年3月13日,Sesame公司推出了其最新的语音合成模型CSM,引起了业界的广泛关注。官方介绍指出,CSM采用了一种端到端的基于Transformer的多模态学习架构,具备理解上下文信息的能力,能够生成自然且情感丰富的语音,其声音效果与真人相近,令人印象深刻。
该模型支持实时语音生成,能够有效处理文本和音频输入。用户还可以通过调整相关参数,以控制语气、语调、节奏及情感等多种特性,从而展现出卓越的灵活性。
CSM被视为AI语音技术的重要突破,其语音的自然度极高,甚至让人难以分辨是人工合成还是人声。有用户录制的视频展示了CSM几乎无延迟的表现,称其为“体验过的最强模型”。此前,Sesame曾开源其小版本CSM-1B,支持多轮对话生成连贯语音,获得了广泛的好评。
目前,CSM主要针对英语进行训练,表现十分优秀,但在多语言支持方面仍存在一些限制。目前尚不支持中文,但业界期待未来能够扩展这一功能。
Sesame表示将部分开源相关研究成果,社区开发者在GitHub上已对其潜力展开热议。CSM不仅适用于对话式AI,还可能推动教育、娱乐等领域的语音交互体验革新。业内人士认为,CSM有望重塑AI语音助手的标准,带来更为自然的人机对话体验。
© 版权声明:
文章版权归作者所有,未经允许请勿转载。
本文地址:https://aidh.net/kuaixun/mjbsgd28暂无评论...