芝麻发布CSM模型：实时情感定制的AI语音合成技术迎来新突破

摘要：

2023年3月13日，Sesame公司推出了其最新的语音合成模型CSM，引起了业界的广泛关注。官方介绍指出，C […]

2023年3月13日，Sesame公司推出了其最新的语音合成模型 CSM，引起了业界的广泛关注。官方介绍指出，CSM采用了一种端到端的基于Transformer的多模态学习架构，具备理解上下文信息的能力，能够生成自然且情感丰富的语音，其声音效果与真人相近，令人印象深刻。

该模型支持实时语音生成，能够有效处理文本和音频输入。用户还可以通过调整相关参数，以控制语气、语调、节奏及情感等多种特性，从而展现出卓越的灵活性。

CSM被视为AI语音技术的重要突破，其语音的自然度极高，甚至让人难以分辨是人工合成还是人声。有用户录制的视频展示了CSM几乎无延迟的表现，称其为“体验过的最强模型”。此前，Sesame曾开源其小版本CSM-1B，支持多轮对话生成连贯语音，获得了广泛的好评。

目前，CSM主要针对英语进行训练，表现十分优秀，但在多语言支持方面仍存在一些限制。目前尚不支持中文，但业界期待未来能够扩展这一功能。

Sesame表示将部分开源相关研究成果，社区开发者在GitHub上已对其潜力展开热议。CSM不仅适用于对话式AI，还可能推动教育、娱乐等领域的语音交互体验革新。业内人士认为，CSM有望重塑AI语音助手的标准，带来更为自然的人机对话体验。

文章版权归作者所有，未经允许请勿转载。

本文地址：https://aidh.net/kuaixun/mjbsgd28

暂无评论