

2025年1月20日,国内领先的通用人工智能创业公司MiniMax发布了其自研的文本到音频模型T2A-01,标志着该公司在语音合成技术上取得了新的突破。据悉,T2A-01模型包含T2A-01-HD和T2A-01-Turbo两个版本,可以通过API接口向MiniMax的开发者平台开放,旨在为用户提供更便捷、高效的语音合成服务,并进一步丰富其人工智能产品矩阵。
MiniMax一直致力于打造多模态的通用人工智能,涵盖了文本、视觉和语音等多种信息形式,旨在实现更自然、智能的人机交互。这些模型不仅包括MoE多专家模型、视频生成模型,还包括音频生成模型。通过这些技术的融合,MiniMax希望能够构建更加完善的人工智能生态,并为开发者提供强大的API支持。本次发布的T2A-01模型支持多种自然语言输入,覆盖了新闻播报、有声读物、情感对话等17种不同的语音风格,可以根据文本内容生成高质量的音频,为用户带来更加丰富的声音体验。
通用语音模型的构建一直面临着诸多挑战。在T2A-01模型的设计中,MiniMax着重解决了音频质量、表达能力以及跨语种适应性等方面的问题。针对不同风格、不同场景的需求,MiniMax的模型可以灵活调整语速和情感,甚至能够模拟ElevenLabs等平台的语音效果。同时,MiniMax的模型还具备强大的跨语种能力,能够支持多种语言的文本转语音,为全球用户提供更加便捷的语音服务。
MiniMax还在不断探索语音模型的更多可能性,致力于提高语音合成的效率和质量。通过持续优化算法、改进训练方法以及积累更多的数据,该公司希望能够进一步提升模型的性能,并为开发者提供更加灵活、强大的语音合成工具。无论是语音助手、内容创作,还是其他需要语音交互的场景,MiniMax的语音模型都将发挥重要的作用。
MiniMax:
https://hailuoai.com/audio
Hailuo Audio(海螺音频):
https://hailuo.ai/audio
国内API接口:
https://platform.minimaxi.com/document/T2A%20V2
海外API接口:
https://intl.minimaxi.com/document/T2A%20V2?key=66719005a427f0c8a5701643