ElevenLabs推出Flash语音对话模型：极速响应，75毫秒延迟，支持32种语言

ElevenLabs 近期发布了一款名为 Flash 的新型人声克隆模型，这款模型旨在实现更快速的文本转语音（TTS）功能，据称其延迟时间仅为 75 毫秒（具体取决于网络环境与计算资源）。Flash 模型的推出，是为了应对对低延迟语音合成需求的增长，并进一步提升 ElevenLabs 的 AI 语音产品组合。

Flash 模型共有两个版本，包括 Flash v2 和 Flash v2.5，后者在速度上提升了 32 倍。使用此模型的优势在于能够以极低的延迟生成音频流，理想情况下可以达到约 0.1 秒的响应速度。此外，ElevenLabs 还推出了 Turbo 模型，据称该模型能够显著减少在实时应用场景中的延迟，使得用户能够更流畅地进行互动，从而提升整体体验。

ElevenLabs 的最新进展是，Flash 模型已全面应用于其语音引擎，旨在为开发者提供更高效、更流畅的语音合成体验。开发者现在可以通过 API 调用使用 Flash 模型，只需指定模型 ID 为 “elevenflashv2″ 或 “elevenflashv2_5″，即可轻松体验 ElevenLabs 提供的卓越性能。这意味着 ElevenLabs 将能够进一步优化其语音产品的性能，从而提升用户满意度。

ElevenLabs 致力于通过降低延迟、优化语音合成质量，不断改进其 AI 语音技术，从而为用户带来更具吸引力和互动性的 AI 语音体验。总而言之，ElevenLabs 正在积极投资于 AI 语音领域，以期为用户创造更优质的产品。