ZyphraAI开源Zonos-TTS：实时语音克隆与多语言情感控制技术亮相

ZyphraAI 近期发布了一款开源的本地语音合成（TTS）模型 Zonos-TTS，该模型基于 Apache2.0 协议，允许自由使用和修改。Zonos-TTS 的独特之处在于它不依赖于在线语音服务器，在本地即可实现文本转语音的功能。

Zonos-TTS 提供了四种不同的模型尺寸：微型、精简以及标准 API 模型。据 ZyphraAI 介绍，他们的目标是提供能够处理超过 100 种语言的模型选择，同时，商业用途的授权价格大约为 300 美元/5 年，或者选择每 100 万个字符 0.02 美元的价格。

整体而言，本地语音合成的优势在于，无需联网即可实现文本转语音，并且能够保护用户的隐私数据和自定义需求。

此外，Zonos-TTS 在模型推理方面也做了优化，只需单张消费级显卡即可流畅运行。根据 ZyphraAI 的测试，在 RTX4090 显卡上，该模型能够以超过 2 倍实时的速度生成语音，显著提高了效率。如果您正在寻找一款可以在本地部署且兼顾隐私与性能的语音合成方案，Zonos-TTS 值得关注。

项目地址：https://huggingface.co/Zyphra/Zonos-v0.1-hybrid

文章版权归作者所有，未经允许请勿转载。

本文地址：https://aidh.net/kuaixun/4b3jhafh

暂无评论

暂无评论...