ZyphraAI开源Zonos-TTS:实时语音克隆与多语言情感控制技术亮相

1个月前发布AI俱乐部
3 0 0
ZyphraAI开源Zonos-TTS:实时语音克隆与多语言情感控制技术亮相的封面图

ZyphraAI 近期发布了一款开源的本地语音合成(TTS)模型 Zonos-TTS,该模型基于 Apache2.0 协议,允许自由使用和修改。Zonos-TTS 的独特之处在于它不依赖于在线语音服务器,在本地即可实现文本转语音的功能。

Zonos-TTS 提供了四种不同的模型尺寸:微型、精简以及标准 API 模型。据 ZyphraAI 介绍,他们的目标是提供能够处理超过 100 种语言的模型选择,同时,商业用途的授权价格大约为 300 美元/5 年,或者选择每 100 万个字符 0.02 美元的价格。

整体而言,本地语音合成的优势在于,无需联网即可实现文本转语音,并且能够保护用户的隐私数据和自定义需求。

此外,Zonos-TTS 在模型推理方面也做了优化,只需单张消费级显卡即可流畅运行。根据 ZyphraAI 的测试,在 RTX4090 显卡上,该模型能够以超过 2 倍实时的速度生成语音,显著提高了效率。如果您正在寻找一款可以在本地部署且兼顾隐私与性能的语音合成方案,Zonos-TTS 值得关注。

项目地址:https://huggingface.co/Zyphra/Zonos-v0.1-hybrid

© 版权声明:
本文地址:https://aidh.net/kuaixun/4b3jhafh

暂无评论

none
暂无评论...