谷歌推出StreamVC实时语音转换系统:音色转换,语调不变

10个月前发布AI俱乐部
3 0 0
标签:
谷歌推出StreamVC实时语音转换系统:音色转换,语调不变的封面图

在当今快速发展的时代,能否根据需求定制表达内容至关重要,这关系到我们能否高效地传递信息。为了应对这一挑战,我们开发了一种新的音频编解码器。

StreamVC是一种新型的音频编解码器,能够根据指定的属性和参数,在特定时间范围内调整音频的表达方式,实现对音频表达的精细控制。与传统方法不同,StreamVC在音频编辑方面表现如何?让我们一起深入了解。

核心能力:

时间控制:StreamVC可以在指定的时间段内精确地调整音频的表达方式,精确度高达70.8毫秒。

风格语音控制:借鉴了SoundStream的架构,可以调整音色和风格等属性,从而实现风格语音控制。

音高控制:能够独立控制音频的基频(f0)值,允许单独调整音高,同时保持语音内容的完整性。

StreamVC的独特之处在于它结合了Soft-VC和SoundStream的技术。它利用HuBERT模型生成的内容表示,并结合了声码器的韵律信息,实现了高质量的音频编辑。通过调整SoundStream声码器的参数,可以实现风格语音控制,并生成高质量的音频内容。

StreamVC在多种音频编辑任务中表现出色,包括风格迁移、内容替换和语音属性编辑。凭借其卓越的性能,StreamVC能够为音频编辑领域带来创新性的解决方案,从而满足不断增长的音频内容创作需求。

StreamVC在内容表示和可控风格方面实现了突破,它使用了HuBERT的离散音频表示,实现了高质量的跨说话人风格迁移。利用声码器的韵律信息独立控制f0值,这为风格语音控制提供了更大的灵活性。

论文链接:https://arxiv.org/pdf/2401.03078

© 版权声明:
本文地址:https://aidh.net/kuaixun/onar36pc

暂无评论

none
暂无评论...