谷歌推出StreamVC实时语音转换系统：音色转换，语调不变

1年前发布AI俱乐部

标签：AI头条

摘要：

在当今快速发展的时代，能否根据需求定制表达内容至关重要，这关系到我们能否高效地传递信息。为了应对这一挑战，我们 […]

在当今快速发展的时代，能否根据需求定制表达内容至关重要，这关系到我们能否高效地传递信息。为了应对这一挑战，我们开发了一种新的音频编解码器。

StreamVC是一种新型的音频编解码器，能够根据指定的属性和参数，在特定时间范围内调整音频的表达方式，实现对音频表达的精细控制。与传统方法不同，StreamVC在音频编辑方面表现如何？让我们一起深入了解。

核心能力：

时间控制：StreamVC可以在指定的时间段内精确地调整音频的表达方式，精确度高达70.8毫秒。

风格语音控制：借鉴了SoundStream的架构，可以调整音色和风格等属性，从而实现风格语音控制。

音高控制：能够独立控制音频的基频(f0)值，允许单独调整音高，同时保持语音内容的完整性。

StreamVC的独特之处在于它结合了Soft-VC和SoundStream的技术。它利用HuBERT模型生成的内容表示，并结合了声码器的韵律信息，实现了高质量的音频编辑。通过调整SoundStream声码器的参数，可以实现风格语音控制，并生成高质量的音频内容。

StreamVC在多种音频编辑任务中表现出色，包括风格迁移、内容替换和语音属性编辑。凭借其卓越的性能，StreamVC能够为音频编辑领域带来创新性的解决方案，从而满足不断增长的音频内容创作需求。

StreamVC在内容表示和可控风格方面实现了突破，它使用了HuBERT的离散音频表示，实现了高质量的跨说话人风格迁移。利用声码器的韵律信息独立控制f0值，这为风格语音控制提供了更大的灵活性。

论文链接：https://arxiv.org/pdf/2401.03078

文章版权归作者所有，未经允许请勿转载。

本文地址：https://aidh.net/kuaixun/onar36pc

暂无评论