SongGen

AI产品8个月前发布 AI工具箱
0 0 0
SongGen的封面图

SongGen是由上海AI Lab、北京航空航天大学和香港中文大学合作开发的一种先进的单阶段自回归Transformer模型,专门用于根据文本生成歌曲。该模型接受歌词和描述性文本(如乐器、风格、情感等)作为输入,提供两种输出模式:混合模式和模式。混合模式生成包含人声和伴奏的合成音频,而模式则分别生成人声和伴奏,方便后期编辑和处理。SongGen采用创新的音频标记化技术和训练策略,显著提升了生成歌曲的自然度和人声的清晰度,成功解决了传统多阶段生成方法中复杂的训练和推理流程。其开源特性和高质量的数据集为未来音乐生成研究树立了新的标杆。

SongGen的主要功能包括:

  • 精细控制:用户可根据歌词和描述性文本精准控制生成歌曲。
  • 声音克隆:支持通过三秒参考音频实现声音克隆,展现特定歌手的音色特征。
  • 双重生成模式:提供“混合模式”和“模式”两种输出选项。
  • 高质量音频输出:通过优化的音频标记化和训练策略生成自然、清晰的歌曲。

SongGen的技术原理涉及自回归生成框架、音频标记化、混合模式与模式、条件输入编码以及训练策略等方面。该项目已在GitHub上建立仓库,地址为https://github.com/LiuZH-19/SongGen,并有相关技术论文发布在arXiv上,链接为https://arxiv.org/pdf/2502.13128。

SongGen的应用场景涵盖音乐创作、视频配乐、教育辅助、个性化体验和商业应用等领域,为用户提供了广泛的实际应用可能性。

© 版权声明

相关AI热点

没有相关内容!

暂无评论

none
暂无评论...