
字节跳动最新推出的SeedFoley音效生成模型,为视频创作带来了革命性的变革。该模型能够根据视频内容智能匹配专业级音效,轻松将视频从无声转换为有声大片,目前已上线字节跳动旗下视频创作平台即梦。
(图示: )
SeedFoley采用端到端架构,融合视频时空特征和扩散生成模型,实现音效与视频内容的高度同步和契合。模型首先对视频进行帧分析,提取关键信息并深度解读内容,然后将这些信息投射到条件空间,指导音效生成。改进的扩散模型框架则根据视频内容智能生成匹配的音效方案。 在训练过程中,SeedFoley学习了大量语音和音乐相关标签,能够区分音效和非音效,从而实现更精准的音效生成。该模型能够处理各种长度的视频,并在音效准确性、同步性和内容匹配度上达到行业领先水平。
(图示: )
SeedFoley的视频编码器采用快慢特征组合策略,在高帧率下捕捉细微的局部运动信息,在低帧率下提取语义信息。这种快慢特征结合,在低计算资源下实现了8fps帧级别视频特征提取,并通过Transformer结构融合快慢特征,深度挖掘视频时空信息。此外,模型在训练中引入多个困难样本,并采用sigmoid loss而非softmax loss,在低资源消耗下实现了媲美大批次训练的效果。
SeedFoley的音频表征模型采用原始波形(raw waveform)作为输入,而非传统的梅尔频谱,并采用32k采样率,有效提升音频时序分辨率。 模型采用两阶段联合训练策略:第一阶段使用掩码策略剥离音频表征中的相位信息,将去相位后的潜在表征作为扩散模型的优化目标;第二阶段使用音频解码器重建相位信息,最终实现高质量音频潜在表征的生成和还原。
(图示: )
在扩散模型方面,SeedFoley采用DiffusionTransformer框架,通过优化概率路径上的连续映射关系,实现从高斯噪声分布到目标音频表征空间的概率精准匹配。该方法减少了推理步数,大幅降低了推理成本,提高了音效生成速度和效率。
质量,如同使用音效调音台般灵活控制音效风格。SeedFoley通过迭代优化噪声分布,将噪声逐步转化为目标数据分布,最终生成高质量音效。 此外,通过强制设定人声和音乐标签,SeedFoley有效避免了音效中出现不必要的人声或背景音乐干扰,从而提升音效的清晰度和质感。最后,音频表征被输入音频解码器,生成最终音效。
SeedFoley实现了视频内容与音频生成的深度融合,能够精准提取视频帧级视觉信息,并基于多帧画面信息识别发声主体和动作场景。 无论节奏感强烈的音乐片段还是紧张的电影情节,SeedFoley都能精准匹配音效,营造身临其境的逼真体验。 更重要的是,SeedFoley能够区分动作音效和环境音效,如同一位声音艺术家,显著提升视频的叙事张力和情感表达效率,赋予视频作品更强的感染力。
即梦平台现已正式上线AI音效功能。用户只需在即梦平台生成视频后选择该功能,即可一键生成三个专业级音效方案,轻松解决AI视频无声的难题。 这项功能广泛适用于AI视频创作、生活Vlog、短片制作和游戏制作等场景,帮助用户便捷地制作出配有专业音效的高质量视频,让视频作品更具活力。