Warning: Undefined array key "_post_type" in /www/wwwroot/www.aidh.net/wp-content/themes/news/inc/widgets/w.single.posts.php on line 201
Warning: Undefined variable $_post_type in /www/wwwroot/www.aidh.net/wp-content/themes/news/inc/functions/io-post.php on line 231
这两款大模型分别为视频生成模型Step-Video-T2V和业界首个产品级开源语音交互模型Step-Audio。根据官方测评报告,目前,Step-Video-T2V已经成为全球最大参数量、性能最优的开源视频生成模型。Step-Video-T2V模型的部署及技术报告链接:
Hugging Face官方推特也转发了这一评论。GPT-J作者Aran Komatsuzaki分享了利用新模型生成的视频示例。
许多网友对国内AI企业在开源社区的贡献表示欢迎。
顶尖开源视频模型具备运镜能力、生成质量优秀、擅长动态表现初步体验显示,Step-Video-T2V显著提升了视频生成AI的能力上限。我们来看看使用跃问生成的视频效果。首要关注的是电影和视频短片中评价制作者技术水平的重要因素——镜头调度能力:
Step-Video-T2V模型架构概览。在模型细节方面,为实现更真实的视频生成,研究团队设计了深度压缩变分自编码器Video-VAE,该模型达成了16×16的空间压缩比。与绝大多数采用8×8×4压缩比的VAE模型相比,Video-VAE能够在相同视频帧数下实现额外的8倍压缩,从而使训练和生成效率提升至64倍。
Video-VAE结构示意。同时,阶跃星辰还基于流匹配进行了训练构建了具备3D全注意力机制的DiT,以便将输入噪声转变为潜在帧,并引入视频基础的DPO方法以减少生成视频中的伪影并提升视觉质量。
双语文本编码器与具备3D注意力的DiT模型架构。为全面评估开源视频生成模型的性能,阶跃星辰还推出了针对文本生成视频质量评测的基准数据集Step-Video-T2V-Eval。该测试集包含128条源自真实用户的中文评测问题,旨在评估生成视频在运动、风景、动物、组合概念、超现实主义、人物、3D动画、电影摄制等11个内容类别中的表现。
Step-Video-T2V-Eval评测结果。评测结果表明,Step-Video-T2V在指令遵循、运动平滑性、物理真实性以及美感等方面的表现,均超越了当前行业内最优的开源模型。产品级语音交互模型具备高情商且可以理解方言在语音交互领域,阶跃星辰开源的Step-Audio能够在不同场景中生成具有情感、方言、语言、歌声以及个性化风格的表达,使得AI与用户的对话更加自然且高质量。以下是一些实测示例。在Step-Audio的辅助下,我们发现当前的AI已经能够理解并应对复杂的人际交往场景:
此外,依据阶跃自行构建并开源的多维度评估体系StepEval-Audio-360基准测试显示,Step-Audio在逻辑推理、创作能力、指令控制、语言能力、角色扮演、文字游戏、情感价值等多个维度都达到了最佳业绩。
具体而言,Step-Audio的技术探索为多模态开源社区提供了五个方面的重要贡献:
*在 OpenCompass 多模态模型评测实时榜单上,Step-1o 大模型位列业内第一。*真正以构建 AGI 为最终目标的团队,必然会选择坚持预训练和基座大模型的研发。阶跃星辰曾公开其 AGI 路线图:“单模态 —— 多模态 —— 多模理解和生成的统一 —— 世界模型 —— AGI”。这一思路在今日发布的 Step-Video-T2V 技术报告中得到了体现。阶跃星辰将构建视频基础模型定义为两个级别: