继DeepSeek之后，阶跃星辰宣布直接开源两款国产多模态大模型

两款Step系列开源多模态大模型，在开源多模态领域中表现卓越，居于行业首位。

本周二，国内人工智能创业公司阶跃星辰与吉利汽车集团联合发布了两款多模态大模型。

继DeepSeek之后，阶跃星辰宣布直接开源两款国产多模态大模型这两款大模型分别为视频生成模型Step-Video-T2V和业界首个产品级开源语音交互模型Step-Audio。根据官方测评报告，目前，Step-Video-T2V已经成为全球最大参数量、性能最优的开源视频生成模型。Step-Video-T2V模型的部署及技术报告链接：

GitHub: https://github.com/stepfun-ai/Step-Video-T2V
Hugging Face: https://huggingface.co/stepfun-ai/stepvideo-t2v
Modelscope: https://modelscope.cn/models/stepfun-ai/stepvideo-t2v
技术报告: https://arxiv.org/abs/2502.10248

与之前引发全球科技界关注的DeepSeek R1类似，阶跃星辰的Step-Video-T2V视频生成模型也采用了宽松的MIT许可协议，允许免费商用及任意修改和衍生开发，为开源社区注入新的技术灵感。这次发布标志着阶跃星辰在大模型开源领域成为又一重要的中国参与者。与此同时，这两款大模型已可在「跃问」App上试用，视频模型还支持桌面端使用，访问链接：https://yuewen.cn/videos阶跃星辰的大模型引发了广泛关注。Hugging Face工程师及前谷歌TensorFlow团队成员Tiezhen Wang表示，阶跃星辰无疑是下一个DeepSeek：继DeepSeek之后，阶跃星辰宣布直接开源两款国产多模态大模型 ^{Hugging Face官方推特也转发了这一评论。}GPT-J作者Aran Komatsuzaki分享了利用新模型生成的视频示例。许多网友对国内AI企业在开源社区的贡献表示欢迎。顶尖开源视频模型具备运镜能力、生成质量优秀、擅长动态表现初步体验显示，Step-Video-T2V显著提升了视频生成AI的能力上限。我们来看看使用跃问生成的视频效果。首要关注的是电影和视频短片中评价制作者技术水平的重要因素——镜头调度能力：继DeepSeek之后，阶跃星辰宣布直接开源两款国产多模态大模型 ^{Step-Video-T2V模型架构概览。}在模型细节方面，为实现更真实的视频生成，研究团队设计了深度压缩变分自编码器Video-VAE，该模型达成了16×16的空间压缩比。与绝大多数采用8×8×4压缩比的VAE模型相比，Video-VAE能够在相同视频帧数下实现额外的8倍压缩，从而使训练和生成效率提升至64倍。继DeepSeek之后，阶跃星辰宣布直接开源两款国产多模态大模型 ^{Video-VAE结构示意。}同时，阶跃星辰还基于流匹配进行了训练构建了具备3D全注意力机制的DiT，以便将输入噪声转变为潜在帧，并引入视频基础的DPO方法以减少生成视频中的伪影并提升视觉质量。继DeepSeek之后，阶跃星辰宣布直接开源两款国产多模态大模型 ^{双语文本编码器与具备3D注意力的DiT模型架构。}为全面评估开源视频生成模型的性能，阶跃星辰还推出了针对文本生成视频质量评测的基准数据集Step-Video-T2V-Eval。该测试集包含128条源自真实用户的中文评测问题，旨在评估生成视频在运动、风景、动物、组合概念、超现实主义、人物、3D动画、电影摄制等11个内容类别中的表现。继DeepSeek之后，阶跃星辰宣布直接开源两款国产多模态大模型 ^{Step-Video-T2V-Eval评测结果。}评测结果表明，Step-Video-T2V在指令遵循、运动平滑性、物理真实性以及美感等方面的表现，均超越了当前行业内最优的开源模型。产品级语音交互模型具备高情商且可以理解方言在语音交互领域，阶跃星辰开源的Step-Audio能够在不同场景中生成具有情感、方言、语言、歌声以及个性化风格的表达，使得AI与用户的对话更加自然且高质量。以下是一些实测示例。在Step-Audio的辅助下，我们发现当前的AI已经能够理解并应对复杂的人际交往场景：继DeepSeek之后，阶跃星辰宣布直接开源两款国产多模态大模型此外，依据阶跃自行构建并开源的多维度评估体系StepEval-Audio-360基准测试显示，Step-Audio在逻辑推理、创作能力、指令控制、语言能力、角色扮演、文字游戏、情感价值等多个维度都达到了最佳业绩。继DeepSeek之后，阶跃星辰宣布直接开源两款国产多模态大模型具体而言，Step-Audio的技术探索为多模态开源社区提供了五个方面的重要贡献：

多模态理解与生成一体化：该单一模型具备语音识别、语义理解、对话与语音生成等多项功能，并开源了千亿参数级的多模态模型Step-Audio-Chat版本；语音控制：** Step-Audio 支持多种情绪（如生气、高兴、悲伤）、方言（如粤语、四川话）和唱歌（包括 RAP、干声哼唱）的精准调控。
**扩展工具调用：** 借助 ToolCall 机制，Step-Audio 能够集成搜索引擎、知识库等外部工具，从而进一步提升其在 Agents 和复杂任务上的表现。
**高情商对话与角色扮演：** 基于情感增强与角色扮演强化的 RLHF 流程，Step-Audio 能够提供更富有人性化的回应，并支持定制化角色设定。

GitHub 链接：[https://github.com/stepfun-ai/Step-Audio](https://github.com/stepfun-ai/Step-Audio)
Hugging Face：[https://huggingface.co/collections/stepfun-ai/step-audio-67b33accf45735bb21131b0b](https://huggingface.co/collections/stepfun-ai/step-audio-67b33accf45735bb21131b0b)
Modelscope：[https://modelscope.cn/collections/Step-Audio-a47b227413534a](https://modelscope.cn/collections/Step-Audio-a47b227413534a)
技术报告：[https://github.com/stepfun-ai/Step-Audio/blob/main/assets/Step-Audio.pdf](https://github.com/stepfun-ai/Step-Audio/blob/main/assets/Step-Audio.pdf)

**「多模态卷王」阶跃星辰****正成为新锐开源力量**自 ChatGPT 发布以来，短短两年间，生成式 AI 领域已发生了天翻地覆的变化。我们见证了早期 300 家大模型同台竞技的盛况，也目睹了其后“大模型 n 小龙”在不同赛道上的探索。DeepSeek 于去年底的崛起，仿佛为业界注入了一剂强心剂，激发了新一轮更为激烈的竞争。在新的格局下，GPU 数量和数据体量不再是创业公司难以逾越的壁垒。与此同时，一些坚持技术路线的企业正在逐步展现其优势。与许多逐渐转向应用侧的大模型公司不同，阶跃星辰始终专注于技术驱动的发展思路，持续投入资源迭代基础模型。凭借深厚的技术积累，阶跃星辰在多模态领域一直处于领先地位。从产品布局来看，阶跃的大模型涵盖语音识别、语音复刻及生成模型、视频理解模型、图像生成模型、视频生成模型、多模态理解等多种类别，且研发速度极快，自成立以来已发布了 11 款模型。从成果来看，阶跃的 Step 系列多模态模型曾多次在国内外权威大模型评测榜单上名列“中国大模型第一”。无论是开源社区还是合作伙伴，都已对阶跃的大模型给予了充分的认可。继DeepSeek之后，阶跃星辰宣布直接开源两款国产多模态大模型 *在 OpenCompass 多模态模型评测实时榜单上，Step-1o 大模型位列业内第一。*真正以构建 AGI 为最终目标的团队，必然会选择坚持预训练和基座大模型的研发。阶跃星辰曾公开其 AGI 路线图：“单模态 —— 多模态 —— 多模理解和生成的统一 —— 世界模型 —— AGI”。这一思路在今日发布的 Step-Video-T2V 技术报告中得到了体现。阶跃星辰将构建视频基础模型定义为两个级别：

Level 1 为翻译视频的基础模型。此类模型可作为跨模态翻译系统，能够从文本、视觉或多模态上下文生成视频。目前基于扩散的文本转视频模型，如 Sora、Veo、Kling、Hailuo 和 Step-Video 系列，均属于 Level 1。
Level 2 则为“可预测视频基础模型”。此级别的模型可作为预测系统，类似于大型语言模型（LLM），能够根据文本、视觉或多模态上下文预测未来事件，并处理更高级的任务，例如使用多模态数据进行推理或模拟真实世界场景。

在该技术报告中，工程师们阐述了开发 Level 2 级视频基础模型需要解决的关键问题。若能对视频中潜在的因果关系进行建模，便能生成更为复杂的动作序列，以及真正符合物理定律的视频，从而使多模态拥有如今日 LLM 中涌现的“推理”能力。这一理念与李飞飞及其在 World Labs 中的工作不谋而合。由此可见，在多模态大模型领域，新的发展方向已逐渐清晰。可以预见，继 DeepSeek 之后，更多国内领先的开源技术将会涌现，成为 AI 领域中不可忽视的力量。

文章版权归作者所有，未经允许请勿转载。

暂无评论

暂无评论...

继DeepSeek之后，阶跃星辰宣布直接开源两款国产多模态大模型

全新强大全模态模型Ola-7B席卷图像、视频和音频领域主流榜单，由腾讯混元Research、清华大学和南洋理工大学联合开发

国内首个短剧创作大模型开源，单人即可拍摄80秒短剧，成就大片新体验

相关AI热点

阶跃星辰联手吉利首发开源Step系列多模态大模型，涵盖视频与语音两大领域

暂无评论

AI热榜

人工智能热点阅读