腾讯混元推出图生视频模型，开源赋能，5秒短视频一键生成，更有智能背景音效加持

根据腾讯混元微信公众号的消息，腾讯混元正式发布了图生视频模型，并将其开源，同时推出了对口型和动作驱动等多种功能，支持生成背景音效及高达2K的高质量视频。

借助图生视频的能力，用户只需上传一张图片并简要描述期望的运动效果与镜头调度，混元便能够根据需求将静态画面转化为五秒的短视频，并自动配上背景音效。此外，用户可上传一张人物图片，并输入希望其“对口型”的文本或语音，系统将使图片中的人物“说话”或“唱歌”；通过“动作驱动”功能，用户还可以一键生成同样风格的舞蹈视频。

目前，用户可以通过混元AI视频官网（https://video.hunyuan.tencent.com/）进行体验，企业与开发者亦可在腾讯云申请使用API接口。

此次开源的图生视频模型是混元在文生视频模型开源工作中的延续，模型参数总量达到130亿，适用于多种角色和场景的创作，包括写实视频制作、动漫角色乃至CGI角色的生成。

开源内容包括权重文件、推理代码以及LoRA训练代码，开发者可以基于此进行专属LoRA等衍生模型的训练。目前，用户可在GitHub、HuggingFace等主流开发者社区下载并体验。

混元开源技术报告显示，该视频生成模型具备出色的扩展性，图生视频与文生视频在同一数据集上进行预训练。在确保超写实画质、流畅展现大幅度动作以及原生镜头切换等特性的基础上，该模型能够捕捉到丰富的视觉与语义信息，并结合图像、文本、音频和姿态等多种输入条件，实现对生成视频的多维度控制。

目前，混元的开源系列模型已全面覆盖文本、图像、视频及3D生成等多个模态，并在GitHub获得超过2.3万开发者的关注和星标。

附：混元图生视频开源链接

Github：https://github.com/Tencent/HunyuanVideo-I2V

Huggingface：https://huggingface.co/tencent/HunyuanVideo-I2V

人工智能智能时代 # 图生视频模型 # 腾讯混元

文章版权归作者所有，未经允许请勿转载。

暂无评论

暂无评论...

腾讯混元推出图生视频模型，开源赋能，5秒短视频一键生成，更有智能背景音效加持

告别“生肉”的时代即将来临：亚马逊 Prime Video 引入 AI 辅助配音提升影视节目体验

摩尔线程正式宣布对通义千问 QwQ-32B 开源模型的 Day0 级支持

相关AI热点

腾讯混元 Turbo S 发布：新一代快思考模型，响应速度提升至“秒回”级别

暂无评论

AI热榜

人工智能热点阅读