腾讯混元发布图生视频模型，开放源代码并推出对口型和动作驱动等新玩法

腾讯发布了混元图生视频模型并对外开源，同时推出了多种新玩法，包括口型对齐和动作驱动功能，支持生成背景音效以及2K高质量视频。

基于图生视频技术，用户只需上传一张图片，并简要描述期望的动态效果及镜头调度，混元便能够根据要求将图片动起来，转化为5秒短视频，并自动添加背景音效。此外，用户若上传一张人物图片，并提供希望“对口型”的文字或音频，图片中的人物将能够“说话”或“唱歌”；利用“动作驱动”功能，用户还能够一键生成类似的舞蹈视频。

目前，用户可以通过混元 AI 视频官网（https://video.hunyuan.tencent.com/）进行体验，企业及开发者亦可在腾讯云申请使用API接口。

此次开源的图生视频模型延续了混元文生视频模型的开源工作，模型的总参数量为130亿，适用于多种角色和场景，包括写实视频制作、动漫角色及CGI角色的生成。

开源内容包括权重、推理代码和LoRA训练代码，支持开发者基于混元训练专属的LoRA等衍生模型。目前，这些资源已在GitHub、HuggingFace等主流开发者社区中提供下载和体验。

根据混元开源技术报告，混元视频生成模型具有较高的扩展性，图生视频与文生视频均在相同的数据集上进行预训练。在保持超写实画质、流畅展现大幅动作、原生镜头切换等特性的基础上，该模型能有效捕捉丰富的视觉和语义信息，并结合图像、文本、音频和姿态等多种输入条件，实现对生成视频的多维度控制。

目前，混元开源系列模型已经全面覆盖文本、图像、视频和3D生成等多个模态，在GitHub上累计获得超过2.3万名开发者的关注与星标。

附：混元图生视频开源链接

GitHub：https://github.com/Tencent/HunyuanVideo-I2V

HuggingFace：https://huggingface.co/tencent/HunyuanVideo-I2V