
腾讯发布了混元图生视频模型并对外开源,同时推出了多种新玩法,包括口型对齐和动作驱动功能,支持生成背景音效以及2K高质量视频。

基于图生视频技术,用户只需上传一张图片,并简要描述期望的动态效果及镜头调度,混元便能够根据要求将图片动起来,转化为5秒短视频,并自动添加背景音效。此外,用户若上传一张人物图片,并提供希望“对口型”的文字或音频,图片中的人物将能够“说话”或“唱歌”;利用“动作驱动”功能,用户还能够一键生成类似的舞蹈视频。
目前,用户可以通过混元 AI 视频官网(https://video.hunyuan.tencent.com/)进行体验,企业及开发者亦可在腾讯云申请使用API接口。
此次开源的图生视频模型延续了混元文生视频模型的开源工作,模型的总参数量为130亿,适用于多种角色和场景,包括写实视频制作、动漫角色及CGI角色的生成。
开源内容包括权重、推理代码和LoRA训练代码,支持开发者基于混元训练专属的LoRA等衍生模型。目前,这些资源已在GitHub、HuggingFace等主流开发者社区中提供下载和体验。
根据混元开源技术报告,混元视频生成模型具有较高的扩展性,图生视频与文生视频均在相同的数据集上进行预训练。在保持超写实画质、流畅展现大幅动作、原生镜头切换等特性的基础上,该模型能有效捕捉丰富的视觉和语义信息,并结合图像、文本、音频和姿态等多种输入条件,实现对生成视频的多维度控制。
目前,混元开源系列模型已经全面覆盖文本、图像、视频和3D生成等多个模态,在GitHub上累计获得超过2.3万名开发者的关注与星标。
附:混元图生视频开源链接
GitHub:https://github.com/Tencent/HunyuanVideo-I2V
HuggingFace:https://huggingface.co/tencent/HunyuanVideo-I2V