腾讯混元推出图生视频模型,开源赋能,5秒短视频一键生成,更有智能背景音效加持

根据腾讯混元微信公众号的消息,腾讯混元正式发布了图生视频模型,并将其开源,同时推出了对口型和动作驱动等多种功能,支持生成背景音效及高达2K的高质量视频。

腾讯混元推出图生视频模型,开源赋能,5秒短视频一键生成,更有智能背景音效加持

借助图生视频的能力,用户只需上传一张图片并简要描述期望的运动效果与镜头调度,混元便能够根据需求将静态画面转化为五秒的短视频,并自动配上背景音效。此外,用户可上传一张人物图片,并输入希望其“对口型”的文本或语音,系统将使图片中的人物“说话”或“唱歌”;通过“动作驱动”功能,用户还可以一键生成同样风格的舞蹈视频。

目前,用户可以通过混元AI视频官网(https://video.hunyuan.tencent.com/)进行体验,企业与开发者亦可在腾讯云申请使用API接口。

此次开源的图生视频模型是混元在文生视频模型开源工作中的延续,模型参数总量达到130亿,适用于多种角色和场景的创作,包括写实视频制作、动漫角色乃至CGI角色的生成。

开源内容包括权重文件、推理代码以及LoRA训练代码,开发者可以基于此进行专属LoRA等衍生模型的训练。目前,用户可在GitHub、HuggingFace等主流开发者社区下载并体验。

混元开源技术报告显示,该视频生成模型具备出色的扩展性,图生视频与文生视频在同一数据集上进行预训练。在确保超写实画质、流畅展现大幅度动作以及原生镜头切换等特性的基础上,该模型能够捕捉到丰富的视觉与语义信息,并结合图像、文本、音频和姿态等多种输入条件,实现对生成视频的多维度控制。

目前,混元的开源系列模型已全面覆盖文本、图像、视频及3D生成等多个模态,并在GitHub获得超过2.3万开发者的关注和星标。

附:混元图生视频开源链接

Github:https://github.com/Tencent/HunyuanVideo-I2V

Huggingface:https://huggingface.co/tencent/HunyuanVideo-I2V

© 版权声明

相关AI热点

暂无评论

none
暂无评论...