

腾讯混元团队近期发布了名为HunyuanDiT的扩散模型,该模型融合了多种先进技术,如ControlNet(用于精准控制图像生成)、tile(用于处理高分辨率图像)、inpainting(用于图像修复与内容填充)以及lineart(用于线条风格图像生成),从而在ControlNet的应用上实现了显著的性能提升。该模型通过结合DiT模型架构,旨在解决生成高质量图像所面临的挑战,显著提升了图像的细节还原、真实感、质量和多样性,据称在超过80%的测试中都优于其他模型,为用户和从业者带来了更强大、更高效的图像生成工具。
Tile功能侧重于处理图像的局部细节,尤其适用于生成4K或8K级别的高清图像,可以有效减少图像在放大过程中可能出现的模糊或失真现象。Inpainting功能则专注于图像的修复和编辑,能够智能地填充图像中缺失或需要修改的区域,从而实现无缝修复,并且能够根据用户的需求进行创意性的内容填充。Lineart功能则擅长于生成线条简洁、风格独特的图像,适用于草图绘制、艺术创作等场景,能够快速生成具有艺术感的线条作品。
更重要的是,混元DiT还能支持诸如canny(边缘检测)、depth(深度信息)和pose(姿态识别)等更多ControlNet模型所支持的控制条件,这意味着用户可以更精确地控制生成图像的各个方面,充分发挥ControlNet的优势,从而实现更高质量、更符合需求的图像生成效果。
在实验数据方面,混元DiT模型在生成图像质量上表现出色,其DiT架构在图像生成任务中展现了强大的性能,能够在保证图像质量的同时,提升生成效率。测试结果表明,该模型在图像细节的还原和整体质量上均有显著提升,能够生成更逼真、更精细的图像,在性能上更胜一筹。经过7天的迭代优化,混元DiT模型的大小压缩至1.2倍,使其能在相对有限的计算资源下流畅运行,即使是配备6G显存的设备也能轻松驾驭,大大降低了用户的使用门槛。
目前,混元DiT项目已在Github上开源,并获得了超过3.1k的Star,成为了备受关注的DiT图像生成模型之一。
项目地址
https://dit.hunyuan.tencent.com/
代码
https://github.com/Tencent/HunyuanDiT
模型
https://huggingface.co/Tencent-Hunyuan/HunyuanDiT
报告
https://tencent.github.io/HunyuanDiT/asset/HunyuanDiTTechReport05140553.pdf