智谱发布CogView4:首个开源可生成汉字的文生图模型

1周前发布AI俱乐部
2 0 0
智谱发布CogView4:首个开源可生成汉字的文生图模型的封面图

2025年3月4日,由THUDM团队研发的CogView4模型在DPG-Bench基准测试中取得了显著成果,其性能指标超越了当前最先进水平(State of the Art),并采用Apache2.0开源许可协议,方便研究者进行二次开发和应用。

CogView4模型在图像生成领域展现出优异的性能,它能高效生成高质量的图像,并具备强大的图像理解能力,在多项图像生成任务中均取得了领先的成果。此外,该模型还具有良好的可扩展性和易用性,方便用户快速上手和应用,拓展了图像生成技术的应用边界。

该模型的成功离不开团队在模型架构和训练策略上的创新,例如,它采用了先进的Flow-matching训练方法,以及创新的Share-param DiT模型架构,有效提升了模型的生成效率和图像质量。同时,优化后的LayerNorm层也提高了模型的稳定性和泛化能力,进一步增强了模型的性能。

值得一提的是,CogView4模型在长文本描述下的图像生成方面表现出色,能够根据长达200-300个token甚至更长的文本描述生成高质量的图像,并且在长文本描述下仍能保持50%以上的token准确率,而错误率仅在5%-30%之间,这在业界处于领先地位。

目前,CogView4模型已开源,并采用Apache2.0许可协议,允许开发者自由使用和修改,方便与ControlNet、ComfyUI等工具集成,进一步拓展图像生成技术的应用场景,促进AI图像生成领域的发展。

项目地址:

https://github.com/THUDM/CogView4

模型地址:

https://huggingface.co/THUDM/CogView4-6B

https://modelscope.cn/models/ZhipuAI/CogView4-6B

© 版权声明:
本文地址:https://aidh.net/kuaixun/lefloab6

暂无评论

none
暂无评论...