智谱发布CogView4：首个开源可生成汉字的文生图模型

摘要：

2025年3月4日，由THUDM团队研发的CogView4模型在DPG-Bench基准测试中取得了显著成果，其 […]

2025年3月4日，由THUDM团队研发的CogView4模型在DPG-Bench基准测试中取得了显著成果，其性能指标超越了当前最先进水平(State of the Art)，并采用Apache2.0开源许可协议，方便研究者进行二次开发和应用。

CogView4模型在图像生成领域展现出优异的性能，它能高效生成高质量的图像，并具备强大的图像理解能力，在多项图像生成任务中均取得了领先的成果。此外，该模型还具有良好的可扩展性和易用性，方便用户快速上手和应用，拓展了图像生成技术的应用边界。

该模型的成功离不开团队在模型架构和训练策略上的创新，例如，它采用了先进的Flow-matching训练方法，以及创新的Share-param DiT模型架构，有效提升了模型的生成效率和图像质量。同时，优化后的LayerNorm层也提高了模型的稳定性和泛化能力，进一步增强了模型的性能。

值得一提的是，CogView4模型在长文本描述下的图像生成方面表现出色，能够根据长达200-300个token甚至更长的文本描述生成高质量的图像，并且在长文本描述下仍能保持50%以上的token准确率，而错误率仅在5%-30%之间，这在业界处于领先地位。

目前，CogView4模型已开源，并采用Apache2.0许可协议，允许开发者自由使用和修改，方便与ControlNet、ComfyUI等工具集成，进一步拓展图像生成技术的应用场景，促进AI图像生成领域的发展。

项目地址:

https://github.com/THUDM/CogView4

模型地址:

https://huggingface.co/THUDM/CogView4-6B

https://modelscope.cn/models/ZhipuAI/CogView4-6B

文章版权归作者所有，未经允许请勿转载。

本文地址：https://aidh.net/kuaixun/lefloab6

暂无评论