CogView3-Plus开源：文生图技术开启新篇章

标签：AI辅助艺术创作 CogView3 CogView3-Plus-3B 智谱清言

摘要：

清华大学研发的多模态大模型，近期发布了其最新的图文生成模型CogView3，以及升级版本CogView3-Pl […]

清华大学研发的多模态大模型，近期发布了其最新的图文生成模型CogView3，以及升级版本CogView3-Plus-3B，并已在”生成扩散”App中上线。这两款模型的出现，再次引起了AI图像生成领域的一阵热潮。

CogView3被认为是一个高性能的图像生成模型，能够生成各种高质量的图像。该模型能够支持从512×512像素的低分辨率图像生成，并且可以逐步提升至1024×1024，甚至能够生成高达2048×2048像素的高清图像。在生成高质量图像的同时，还能够准确理解用户输入的提示词，从而产生符合要求的精美图像。

从技术角度来看，CogView3的生成效果显著，甚至可以和当前火热的图像生成模型SDXL相媲美，相似度高达77%。更重要的是，CogView3的训练成本远低于SDXL，这使得其在图像生成模型领域具有更大的优势和应用前景。

CogView3-Plus在此基础上进一步提升了图像生成的质量。它采用了类似于DiT架构的设计，并结合了Zero-SNR数据增强技术，从而能够更好地控制图像生成过程中的细节和纹理。该模型能够实现更精细的图像控制，从而生成更逼真、更符合用户需求的图像。CogView3-Plus还集成了16路VAE解码器，从而能够在图像生成过程中实现更高的多样性和灵活性。

总而言之，这次发布的两款图像生成模型，标志着清华大学在AI图像生成领域取得了新的突破。这两款模型不仅具有卓越的图像生成能力，还为未来的AI图像生成技术发展奠定了坚实的基础。

考虑到CogView3模型的技术特点，其图像生成领域的应用将变得更加广泛。无论是个人还是企业，都可以利用AI技术来创造更加丰富多彩的视觉内容。

文章版权归作者所有，未经允许请勿转载。

本文地址：https://aidh.net/kuaixun/ki71vjir