

清华大学研发的多模态大模型,近期发布了其最新的图文生成模型CogView3,以及升级版本CogView3-Plus-3B,并已在"生成扩散"App中上线。这两款模型的出现,再次引起了AI图像生成领域的一阵热潮。
CogView3被认为是一个高性能的图像生成模型,能够生成各种高质量的图像。该模型能够支持从512x512像素的低分辨率图像生成,并且可以逐步提升至1024x1024,甚至能够生成高达2048x2048像素的高清图像。在生成高质量图像的同时,还能够准确理解用户输入的提示词,从而产生符合要求的精美图像。
从技术角度来看,CogView3的生成效果显著,甚至可以和当前火热的图像生成模型SDXL相媲美,相似度高达77%。更重要的是,CogView3的训练成本远低于SDXL,这使得其在图像生成模型领域具有更大的优势和应用前景。
CogView3-Plus在此基础上进一步提升了图像生成的质量。它采用了类似于DiT架构的设计,并结合了Zero-SNR数据增强技术,从而能够更好地控制图像生成过程中的细节和纹理。该模型能够实现更精细的图像控制,从而生成更逼真、更符合用户需求的图像。CogView3-Plus还集成了16路VAE解码器,从而能够在图像生成过程中实现更高的多样性和灵活性。
总而言之,这次发布的两款图像生成模型,标志着清华大学在AI图像生成领域取得了新的突破。这两款模型不仅具有卓越的图像生成能力,还为未来的AI图像生成技术发展奠定了坚实的基础。
考虑到CogView3模型的技术特点,其图像生成领域的应用将变得更加广泛。无论是个人还是企业,都可以利用AI技术来创造更加丰富多彩的视觉内容。
模型体验地址:
https://top.aibase.com/tool/cogview3
Plus 模型体验地址: