字节跳动发布Infinity:自回归文生图技术取得新突破,性能表现超越扩散模型

2个月前发布AI俱乐部
3 0 0
字节跳动发布Infinity:自回归文生图技术取得新突破,性能表现超越扩散模型的封面图

今天我们来聊一聊一款名为Infinity的图像生成模型,它声称其性能可以比肩当前最先进的Stable Diffusion3,并且在多个方面都超越了现有的模型。

Infinity模型的一个显著特点是采用了Bitwise Token的量化技术,该技术通过将多个浮点数转换为+1和-1的组合,实现了对模型性能的提升。简单来说,“Bitwise Token”技术旨在优化模型的推理效率,使其能够更快地生成高质量的图像。此外,Infinity模型还使用了稀疏注意力机制,从而进一步提高了图像生成的效率。

在性能方面,Infinity模型在图像质量和生成速度上都表现出色,甚至超越了HART、LlamaGen、Emu3等模型。据报道,Infinity模型在90%的测试中都优于HART模型。此外,Infinity模型在75%、80%和65%的测试中都超过了SOTA级别的图像生成模型,如PixArt-Sigma、SD-XL和SD3-Medium等。

Infinity模型的一个关键创新之处在于其采用了可扩展的scaling法则。该法则允许模型在增加计算资源的情况下,持续提升性能。这意味着,随着技术的不断发展,Infinity模型有望在未来实现更高的图像生成质量和效率。

在实际应用中,Infinity模型展现出了强大的图像生成能力。例如,2B参数的Infinity模型能够生成1024x1024分辨率的图像,并且在0.8秒内完成生成。而SD3-Medium模型则需要3秒,Flux Dev的12B模型需要14秒。此外,8B参数的Infinity模型能够生成SD3.5级别的图像,耗时7秒;20B参数的Infinity模型可以在3秒内生成1024x1024分辨率的图像,Flux Dev的12B模型则需要4秒。

目前,Infinity模型的论文、演示以及模型代码都已在GitHub上开源。感兴趣的读者可以自行下载和体验,以便更好地了解该模型的性能和特点。

项目地址:https://foundationvision.github.io/infinity.project/

快讯中提到的AI工具

Stable Diffusion
Stable Diffusion

Stability AI旗下,引领生成式人工智能创新发展

© 版权声明:
本文地址:https://aidh.net/kuaixun/3hpjfri5

暂无评论

none
暂无评论...