字节跳动发布Infinity：自回归文生图技术取得新突破，性能表现超越扩散模型

11个月前发布AI俱乐部

摘要：

今天我们来聊一聊一款名为Infinity的图像生成模型，它声称其性能可以比肩当前最先进的Stable Diff […]

字节跳动发布Infinity：自回归文生图技术取得新突破，性能表现超越扩散模型的封面图

今天我们来聊一聊一款名为Infinity的图像生成模型，它声称其性能可以比肩当前最先进的Stable Diffusion3，并且在多个方面都超越了现有的模型。

Infinity模型的一个显著特点是采用了Bitwise Token的量化技术，该技术通过将多个浮点数转换为+1和-1的组合，实现了对模型性能的提升。简单来说，“Bitwise Token”技术旨在优化模型的推理效率，使其能够更快地生成高质量的图像。此外，Infinity模型还使用了稀疏注意力机制，从而进一步提高了图像生成的效率。

在性能方面，Infinity模型在图像质量和生成速度上都表现出色，甚至超越了HART、LlamaGen、Emu3等模型。据报道，Infinity模型在90%的测试中都优于HART模型。此外，Infinity模型在75%、80%和65%的测试中都超过了SOTA级别的图像生成模型，如PixArt-Sigma、SD-XL和SD3-Medium等。

Infinity模型的一个关键创新之处在于其采用了可扩展的scaling法则。该法则允许模型在增加计算资源的情况下，持续提升性能。这意味着，随着技术的不断发展，Infinity模型有望在未来实现更高的图像生成质量和效率。

在实际应用中，Infinity模型展现出了强大的图像生成能力。例如，2B参数的Infinity模型能够生成1024×1024分辨率的图像，并且在0.8秒内完成生成。而SD3-Medium模型则需要3秒，Flux Dev的12B模型需要14秒。此外，8B参数的Infinity模型能够生成SD3.5级别的图像，耗时7秒；20B参数的Infinity模型可以在3秒内生成1024×1024分辨率的图像，Flux Dev的12B模型则需要4秒。

目前，Infinity模型的论文、演示以及模型代码都已在GitHub上开源。感兴趣的读者可以自行下载和体验，以便更好地了解该模型的性能和特点。

项目地址:https://foundationvision.github.io/infinity.project/