英伟达联手MIT、清华发布Sana：AI图像生成速度提升100倍，笔记本电脑也能实现秒速出图！

10个月前发布AI俱乐部

若想深入了解生成模型的最新进展，Sana模型是一个值得关注的对象，它能以卓越的性能生成高分辨率图像，例如4096×4096像素的图像。

Sana的关键优势在于，它能够在消费级硬件上实现高性能，无需依赖大型GPU集群。

Sana 的主要技术特点：

分层潜在扩散模型：与传统的扩散模型不同，Sana采用分层结构，首先生成8x分辨率的图像，然后逐步提升至32x分辨率，显著提高了生成质量。

解耦 DiT：Sana 将 DiT (DiT, Denoising Implicit Transformation) 解耦为单独的图像和token处理路径，从而优化了高分辨率图像的生成效率，减少了计算负担。

高效 Token 混合：为了提升模型性能，Sana采用了token混合方法，借鉴了大型语言模型 (LLM) Gemma 和 T5 的设计思路，实现了图像与文本特征的有效融合。

优化的采样策略： Sana 采用了 Flow-DPM-Solver 采样器，加速了生成过程，同时保证了生成图像的质量和多样性。

根据相关测试，Sana-0.6B 模型在图像质量方面优于更大的扩散模型（如 Flux-12B），在生成速度方面提升了约20%，在计算资源方面节省了约100倍。

实验表明，Sana-0.6B 可以在配备16GB显存的消费级 GPU 上运行，仅需不到1秒即可生成 1024×1024 像素的图像，这使得 Sana 具有更广泛的应用前景。

Sana 的强大性能体现在其在高分辨率图像生成方面的卓越表现。在 4K 图像生成任务中，Sana-0.6B 模型的 FLUX 指标比现有模型高出 100 倍，而在 1K 分辨率下则高出 40 倍。

总体而言，Sana-0.6B 实现了性能和效率的平衡，能够在普通工作站上运行。例如，在配备 RTX-4090 GPU 的设备上，生成 1024×1024 像素的图像仅需 0.37 秒，大大缩短了生成时间。

总而言之，Sana 代表着图像生成领域的一项重要突破。凭借其卓越的性能和高效的设计，它为研究人员和开发者提供了强大的工具，有望推动计算机视觉、内容创作等领域的创新。

项目链接：https://nvlabs.github.io/Sana/

论文链接：https://arxiv.org/pdf/2410.10629

文章版权归作者所有，未经允许请勿转载。

本文地址：https://aidh.net/kuaixun/42t4hm1l

暂无评论

暂无评论...