

近日,Stability AI发布了其最新一代的图像生成模型——Stable Diffusion 3.5,它不仅仅是一个简单的迭代版本,更是在多项关键能力上实现了显著提升,尤其是在处理复杂文字提示、生成高质量图像以及展现逼真细节方面。
本次更新共包含三款模型:Stable Diffusion 3.5 Large、Stable Diffusion 3.5 Large Turbo以及于10月29日发布的Stable Diffusion 3.5 Medium。
Stable Diffusion 3.5 Large堪称一款拥有80亿参数的巨型图像生成模型,其卓越之处在于能够精确理解复杂的提示语,呈现出令人惊叹的图像质量与细节,同时,它还能以高达1帧/秒的速度生成高质量图像。
Stable Diffusion 3.5 Large Turbo则是一款速度极快的图像生成方案,即使只使用4步迭代,也能生成高质量图像,速度远超Stable Diffusion 3.5 Large。
相比之下,Stable Diffusion 3.5 Medium的参数规模较小,仅有25亿,它采用了先进的MMDiT-X架构以及文本编码器,旨在提升图像质量与文本对齐能力,能够在0.25到2帧/秒的速度范围内生成图像。
这些模型的创新之处在于集成了Query-Key Normalization技术到transformer架构中,显著提升了文本提示的理解能力和图像生成质量。为了实现这一目标,Stability AI专注于提升图像和文本嵌入的对齐程度,从而克服了以往模型在复杂提示下难以生成理想图像的问题。
Stable Diffusion 3.5模型在图像质量、文本对齐和整体性能方面均有提升。这些模型均能处理复杂的提示语,生成具有高质量细节的图像。它们能够高效地将文本转化为视觉内容,确保生成的图像既美观又准确。此外,这些模型还能生成各种风格的图像,无论是3D、动漫、概念艺术、产品设计,都能轻松应对。
Stability AI强调,他们致力于推进开源领域的发展,并坚信Stable Diffusion 3.5的发布将有助于激发创新,促进图像生成技术的普及。为此,Stability AI投入了大量资源,力求让更多的人能够便捷地使用这些模型。目前,社区成员已在超过100个不同的应用程序、工作流程和工具中集成了这些模型。这些应用的广泛性充分证明了该技术在各个领域的巨大潜力。
Stable Diffusion 3.5模型现已在Hugging Face平台上开放使用,欢迎大家体验并提供反馈。此外,这些模型也可以通过Stability AI API、Replicate、ComfyUI和DeepInfra等途径进行访问。
模型地址:https://huggingface.co/spaces/stabilityai/stable-diffusion-3.5-large