
Stable Diffusion
Stability AI旗下,引领生成式人工智能创新发展
目录
Imagen是一种文本到图像的扩散模型,具有前所未有的逼真度和深层次的语言理解。Imagen 基于大型变换器语言模型的强大能力来理解文本,并结合扩散模型的优势生成高保真图像。我们发现,通用的大型语言模型(例如 T5)在编码文本生成图像时表现出乎意料的有效性:通过增加语言模型的规模,比增加扩散模型的规模更能提升样本的保真度和图像与文本的匹配度。
Imagen使用一个大型冻结的 T5-XXL 编码器将输入文本编码为嵌入,并通过条件扩散模型将文本嵌入映射到一个 64×64 图像。接着,Imagen 还利用文本条件的超分辨率扩散模型,将图像从 64×64 升级到 256×256,再从 256×256 升级到 1024×1024,进一步提高图像质量。
由AI导航(aidh.net)整理。
尽管文本到图像模型带来了极大的技术进步,但也带来了诸多伦理挑战。我们的模型可能存在社会偏见和刻板印象,尤其是在生成包含人物的图像时。此外,使用大量来自网络的数据集可能导致模型继承一些有害的社会偏见,因此我们决定不公开发布 Imagen,直到采取进一步的保障措施。
Imagen可以应用于许多创意领域,如艺术创作、广告设计、虚拟现实等。通过提供前所未有的图像生成质量,它为设计师和艺术家提供了强大的创作工具。
Stability AI旗下,引领生成式人工智能创新发展
字节跳动推出的自研大模型