OminiControl：全新AI图像生成框架，主体融入，创意无限。

12个月前发布AI俱乐部

摘要：

最近，一款名为OminiControl的图像编辑工具引起了人们的广泛关注。它能够根据用户的文本描述来精确地编辑 […]

最近，一款名为OminiControl的图像编辑工具引起了人们的广泛关注。它能够根据用户的文本描述来精确地编辑图像。据悉，该工具融合了扩散变换器（Diffusion Transformer，简称DiT）架构，从而具备了前所未有的图像操控能力。

简而言之，通过OminiControl，用户仅需输入一段文字，即可对图像进行精细的修改。相较于传统的图像编辑方法，其优势在于能够理解用户意图，实现“指哪打哪”的精准编辑，使得图像创作变得更加简单。例如：

OminiControl的核心在于其强大的“语义感知编辑”能力。这种能力源于DiT架构对图像深层语义的理解，能够将文本指令转化为精确的图像操作。更为重要的是，OminiControl能够以极低的代价，甚至只需0.1%到0.1%的计算资源，即可实现与大型模型相媲美的编辑效果。同时，它还支持多种图像编辑模式，无论是全局风格调整，还是局部细节修改，都能轻松胜任。这一切都得益于其先进的图像处理技术。

从技术角度来看，OminiControl 利用扩散模型来优化图像编辑过程，这使得它在处理复杂场景和实现精细控制方面表现出色。OminiControl 的独特之处在于它巧妙地结合了 UNet 架构与 DiT 架构。这项创新技术为图像编辑领域带来了新的突破。

在实际应用方面，研究人员利用包含20万个主题的大型图像数据集Subjects200K对该模型进行了训练，并取得了显著成果。实验结果表明，即使面对复杂多变的图像内容，OminiControl 也能展现出卓越的编辑效果。

总而言之，Omini 提供了一种全新的图像编辑思路，它降低了图像编辑的技术门槛，使更多人能够参与到图像创作中来。其在图像编辑领域的潜力不可估量，有望催生更多创新应用。

在线演示：https://huggingface.co/spaces/Yuanshi/OminiControl

GitHub 仓库：https://github.com/Yuanshi9815/OminiControl

论文链接：https://arxiv.org/html/2411.15098v2

核心要点：

✨ OminiControl 实现了基于语义理解的图像编辑，极大提升了图像操控的精准度和便捷性。

🎨 借助于该技术，全局风格的调整和局部细节的修改均可高效实现，激发无限创意。

🖼️ 凭借在包含 20 万主题的数据集 Subjects200K 上的训练，Omini 在图像编辑和视觉效果方面表现优异。

文章版权归作者所有，未经允许请勿转载。

本文地址：https://aidh.net/kuaixun/jl7a0jjt