训练Stable Diffusion数据集组织声明已移除儿童性虐待内容

1年前发布AI俱乐部

9 0 0

标签：CSAM LAION Re-LAION-5B StableDiffusion

摘要：

大型人工智能数据集LAION被用于训练Stable Diffusion等开源AI模型，但同时也引发了对生成含有 […]

大型人工智能数据集LAION被用于训练Stable Diffusion等开源AI模型，但同时也引发了对生成含有性虐待儿童素材（CSAM）图像的担忧。

名为Re-LAION-5B的数据集是LAION-5B的子集，尽管其设计目的是为了减少有害内容，但仍有可能被用于生成包含性暗示、剥削或虐待儿童，以及其他不当内容的图像。据报道，该数据集包含四个已知的“漏洞”，可能导致生成CSAM。

LAION在一份声明中表示：“LAION致力于减少其数据集中用于生成有害或‘不安全’内容（包括NSFW内容）的风险。”该组织声称，已经实施了多项措施来过滤掉可能与非法或(“不安全”)CSAM相关的数据。

LAION在一篇博文中声明：“LAION一直致力于在其数据集中识别和删除可用于生成有害内容的数据，并致力于不断改进相关措施。” “LAION不会容忍滥用其数据集生成非法内容的行为。”

需要指出的是，LAION的数据集并非独立存在，而是依赖于其他数据集。实际上，LAION主要使用其他数据集的索引以及数据集中的图像和文本的链接——例如Common Crawl，这是一个大规模的网络抓取项目。

Re-LAION-5B数据集于2023年12月发布，旨在解决之前的数据集存在的一些问题，包括LAION-5B（特别是LAION-5B400M子集）中发现的超过16.79万个与受保护人群相关的面部识别数据和个人身份信息。据称，400M子集中“不成比例地包含不良内容”，包括露骨的色情内容、贬损性诽谤性言论以及个人身份信息。

尽管采取了一些预防措施来减少不良内容的出现，但完全消除CSAM的风险仍然存在，这可能会对使用这些数据集训练的人工智能模型的道德和社会责任提出质疑，尤其是在LAION继续共享LAION-5B的情况下。

研究人员指出，LAION-5B数据集可能被AI模型用于“不安全的应用”。例如，AI绘画工具 Runway 依靠 AI 模型在Hugging Face 上创建了Stable Diffusion1.5模型；其他人也可以通过访问这些开源模型进行微调。（Runway 在2023年使用 Stability AI 的 LAION 数据集创建了 Stable Diffusion 模型。）

Re-LAION-5B 数据集包含 55 种语言的大量图像，基于 Apache2.0 许可发布，LAION 鼓励第三方利用 LAION-5B 的图像来改进各种类型的AI模型，同时尽力减少有害图像的出现。

LAION 承认其数据集可能被滥用，同时也强调了其促进创新的作用。尽管存在潜在风险，但许多人认为其价值大于风险。值得注意的是，Stability AI 依赖 LAION 数据集来训练其开源图像生成 AI 模型。

LAION 在其网站上指出：“我们对这些模型的创建和共享以及其中包含的有害内容深感担忧，我们在 LAION-5B 数据集中发现了 2,236 个 [潜在的 CSAM ] 实例。” “这些实例已于 2023 年 12 月从 Re-LAION-5B 数据集中删除，我们正在积极努力改进 LAION-5B 数据集的安全性并清理 Re-LAION-5B 数据集。”