

近来,LAION 发布了一款经过优化的 AI 模型数据集,名为 Re-LAION-5B。该数据集旨在提升 LAION-5B 的安全性,着重过滤并移除可能包含儿童性虐待内容 (CSAM) 的图像。据 LAION 介绍,Re-LAION-5B 是一款用于研究目的的过滤数据集,旨在促进社区开发能够有效减少 CSAM 暴露的生成式 AI 模型。
LAION 团队发布了两个版本的 Re-LAION-5B 数据集,分别是 Re-LAION-5B Research 和 Re-LAION-5B Research-Safe。该数据集总共清除了 2,236 个 CSAM 样本,剩余的样本经过严格筛选,以确保符合相关伦理道德标准。其中,有 1,008 个样本是在 IWF 的协助下于 2023 年 12 月识别并移除的。
总而言之,LAION 积极致力于降低其数据集中潜在的儿童性虐待内容,通过与相关机构合作,不断改进内容过滤技术。此举旨在确保 AI 模型开发过程中的安全性和道德性,尽可能减少生成式 AI 接触到 CSAM 的风险。Re-LAION-5B 通过移除 55% 的原始数据集和样本,大幅提升了数据的安全性,优于之前的 LAION-5B 版本,为负责任的 AI 开发奠定了基础。
LAION 期望通过发布 Re-LAION-5B,能够为研究人员提供更安全可靠的数据集,促进 AI 技术在减少有害内容方面的应用。该数据集是对 LAION-5B 数据集的一次重大改进,旨在解决与不当内容相关的潜在问题。未来,LAION 将继续致力于 CSAM 和 AI 模型领域的安全和道德规范,为整个社区开发有益的人工智能提供支持。
互联网观察基金会 (IWF) 的报告显示,2023 年,AI 技术的进步加剧了儿童性虐待内容识别的复杂性。这些 AI 技术的进步虽然为社会带来了诸多便利,但也对检测和防范 CSAM 提出了新的挑战。因此,持续改进内容过滤技术至关重要。
要点总结:
📌 Re-LAION-5B 是一款用于研究目的的过滤数据集,旨在减少生成式 AI 模型对 CSAM 的暴露。
🔗 该数据集清除了 2,236 个 CSAM 样本,并额外移除了 1,008 个潜在的有害样本。
🛡️ LAION 致力于使其数据集成为最安全可靠的数据集,促进负责任的 AI 开发。