复旦新研究在模型安全领域实现SOTA扩散模型风险概念擦除,入选AAAI 2025

本论文的第一和第二作者分别是来自复旦大学视觉与学习实验室的硕士生韩枫和博士生陈凯,通讯作者为副教授陈静静。该研究团队专注于人工智能(AI)安全相关的研究,近年来在CVPR、ECCV、AAAI、ACM MM等顶级会议上发表了多篇关于AI安全的研究成果。

是否觉得文生图模型生成的图像内容显得过于露骨?不妨考虑给这些图像“穿上衣服”。
复旦大学团队设计的风险概念移除网络DuMo不仅能够实现这一目标,同时也最大程度地保证了人物及其他属性的完整性,实现了业界最优的指哪个就擦哪个的效果。复旦新研究在模型安全领域实现SOTA扩散模型风险概念擦除,入选AAAI 2025此外,DuMo还能够避免文生图模型仿效特定艺术家的风格,从而生成可能涉及侵犯版权的图像。复旦新研究在模型安全领域实现SOTA扩散模型风险概念擦除,入选AAAI 2025随着生成式人工智能技术的迅速进步,扩散模型在图像生成方面的能力已达到令人瞩目的高度。然而,这项技术也存在一定的安全隐患,例如生成含有敏感、不当或侵犯版权的内容。
当前的应对机制通常采用一种名为概念去毒的微调方法以确保模型的安全性。
复旦大学的研究团队提出了一种创新的双编码器调制网络(DuMo),通过前沿的架构与算法,成功实现了对扩散模型中特定风险概念的精准擦除,达到了擦除效果和精确度方面的最先进水平,这一研究成果已被顶级会议AAAI 2025收录。复旦新研究在模型安全领域实现SOTA扩散模型风险概念擦除,入选AAAI 2025

  • 论文:DuMo: Dual Encoder Modulation Network for Precise Concept Erasure
  • 论文链接:https://arxiv.org/abs/2501.01125

DuMo:移除风险内容,保护生成能力
当前的概念擦除技术普遍面临两个主要挑战:其一是如何有效去除风险概念,其二是在擦除过程中如何不损害模型对其他安全概念的生成能力。DuMo在这两个方面实现了显著突破,成功解决了“擦除”与“保护”之间的矛盾。
具体而言,DuMo对U-Net特征进行了划分,分为主干网络特征与跳跃连接特征。其他方法一般对U-Net的主干特征进行了修改,可能对安全概念的生成造成负面影响,破坏其结构的完整性 [1]。同时,跳跃连接特征的潜力未被充分挖掘,限制了模型在执行概念擦除时的能力,并对生成效果产生了影响 [2]。复旦新研究在模型安全领域实现SOTA扩散模型风险概念擦除,入选AAAI 2025DuMo通过EPR擦除模块和时间-层级调制机制(TLMO)实施了两阶段的微调,以实现以上目标:
1、基于跳跃连接的EPR擦除模块
DuMo采用创新的“基于先验知识的擦除模块”(EPR)。该模块由一份U-Net Encoder的副本与零卷积组拼接而成,零卷积组的卷积层参数初始化为零,而原始U-Net主干网络的参数则被冻结,从而保留了模型先验知识,仅对跳跃连接特征进行了修改,最大限度避免对安全概念结构和生成质量的负面影响 [1]。在第一阶段的微调中,DuMo将不安全概念(例如“裸露”)对齐到目标概念(例如,空文本“ ”),达到概念擦除的效果。复旦新研究在模型安全领域实现SOTA扩散模型风险概念擦除,入选AAAI 20252、时间-层级调制(TLMO)机制
研究人员观察到,EPR模块在不同的跳跃连接层和去噪时间步上,对图像中的低频结构元素与高频细节部分表现出不同的擦除偏好。通过将跳跃连接层与时间步进行分组,DuMo发现了不同层次与时间步对图像的影响差异,并对应采取了特定的调整策略。复旦新研究在模型安全领域实现SOTA扩散模型风险概念擦除,入选AAAI 2025DuMo设计了一种独特的时间-层级调制(TLMO)策略,以便在扩散模型的生成过程中,针对不同时间步和网络层级使用微调后获得的调制系数,自动调整EPR模块输出的擦除强度。复旦新研究在模型安全领域实现SOTA扩散模型风险概念擦除,入选AAAI 2025在第二阶段的微调中,除了原有损失函数的各项外,还引入了一个正则化项,旨在将微调后的模型噪声(对应于空文本)与原始模型进行对齐。这些机制显著减少了对安全概念的影响,从而在擦除风险概念的同时,确保了安全概念的生成质量与细节。ction>
裸露内容擦除
在最具挑战性的「裸露内容擦除」任务中,DuMo 在 I2P 基准数据集上的表现堪称卓越:

  • 检测到的裸露部位数量仅为 34 个,成为现有最佳水平。
  • 生成图像的质量指标(FID)及 CLIP Score 均达到行业顶尖,生成能力显著优于其他方法。

复旦新研究在模型安全领域实现SOTA扩散模型风险概念擦除,入选AAAI 2025在移除裸露概念后,DuMo 能够有效保持图像的整体结构,包括第一排人物的姿势及第二排人物的位置与背景之间的协调关系。复旦新研究在模型安全领域实现SOTA扩散模型风险概念擦除,入选AAAI 2025卡通概念移除
在针对「Snoopy」等流行卡通概念的擦除任务中,DuMo 实现了一种更为优良的平衡:

  • 在单一概念的擦除任务中,LPIPS_da(即擦除效果与生成能力保留之间的平衡性)提升了 0.096;
  • 在多概念擦除任务中,LPIPS_da 进一步提高了 0.142,展现出其对复杂任务的卓越适应能力。

复旦新研究在模型安全领域实现SOTA扩散模型风险概念擦除,入选AAAI 2025艺术风格擦除
在艺术风格的移除任务中,DuMo 精确去除了「梵高」和「伦勃朗」的风格特征,同时尽可能减少对其他艺术家风格的影响:

  • 实现了 SOTA 级别的风格去除效果;
  • 在定量指标 LPIPS_da 上,其表现明显优于对照方法。
复旦新研究在模型安全领域实现SOTA扩散模型风险概念擦除,入选AAAI 2025在移除梵高风格的实验中,其他艺术家风格的图像生成未受到影响。复旦新研究在模型安全领域实现SOTA扩散模型风险概念擦除,入选AAAI 2025
© 版权声明

相关AI热点

暂无评论

none
暂无评论...