事物皆具多面性,正如水可载舟亦可覆舟,还可用于烹煮。强化学习亦是如此,它既能助力 AlphaGo 战胜顶尖围棋棋手,也能赋能 DeepSeek-R1 强大的推理能力。然而,它同样可能被恶意利用,成为攻击人工智能模型的利器。
近日,威斯康星大学麦迪逊分校的研究团队发现,通过强化学习可对模型实施有效的黑盒逃避攻击。研究团队指出:“从安全角度而言,此项工作展示了一种强大的新型攻击媒介,即利用强化学习大规模、有效地攻击机器学习模型。”

- 论文标题:Adversarial Agents: Black-Box Evasion Attacks with Reinforcement Learning
- 论文地址:https://arxiv.org/pdf/2503.01734
以下将对该研究进行简要解读。
研究攻击模型的原因显而易见,是为了保障安全。
当前,人工智能技术飞速发展,应用层出不穷,深刻变革着诸多领域。随着人工智能应用的普及,攻击这些模型也逐渐变得有利可图。其中一类攻击方式是生成能够欺骗人工智能模型的输入,从而绕过安全过滤器。对抗机器学习(AML)即是研究针对目标模型生成对抗样本算法的领域。
现有的对抗机器学习方法通常采用优化算法来最小化施加于输入的变化(称为扰动),以使受害者机器学习模型在分类带有扰动的输入时发生错误。然而,技术界对模型防御能力和对抗能力的理解仍然有限。
对抗样本生成算法依赖于基于梯度的优化,这种优化方式与其他信息无关。这些方法无法利用从先前攻击中获得的经验来改进后续对其他数据的攻击。
这便构成了对抗机器学习研究中的一个空白,即探讨对抗样本是否可以学习——攻击的有效性和效率能否随着经验的积累而提高。那么,在对受害者模型的访问权限受限(即黑盒访问)的情况下,攻击者是否能够大规模生成对抗样本,例如发起分布式拒绝服务攻击?
将强化学习引入对抗攻击
鉴于强化学习领域的最新进展,该团队推测,是否可以将对抗机器学习对手建模为强化学习智能体?如此一来,或许能够使攻击策略随着时间的推移变得更加高效和有效。
基于此思路,他们展开了研究,提出了基于强化学习生成对抗样本的攻击方法,并对其进行了评估。
研究发现,将对手建模为强化学习智能体后,该智能体可以学习到哪些扰动最能欺骗模型。一旦掌握了策略,对手便可利用该策略生成对抗样本,从而无需耗费资源进行梯度优化即可完成对模型的攻击。
具体而言,该团队将对抗样本生成过程建模为马尔可夫决策过程(MDP)。如此,便可轻松地使用强化学习来实现对攻击底层语义的封装:输入样本和受害者模型输出构成状态,扰动为动作,对抗性目标的差异则作为奖励。
该团队提出了两种强化学习攻击方法:RL Max Loss 和 RL Min Norm,分别对应于两类传统的对抗机器学习算法。

攻击流程如下:首先,使用一种强化学习算法来训练智能体,然后在策略评估设置中使用该攻击来生成对抗样本。

实验评估
为验证强化学习攻击方法的有效性,该团队在 CIFAR-10 图像分类任务上,使用 ResNet50 受害者模型进行了评估,并采用了近端策略优化(PPO)算法。该团队在这一框架下进行了多步骤评估,内容包括:(a) 学习能力,(b) 微调效果,以及 (c) 相对于已知方法的准确性。

首先,他们评估了强化学习智能体是否能够学习生成对抗样本。换言之,强化学习能否在训练过程中提高对抗样本的有效性和效率?
研究结果表明,RL Max Loss 和 RL Min Norm 攻击均能提高训练过程中的平均回报,从而验证了强化学习技术学习任务的能力。
在整个训练过程中,对抗样本的生成速度平均提升了 19.4%,而与受害者模型的交互量平均减少了 53.2%。
这些结果表明,通过高效地生成更多对抗样本,智能体可以在训练过程中变得更加强大。
接下来,他们还分析了 RL Max Loss 和 RL Min Norm 中的奖励和转换超参数将如何影响对抗样本的生成。
果,研究结果显示,其性能依赖于 ε 和 c 的特定选择。在具体的实验中,研究人员通过敏感性分析平衡对抗性目标的方式,决定将 ε 设置为 0.5,c 设置为 1.0。由此可见,当潜在对手使用这些攻击策略时,预先考虑这些参数至关重要,以实现预期的攻击效果。
最后,研究团队还对经过训练的智能体在处理未见过的数据集时的对抗样本拓展能力进行了评估,并与广泛应用的基于优化的 SquareAttack 算法进行了性能比较。
在未进行训练的全新数据集上,训练过后的智能体在错误分类率、中位数查询次数以及对抗样本的平均失真方面,均表现出与训练对抗样本相一致的分布特征。在与 SquareAttack 的黑盒攻击比较中,他们已将强化学习攻击进行了 5000 次的试验,并将其与其他最先进的方法进行了对比,结果显示,通过学习对抗样本,强化学习攻击在生成对抗样本方面的效率提高了 13.1%。
这些发现表明,当对手采用强化学习方法来学习生成对抗样本时,相比现有技术,其效果将更为显著。
对此项研究的观点有哪些?在面对强化学习攻击时,我们应当采取怎样的防御措施来应对对手的挑战呢?
文章中提到的AI工具

深度求索:引领未来人工智能技术的探索与创新