强化学习助力,对抗攻击大型语言模型的新方法出现 事物皆具多面性,正如水可载舟亦可覆舟,还可用于烹煮。强化学习亦是如此,它既能助力 AlphaGo 战胜顶尖围棋棋手,也能赋能 DeepSeek-R1 强大的推理能力。然而,它同样可能被恶意利用,成为攻击人工智能模型的利器。 近日,威斯康星大学麦迪逊分校的研究团队发现,通过强化学习可对模型实施有效的黑... +5 智能之星2个月前