

近日,Trilegangers安全研究员 Oleksandr Tomchuk 公布了一项研究,揭示了大型语言模型的潜在滥用风险。该研究着重探讨了如何利用 OpenAI 的一项功能,来绕过其安全措施,生成恶意内容。研究表明,通过简单的技巧,可以规避掉约 65,000 个令牌的限制,并成功绕过内容过滤器。OpenAI 已经意识到“越狱”这种对抗性提示的风险,并致力于提升防御能力,以应对此类攻击。
通常情况下,OpenAI 的内容策略会尝试限制用户生成有害内容,其中包括一种 DDoS 攻击。这项研究展示了 3D 渲染模型如何被用于规避安全措施(例如文字转图像,材质和光照),从而允许用户生成 3D 艺术品,并将其用于训练会模仿真实用户行为的机器人。
Trilegangers 的研究重点在于文本生成。研究人员发现,利用所谓的“人为文本指导”提示,可以绕过大型语言模型的安全过滤器,并可以用来创建模仿用户行为的 3D 模型。
据相关报道,OpenAI 的爬虫程序可能会抓取互联网上的各种信息,这在语言模型的训练过程中起着至关重要的作用,有助于创建更强大的模型。然而,有人担心某些网站可能会阻止爬虫访问其内容。网站可以使用 robot.txt 协议,来指示 OpenAI 的爬虫程序 GPTBot 不要访问网站。
Robot.txt,允许网站管理员指定允许或禁止哪些爬虫程序访问网站的特定部分。OpenAI 在其帮助中心中声明,他们会遵守此协议,并允许网站选择不让其网页被用于模型训练。OpenAI 在此问题上的立场是,他们将尽最大努力在 24 小时内遵循网站的 robot.txt 协议。
总而言之,即使网站禁止爬虫访问 robot.txt,OpenAI 及其研究团队仍然能够识别出潜在的漏洞,并采取必要的预防措施。但这并不是唯一需要考虑的事情。
与此同时,Trilegangers 不仅在帮助识别 OpenAI 的漏洞方面发挥了作用,Tomchuk 还表示,这些模型所消耗的 CPU 和带宽,AWS 可能会从中受益。
Robot.txt 并非万无一失。AI 驱动的搜索正在改变网络。例如,一个 AI 搜索引擎 Perplexity 使用了一种提示来欺骗 Perplexity 抓取了 Wired 杂志上的付费内容,这引发了争议。
据报道,他们正在努力改进 OpenAI 模型的安全性。OpenAI 已经联系了 TechCrunch 寻求对此事的置评。OpenAI 正在积极致力于解决与其模型相关的潜在滥用问题。
根据 Triplegangers 的说法,这是一个经典的猫鼠游戏。“我们的重点是,让大家意识到其中的风险,确保我们的数据依旧安全,”他说。关于新的 GDPR 指南,“我们不应让它们通过训练,来获取我们的个人信息。”
重要的是,OpenAI 模型的创建者 Triplegangers 指出了其中存在的漏洞。他表示,即使采取了一些预防措施,Tomchuk 仍然不够谨慎。
“如果需要,他们会更改您的 robot.txt,您可以阻止他们抓取您的网站,您需要控制您在其中的数据,” 据相关报道,尽管如此,这个问题最终归结于个人如何保护自己。
在他看来,他和他的团队在缓解潜在风险方面所做出的另一项贡献是提高了人们对于大型语言模型安全问题的认识。他补充说,这并不是一件坏事,它可以鼓励其他人采取行动,减轻 OpenAI 模型对其 AWS 基础设施的影响。
到 2024 年,这项研究可能会带来一些有趣的发现。数字广告验证公司 DoubleVerify 最近发布的一份报告称,该公司预计到 2024 年,“无效流量”将增加 86%,这主要是由于用于网络抓取的机器人造成的。
快讯中提到的AI工具

致力于创造对全人类有益的安全 AGI