AI“越狱”新招：利用“过去式”提示词，瞬间攻破GPT-4o等六大模型

当前的大型语言模型（LLMs）在多种自然语言处理任务中展现出了卓越的性能，这使得它们能够胜任各种创造性工作，例如生成引人入胜的故事、撰写信息丰富的文章等。

为了评估这些模型的能力，研究人员通常会使用一系列标准测试，以衡量它们在不同任务上的表现。这些测试可以帮助我们了解LLMs擅长哪些方面，以及在哪些方面仍有改进的空间。

近日，一项新的研究指出，现有的评估方法可能无法完全捕捉到LLMs的“创造力”。作者认为，仅仅关注“正确”答案可能忽略了AI模型生成独特观点的潜力。例如，询问“谁是历史上最伟大的科学家？”这类问题，往往会限制AI模型的创造性。

在Llama-38B、GPT-3.5Turbo、Gemma-29B、Phi-3-Mini、GPT-4o和R2D2等模型中，研究人员发现，即使在相同的条件下，不同模型也表现出不同的创造性水平，这表明了评估创造性思维的复杂性。

具体来说，GPT-4o模型在生成创意文本方面的表现优于其他模型，其“创造力得分”领先约1%。而在执行20项具有挑战性的创意生成任务时，GPT-4o模型的性能提升高达88%。这意味着，在这些AI模型中，有些模型在特定类型的创造性任务上表现更为出色，反映了它们在不同领域的专业性。

值得注意的是，对于某些类型的创造性任务而言，Claude甚至能够超越“专家”级别。这意味着某些AI模型已经具备了在特定领域内产生新颖想法的能力。

总而言之，不同的模型在不同类型的任务中表现出不同的创造性水平，这反映了现有评估体系的局限性。因此，衡量创造性思维需要采用更为精细的指标，从而更好地理解模型在不同任务中的优势。

这项研究的一个重要结论是：当前用于评估模型性能的常见指标（例如准确率、精确率和召回率）可能无法充分衡量AI模型的创造性能力。

这意味着，尽管某些AI模型可能在标准测试中表现出色（例如在问答和文本摘要方面），但它们在生成真正具有创新性的内容时可能并不擅长。因此，我们需要开发新的评估方法，以更准确地衡量AI模型的创新能力。

这项研究也强调了持续关注AI创新能力的重要性，因为它关系到AI技术能否在各个领域取得突破性进展。我们不仅需要评估AI模型的准确性，还需要关注它们是否能够产生新的想法、发现新的模式，从而推动人类知识的进步。这种对创新能力的关注将有助于我们充分发挥AI的潜力，并将其应用于解决复杂问题，推动社会发展。

相关论文地址：https://arxiv.org/pdf/2407.11969

快讯中提到的AI工具

Claude

由Anthropic公司开发的下一代人工智能AI助手

GPT-4o

OpenAI 最新的旗舰模型

GPT-4

OpenAI 发布的最新一代语言模型

文章版权归作者所有，未经允许请勿转载。

本文地址：https://aidh.net/kuaixun/g380ipin