GPT-4.5实现“人格扮演”通过图灵测试：AI对话能力迈向新高度

摘要：

最近，加州大学圣地亚哥分校认知科学系的一项研究在人工智能领域取得了重大突破。这项研究由他们开发的OpenAI最 […]

最近，加州大学圣地亚哥分校认知科学系的一项研究在人工智能领域取得了重大突破。这项研究由他们开发的OpenAI最新模型GPT-4.5在标准图灵测试中展现出超越人类的对话表现，成为迄今具有最具类人对话能力的AI系统。这一成就不仅改变了人们对人工智能语言能力的看法，也为AI在社会智能领域的应用带来了新的发展空间。

研究选取了四款具有代表性的AI系统进行对比测试，包括1960年代的经典聊天机器人ELIZA、Meta AI研发的LLaMa-3.1-405B，以及OpenAI的GPT-4o和GPT-4.5。实验设计包括两组独立测试，每组由250名来自在线平台（如Prolific）的参与者组成，总计500人。参与者涵盖了不同年龄、性别和教育背景，确保了样本的多样性。测试采用经典的三方图灵测试形式：每位裁判通过文本界面与两个对话对象互动，一个是真实人类，另一个是被测试的AI系统，随后裁判需判断哪一方是人类。

实验结果令人瞩目。GPT-4.5在两组测试中以73%的通过率“被误认为人类”，超越了一般人类的胜率（通常在60%至70%之间），成为首个在标准图灵测试中真正“通过”的AI模型。与之相比，GPT-4o的通过率略低，LLaMa-3.1-405B在部分设定中接近或达到人类水平，而ELIZA的表现则明显落后。研究人员特别强调，在测试中，GPT-4.5展现出了出色的语言自然度和情感丰富性，能够灵活根据裁判的语气调整回答，常被参与者描述为“友好”或“真实”。

值得关注的是，除了语言流畅性，GPT-4.5还展现出了一种“类人化社会智能”。研究团队认为，该模型能够快速捕捉短时交流中的情感线索，并以符合人类社交期待的方式回应，甚至在某些情境下超越人类的表现。与之相比，LLaMa-3.1-405B虽然技术上同样令人印象深刻，但在情感表达和语境适应性方面略逊一筹。然而，在特定设定下其表现已接近人类水平，显示出开源模型在AI竞赛中的潜力。而GPT-4o作为前代，尽管能力不俗，但在人格化表现和动态调整方面远逊于GPT-4.5。

专家表示，GPT-4.5的成功得益于在训练过程中引入了更复杂的人格扮演机制和对话策略。与传统语言模型的“即兴生成”不同，GPT-4.5似乎在对话前形成一种“预判框架”，并根据实时反馈动态优化回答。这种能力使其在短时交流中显得“聪明”，甚至掩盖了AI的机械痕迹。然而，这也引发了对图灵测试是否仍是AI智能的终极标准的新讨论。一些学者认为，GPT-4.5的成功更多来源于模仿人类社交行为，而非真正的理解或自主思考。

GPT-4.5的突破为AI技术发展注入了新的活力。无论是在教育辅导、心理陪伴还是客户服务领域，该模型的类人对话能力可能会衍生出更多贴近生活的应用场景。然而，该模型在测试中的高通过率也提醒人们，随着AI愈发“人性化”，如何区分真实与虚拟、如何规范其使用将成为未来亟需面对的挑战。

这项研究的发布正值AI技术飞速演进之际。GPT-4.5的问世不仅是OpenAI的技术胜利，更是对人类与机器关系的深刻思考。正如一位参与者所言：“它让我感觉在与朋友交谈，直到我意识到，这只是代码的魔法。”在人与AI的对话中，真正的挑战也许才刚刚开始。

完整论文地址可参阅：https://arxiv.org/pdf/2503.23674