谷歌Gemini试验版重夺AI榜首，GPT-4o登顶一日即被超越

摘要：

近日，OpenAI 发布了其最新的旗舰 AI 模型 GPT-4o。与此同时，有用户分享了若干推理任务结果，显示 […]

近日，OpenAI 发布了其最新的旗舰 AI 模型 GPT-4o。与此同时，有用户分享了若干推理任务结果，显示出名为 Gemini-Exp-1121 的谷歌模型具有卓越的性能。此外，用户还分享了 Gemini-Exp-1114 的信息，表明谷歌可能正在评估 OpenAI 的新模型所带来的竞争压力。

据 DeepMind 的研究科学家 Jack Rae 称，有一种观点认为，人工智能的进展可能更像是“量变引起质变”，而不是通过持续扩展模型规模来实现。

从具体性能来看，Gemini-Exp-1121 在一系列评测中表现出色，涵盖了多项选择题、阅读理解以及常识推理等方面。与此同时，该模型在处理需要使用工具的任务时表现出色，例如能够访问最新的 o1-preview 和 New Sonnet3.5 版本。

在基准测试方面，Gemini-Exp-1121 在某些常识推理评测中的表现优于 GPT-4o，特别是在涉及世界知识和执行复杂指令的任务方面。值得注意的是，即使在未进行工具增强的情况下，Gemini-Exp-1121 的性能也与 GPT-4o 不相上下，展现出强大的语言理解能力。

与此同时，OpenAI 正在探索增强现有模型的功能，例如在特定版本的 ChatGPT 中测试一项名为“实时摄像头”(Live Camera) 功能，该功能允许模型通过分析和理解实时视觉信息来响应用户的提问。OpenAI 强调，在部署实时视觉功能之前，确保其符合既定的安全标准至关重要，以便有效应对潜在风险。

总而言之，未来 Chatbot 模型的发展趋势可能是增强其处理现实世界视觉信息的能力，这也将为“实时摄像头”功能的广泛应用奠定基础。

要点总结：

💡 用户分享了 Gemini-Exp-1121 在 GPT-4o 发布后所展现的卓越推理能力，凸显了 AI 模型领域的竞争态势。

🔍 Gemini-Exp-1121 在阅读理解、多项选择和常识推理等多种评估中表现出色，证明其强大的性能。

▶️ OpenAI 正在测试 “实时摄像头” 功能，旨在提升 AI 理解和响应真实世界视觉信息的能力。