AI视觉模型重大发现：即使是最先进的模型，在基础视觉推理方面依然存在明显缺陷

理解人工智能领域的重大挑战之一是，如何评估一个通用人工智能系统是否真正理解其所处理的问题。这方面的经典案例是：如何让机器理解 Bongard 问题，这需要复杂的视觉推理能力，长期以来都是一个难题。这些系统需要能够识别并应用抽象规则，才能解决此类问题。

Bongard 问题由计算机科学家 Michail Bongard 提出，它由两组视觉模式组成。这类问题通常展示出 12 个不同的图像组合，目标是找出区分这两组图像的潜在规则。尽管对人类来说相对简单，但对于人工智能来说，要理解并概括这些规则，一直是一个挑战。

最近，一种能够有效解决机器 Bongard 问题的 AI 模型 GPT-4o，在 100 个测试问题中成功解决了 21 个。其他先进的 AI 系统，如 Claude、Gemini 和 LLaVA，在解决这些问题时表现不佳。这一模型在理解抽象概念和进行复杂推理方面取得了显著进展，代表着人工智能领域的一大进步。

重要的是要认识到，尽管在解决这些特定问题上取得了进展，但 AI 模型在泛化和真正理解方面仍面临挑战。例如，GPT-4 和 Claude 在解决更广泛 Bongard 问题时，成功率分别为 68% 和 69%。这些结果表明，虽然人工智能在特定任务上表现出色，但要实现真正的人工智能理解，仍然有很长的路要走，需要在 “常识” 和 “推理” 方面取得进一步突破。

总的来说，这项研究突显了人工智能在理解复杂视觉概念方面的进步。它提出了一个根本性的问题：“人工智能如何才能真正理解抽象推理，而不仅仅是模仿人类解决问题的能力？”理解 Bongard 问题不仅仅是识别模式，更需要像人类一样进行抽象思考，而这仍然是人工智能发展的一个关键方向。

尽管我们尚未完全理解人工智能解决这些问题的能力，但可以肯定的是，对人工智能理解能力的探索，将继续推动人工智能领域的发展。了解人工智能如何处理和解决抽象问题，对于进一步开发更强大、更智能的 AI 系统至关重要。