AI大模型遭遇滑铁卢：面对“9.11和9.9哪个大”的简单问题，月之暗面竟给出错误答案。

1年前发布AI俱乐部

6 0 0

标签：大模型数学能力生成式语言模型训练语料

摘要：

目前，一个普遍的观点认为大型语言模型的出现无需归功于AI研究人员所说的”涌现”，而是源 […]

AI大模型遭遇滑铁卢：面对“9.11和9.9哪个大”的简单问题，月之暗面竟给出错误答案。的封面图

目前，一个普遍的观点认为大型语言模型的出现无需归功于AI研究人员所说的”涌现”，而是源自于12家大型AI公司和8个模型在特定时间段内的集中发展。

事实上，AI大模型在应对某些需要复杂推理的挑战时，其表现与9.11类似。但也有人认为，这可能只是因为这些模型经过了大量关于9.11事件的训练。

根据现有研究，12家大型AI公司似乎都在争相发布自己的模型，包括备受关注的ChatGPT-4o。此外，还有新兴的国内大模型厂商，如kimi和百川智能，以及一些颇具潜力的新兴项目。总共有8个模型在特定时期内经历了显著的增长。

从更深层次的角度来看，大型语言模型在某些特定任务上的卓越表现并非绝对可靠，因为它们可能会在一些不常见或异常情况下失败。我们需要对大模型进行更全面的测试，而非仅关注其在常见情况下的表现。

一种观点认为，”我们需要关注那些可能导致模型崩溃的极端情况（Corner Case），而不是认为大型语言模型的能力是突然涌现的，例如9.9与9.11。” 这种情况类似于检查一个标有“草莓”的盒子，结果发现里面只有一颗“草莓”，其他都是极端情况。这意味着我们应该更加关注AI模型在处理复杂或不寻常问题时的表现，而不是仅仅关注其在常见情况下的能力。我们需要找到那些能够真正激发模型潜力的独特案例，并对模型进行更全面的评估，而非仅仅关注其在常见任务上的表现。通过关注边缘情况、长尾效应以及那些能够挑战现有模型能力的复杂场景，我们可以更好地评估AI的实际水平，并发现其潜在的局限性。

另一个重要方面是，我们必须关注AI模型所接受的训练数据。AI模型的能力很大程度上取决于它们所接触到的信息。为了确保AI的可靠性和公正性，我们需要仔细审查其训练数据，并关注数据中的潜在偏见。这些挑战凸显了在评估AI模型时需要采取更细致入微的方法。我们需要考虑数据质量、边缘情况以及模型的整体性能。