Meta新模型Llama-4-Maverick在排名上突然下降，引发刷榜质疑

摘要：

最近，Meta 公司推出的开源大型模型 Llama-4-Maverick 在 LMArena 的排行榜中出现了 […]

Meta新模型Llama-4-Maverick在排名上突然下降，引发刷榜质疑的封面图

最近，Meta 公司推出的开源大型模型 Llama-4-Maverick 在 LMArena 的排行榜中出现了明显的下降，从第二名跌至第32名，引发了开发者们的广泛质疑。他们怀疑 Meta 公司可能通过提交定制版本来人为提高排名。整个事件始于4月6日，Meta 公司发布了包含 Scout、Maverick 和 Behemoth 三个版本的最新大型模型 Llama-4。最初，Llama-4-Maverick 在评估中表现出色，排名仅次于 Gemini2.5Pro，在 LMArena 排行榜上名列第二。

然而，随着开发者们开始实际使用 Llama4 的开源版本并提出反馈，这款模型的声誉急剧下降。有些开发者发现 Meta 公司提交给 LMArena 的版本与他们公开的开源版本存在显著差异，进而产生对 Meta 公司是否存在刷榜行为的质疑。Chatbot Arena 官方在4月8日确认，Meta 提交的确实是一个“特供版”，并表示他们会考虑更新排行榜。

根据 Chatbot Arena 的说法，Meta 公司最初提交的实验性优化版本 Llama-4-Maverick-03-26-Experimental 在排名第二。而之后修正的开源版本 Llama-4-Maverick-17B-128E-Instruct，尽管拥有17B 的激活参数和128个 MoE 专家，却只排在第32名，远远落后于 Gemini2.5Pro 和 GPT4o 等更高排名的模型，甚至不及基于上一代模型改进的 Llama-3.3-Nemotron-Super-49B-v1。

针对 Llama-4-Maverick-03-26-Experimental 表现不如预期的问题，Meta 公司在最近的一次发布会上解释称，该模型是专门针对对话进行优化的，因此在 LM Arena 上表现较好。虽然这种优化使其在排行榜上得分较高，却导致开发者们很难准确预测该模型在不同情境下的实际表现。

Meta 公司的发言人告诉 TechCrunch，Meta 将不断探索各种定制版本，并期待开发者根据自身需求对 Llama4 进行调整和改进。公司希望看到开发者们带来的创新成果，同时也非常重视他们的反馈。