Meta新模型Llama-4-Maverick在排名上突然下降,引发刷榜质疑

2周前发布AI俱乐部
1 0 0
Meta新模型Llama-4-Maverick在排名上突然下降,引发刷榜质疑的封面图

最近,Meta 公司推出的开源大型模型 Llama-4-MaverickLMArena 的排行榜中出现了明显的下降,从第二名跌至第32名,引发了开发者们的广泛质疑。他们怀疑 Meta 公司可能通过提交定制版本来人为提高排名。整个事件始于4月6日,Meta 公司发布了包含 Scout、Maverick 和 Behemoth 三个版本的最新大型模型 Llama-4。最初,Llama-4-Maverick 在评估中表现出色,排名仅次于 Gemini2.5Pro,在 LMArena 排行榜上名列第二。

然而,随着开发者们开始实际使用 Llama4 的开源版本并提出反馈,这款模型的声誉急剧下降。有些开发者发现 Meta 公司提交给 LMArena 的版本与他们公开的开源版本存在显著差异,进而产生对 Meta 公司是否存在刷榜行为的质疑。Chatbot Arena 官方在4月8日确认,Meta 提交的确实是一个“特供版”,并表示他们会考虑更新排行榜。

根据 Chatbot Arena 的说法,Meta 公司最初提交的实验性优化版本 Llama-4-Maverick-03-26-Experimental 在排名第二。而之后修正的开源版本 Llama-4-Maverick-17B-128E-Instruct,尽管拥有17B 的激活参数和128个 MoE 专家,却只排在第32名,远远落后于 Gemini2.5Pro 和 GPT4o 等更高排名的模型,甚至不及基于上一代模型改进的 Llama-3.3-Nemotron-Super-49B-v1。

针对 Llama-4-Maverick-03-26-Experimental 表现不如预期的问题,Meta 公司在最近的一次发布会上解释称,该模型是专门针对对话进行优化的,因此在 LM Arena 上表现较好。虽然这种优化使其在排行榜上得分较高,却导致开发者们很难准确预测该模型在不同情境下的实际表现。

Meta 公司的发言人告诉 TechCrunch,Meta 将不断探索各种定制版本,并期待开发者根据自身需求对 Llama4 进行调整和改进。公司希望看到开发者们带来的创新成果,同时也非常重视他们的反馈。

快讯中提到的AI工具

Super
Super

智能AI知识库,实现高效商业智能化的创新平台

© 版权声明:
本文地址:https://aidh.net/kuaixun/5ji58fcs

暂无评论

none
暂无评论...