20万张GPU!马斯克推出「地表最强」大模型Grok-3,成功登顶排行榜,向OpenAI发起复仇

具备特斯拉和SpaceX的技术基因,展现出卓越的工程能力。

马斯克旗下的 xAI 最新旗舰大模型 Grok 3 终于揭开了神秘面纱!

在正午12点,众多观众纷纷聚焦于马斯克的直播预告,等待这份期待已久的发布。

20万张GPU!马斯克推出「地表最强」大模型Grok-3,成功登顶排行榜,向OpenAI发起复仇直播延续了20分钟,在线观众人数破百万,终于在此时拉开序幕,马斯克亲自出镜,直播主题为“我们的使命是理解整个宇宙”。20万张GPU!马斯克推出「地表最强」大模型Grok-3,成功登顶排行榜,向OpenAI发起复仇根据工程师们的介绍,Grok 3 实际上是一个系列,而非单一模型。其轻量版 Grok 3 mini 能更迅速地回答问题,但在准确性上有所妥协。目前,并非该系列的所有型号均已上线,未来几天将会陆续推出。
马斯克明确表示,Grok 3 的性能相比于 Grok 2 进步了十倍,并且其训练数据集得到了扩展。20万张GPU!马斯克推出「地表最强」大模型Grok-3,成功登顶排行榜,向OpenAI发起复仇此外,原本计划发布的语音模式将稍作延迟,预计一周左右即可发布。20万张GPU!马斯克推出「地表最强」大模型Grok-3,成功登顶排行榜,向OpenAI发起复仇然而,当前的大模型在发布之际,总会成为众人聚焦的对象。xAI 一直依赖于位于孟菲斯的一个巨大的数据中心,这个数据中心内装配有约20万块 GPU,专门用于训练 Grok 3。20万张GPU!马斯克推出「地表最强」大模型Grok-3,成功登顶排行榜,向OpenAI发起复仇                                该数据中心的建设速度惊人,仅用了122天,未来的二期计划中将再增加20万块 GPU。
在 Grok 3 发布后,有人立即指出其算力消耗达到 DeepSeek V3 的263倍,但目前尚无法确认这一计算的准确性。20万张GPU!马斯克推出「地表最强」大模型Grok-3,成功登顶排行榜,向OpenAI发起复仇显然,Grok 3 主打强大的计算能力,接下来让我们来看一下其基准测试中的表现。
在数学(AIME 24)、科学(GPQA)和编程(LCB Oct-Feb)三个领域,Grok 3 的表现远超 Gemini-2 Pro、DeepSeek-V3、Claude 3.5 Sonnet 以及 GPT-4o,这些被用于对比的模型的性能与 Grok-3 mini 相仿。20万张GPU!马斯克推出「地表最强」大模型Grok-3,成功登顶排行榜,向OpenAI发起复仇在大型模型竞技场 Chatbot Arena(LMSYS)中,早期版本的 Grok 3 评分高达1402分,成为所有参赛模型中的佼佼者,超越了包括 DeepSeek-R1 在内的诸多其他模型,标志着其成为历史上首个突破1400分的大模型。20万张GPU!马斯克推出「地表最强」大模型Grok-3,成功登顶排行榜,向OpenAI发起复仇下图展示了 Grok 3与其他模型在编程、数学、创意写作、指令遵循、长查询以及多轮对话等场景中的排名,可以明显看出,Grok 3 在各个维度均位列第一。20万张GPU!马斯克推出「地表最强」大模型Grok-3,成功登顶排行榜,向OpenAI发起复仇例如,在编程任务中,Grok 3 的能力超过了 o1、DeepSeek-R1、Gemini-thinking 等主要推理模型。20万张GPU!马斯克推出「地表最强」大模型Grok-3,成功登顶排行榜,向OpenAI发起复仇不久后,AI 专家 Andrej Karpathy 分享了其对 Grok 3 的“早鸟”体验,他的初步感受归纳如下:

  • Grok 3 结合思维(Thinking)功能的表现接近 OpenAI 的最强模型(月费200美元的 o1-pro),略优于 DeepSeek-R1 和 Gemini 2.0 Flash Thinking。
  • Grok 3 也尝试解决黎曼猜想,这一点与 DeepSeek-R1 类似,而其他模型(如 o1-pro、Claude、Gemini 2.0 Flash Thinking)则很快回避,称其为未解之谜。
  • DeepSearch 在 Perplexity DeepResearch 产品的水平上,尚未达到 OpenAI 最近发布的“Deep Research”水平,后者则显得更加全面和可靠。

20万张GPU!马斯克推出「地表最强」大模型Grok-3,成功登顶排行榜,向OpenAI发起复仇推理能力独树一帜超越了o3 mini、R1等竞争对手
与此同时,Grok 3 在推理能力方面表现突出,成功解锁了测试时计算(test-time compute)手段。这意味着在竞争激烈的推理模型市场中,又一强劲对手应运而生。20万张GPU!马斯克推出「地表最强」大模型Grok-3,成功登顶排行榜,向OpenAI发起复仇Grok 3的推理基准测试结果表明了其优势,分为两个版本,分别是 Grok-3 Reasoning Beta 和 Grok-3 mini Reasoning
在使用更长的测试时间计算时(图中延长部分),吐露出其在数学(AIME’24)、科学(GPQA)和编码(LCB Oct-Feb)数据集上的卓越表现,均超越了 OpenAI 的 o3 mini(high)、o1、DeepSeek R1 及谷歌的 Gemini 2 Flash Thinking等其他众多推理模型。20万张GPU!马斯克推出「地表最强」大模型Grok-3,成功登顶排行榜,向OpenAI发起复仇在 AIME 2025 数学竞赛中,Grok-3 Reasoning Beta 和 Grok-3 mini Reasoning 牢牢占据了前两名,力压其他推理模型。20万张GPU!马斯克推出「地表最强」大模型Grok-3,成功登顶排行榜,向OpenAI发起复仇Grok 3 的用户界面展示了其思考模式(Think),令人印象深刻。20万张GPU!马斯克推出「地表最强」大模型Grok-3,成功登顶排行榜,向OpenAI发起复仇在实践应用中,与其他推理模型相似,Grok-3 能够展示完整的思考过程及思考时长20万张GPU!马斯克推出「地表最强」大模型Grok-3,成功登顶排行榜,向OpenAI发起复仇此外,Grok-3 还具有“Big Brain”模式,能够利用更多的算力进行更深入的思考。20万张GPU!马斯克推出「地表最强」大模型Grok-3,成功登顶排行榜,向OpenAI发起复仇Grok 3 的能力突破了人们的想象,能够生成诸如“从地球发射、降落火星,再在下一个发射窗口返回地球的3D动画代码”等复杂任务的代码。20万张GPU!马斯克推出「地表最强」大模型Grok-3,成功登顶排行榜,向OpenAI发起复仇20万张GPU!马斯克推出「地表最强」大模型Grok-3,成功登顶排行榜,向OpenAI发起复仇另外,Grok 3 还能够“使用 pygame 制作一款混合俄罗斯方块(Tetris)和宝石方块(Bejeweled)的游戏,尽管代码较长,但效果必须惊艳”。20万张GPU!马斯克推出「地表最强」大模型Grok-3,成功登顶排行榜,向OpenAI发起复仇从展示来看,Grok 3 各项能力均展现出强大的在线表现。生成及代码编写与调试。
可以说,DeepSearch 是对 OpenAI 之前推出的深度搜索工具 Deep Research 的直接回应。后者能够通过互联网连接在短短几十分钟内完成一项人类专家需要数小时才能完成的复杂研究任务。以下示例展示了 Grok-3 在 DeepSearch 模式下的能力,它可以联网进行更为深入的搜索,并在过程中展示其思考能力。此外,完成搜索所需的步骤也明确呈现。 在下面的示例中,Grok-3 被请求生成关于“三月疯狂篮球赛”的完整预测(create a full march madness bracket prediction)。此外,关于订阅和定价的信息也得到了披露:
X Premium+ 的订阅用户将首批体验 Grok-3,而其他功能则需订阅 xAI 所称之为 SuperGrok 的版本。 SuperGrok 的订阅费用为每月 30 美元或每年 300 美元,用户需通过购买该订阅才能解锁更多推理和 DeepSearch 查询,同时享受无限制的图像生成服务。发布会结束后,团队根据网友提问进行了简要的问答环节。
在其中提到,xAI 将推出一款基于 Grok 的语音应用,预计将在一周内发布。用户在与应用进行语音对话时,模型能够保留部分与用户的对话记忆,提升互动体验。
此外,马斯克重申了 xAI 追求开源的原则:在发布新版本模型的同时,前一版本将对外开源。他表示在 Grok-3 稳定版本发布后,将随即开源 Grok-2(这一过程可能需要数月的时间)。此举与开源项目 DeepSeek 相比,似乎进展稍显缓慢。马斯克曾在推特上明确说明,xAI 的开源原则是在发布新一代模型时开源上一代模型。
最终,发布会在一段展示 xAI 语音模式的演示视频中落下帷幕。对于马斯克今日发布的内容,您有什么看法?

© 版权声明

相关AI热点

暂无评论

none
暂无评论...