全球首款混合推理模型:Claude 3.7 Sonnet震撼上市,真实编码实力超越所有竞争者

就在昨晚,Anthropic 新模型的发布消息在人工智能社区中广泛传播,令人期待的并不是 Claude 4.0,而是 Claude 3.7 Sonnet 版本。

全球首款混合推理模型:Claude 3.7 Sonnet震撼上市,真实编码实力超越所有竞争者
                                 图源:https://x.com/btibor91/status/1893970824484581825

今日凌晨,Anthropic 准时推出了其最新旗舰模型,正式发布了目前为止最智能的模型以及市场上首款混合推理模型——Claude 3.7 Sonnet全球首款混合推理模型:Claude 3.7 Sonnet震撼上市,真实编码实力超越所有竞争者
Claude 3.7 Sonnet 能够生成近乎即时的响应,或向用户展示扩展的逐步思考过程。根据 Anthropic 的说法,这款模型具备「一个模型,两种思考方式」(One model, two ways to think.),即标准模式和扩展思考模式。此外,API 用户还可以对模型的思考时间进行精细控制。
全球首款混合推理模型:Claude 3.7 Sonnet震撼上市,真实编码实力超越所有竞争者
除了发布 Claude 3.7 Sonnet,Anthropic 还推出了一款用于智能编码的命令行工具 Claude Code。该工具目前处于有限的研究预览阶段,允许开发人员直接在终端中将大量工程任务委托给 Claude。
全球首款混合推理模型:Claude 3.7 Sonnet震撼上市,真实编码实力超越所有竞争者
在编码方面,Anthropic 改进了 Claude.ai 上的编码体验,其 GitHub 集成现已在所有 Claude 计划中提供,开发人员可以将代码存储库直接连接至 Claude。通过更深入地了解个人、工作和开源项目,Claude 将成为用户在 GitHub 项目中修复错误、开发功能和构建文档的得力伙伴。

因此,凭借在编码和前端Web开发方面的功能与改进,Claude 3.7 Sonnet 成为 Anthropic 迄今最为出色的编码模型

目前,Claude 3.7 Sonnet 可通过所有 Claude 计划(包括 Free、Pro、Team 和 Enterprise)以及 Anthropic API、Amazon Bedrock 和 Google Cloud Vertex AI 进行使用。除免费用户外,其他所有用户均可体验扩展思考模式。

在标准和扩展思考模式下,Claude 3.7 Sonnet 的定价与其前代(Claude 3.5 Sonnet)相同,每百万输入 token 为 3 美元,每百万输出 token 为 15 美元(包含思考 token)

正如一位网友所言:「Anthropic 的每次发布总是令人莞尔,充满期待!」
全球首款混合推理模型:Claude 3.7 Sonnet震撼上市,真实编码实力超越所有竞争者
最强 Claude 3.7 Sonnet
让前沿推理变得触手可及

Anthropic 表示,其开发 Claude 3.7 Sonnet 的理念与市场上其他推理模型截然不同。正如人类单一大脑能够实现快速反应与深入思考,Anthropic 认为推理应体现前沿模型的综合能力,而不是完全独立的模型。这种统一的方法将为用户带来更为无缝的体验。

遵循这一理念,Claude 3.7 Sonnet 具备诸多独特优势。

首先,Claude 3.7 Sonnet 同时具备普通语言模型(LLM)和推理模型的功能,用户可选择希望模型何时正常回答,何时希望其延长思考时间。在标准模式下,Claude 3.7 Sonnet 是前代 Claude 3.5 Sonnet 的升级版;而在扩展思维模式下,其会在作答之前进行自我反思,进而提升其在数学、物理、指令遵循、编码等诸多任务中的表现。Anthropic 发现,在这两种模式下,模型对提示词的响应机制类似。

其次,用户在通过 API 使用 Claude 3.7 Sonnet 时,还可控制思考预算。用户可以指示 Claude 的思考不超过 N 个 token,对于任何 N 值,其输出限制为 128K 个 token。这一设计使得用户能够在速度(和成本)与答案质量之间进行权衡。

第三,在其推理模型的开发中,Anthropic 更侧重于反映企业实际使用 LLM 的现实任务,而非过多关注数学和计算机科学竞赛问题的优化

让我们来看一下 Claude 3.7 Sonnet 的基准测试结果,其中在 SWE-bench Verified(评估 LLM 在 GitHub 上解决真实软件问题能力的基准测试数据集)中,Claude 3.7 Sonnet 实现了当前技术水平的最佳性能,远超 Claude 3.5 Sonnet、OpenAI 的 o3-mini (high) 和 o1 以及 DeepSeek R1
全球首款混合推理模型:Claude 3.7 Sonnet震撼上市,真实编码实力超越所有竞争者
在 TAU-bench(评估 LLM 在复杂实际场景下用户与工具互动能力的基准测试平台)上,Claude 3.7 Sonnet 同样展现出技术领先性能,超越 Claude 3.5 Sonnet 和 OpenAI 的 o1。
全球首款混合推理模型:Claude 3.7 Sonnet震撼上市,真实编码实力超越所有竞争者
Claude 3.7 Sonnet 在指令遵循、通用推理、多模态能力和智能编码方面均表现卓越,扩展思考在数学和科学领域取得显著提高,但在某些方面仍不及 OpenAI 的 o3-mini (high) 和 Grok-3 Beta。
全球首款混合推理模型:Claude 3.7 Sonnet震撼上市,真实编码实力超越所有竞争者
从中可以看出,Anthropic 在 Claude 3.7 Sonnet 中突出强调了编码能力,而其他领域似乎并未受到同等重视。显而易见,Anthropic 希望将 Sonnet 打造成超级编码 AI(它已经是这方面的佼佼者)。
全球首款混合推理模型:Claude 3.7 Sonnet震撼上市,真实编码实力超越所有竞争者
                                 图源:https://x.com/kimmonismus/status/1894098443859079609

此外,Claude 3.7 Sonnet 不仅在传统基准测试中表现优异,甚至能够在宝可梦(Pokémon)游戏测试中超越所有以往模型。示出显著的改进。同时,Cognition 发现,Claude 在代码变更规划和全栈更新的处理能力上,与其他模型相比具有显著优越性。

Vercel 强调 Claude 在复杂代理工作流中的卓越精确性,而 Replit 则已成功部署 Claude,实现从零开始构建复杂网页应用及仪表板的能力,而其他模型在这方面尚未取得进展。在 Canva 的评估中,Claude 始终如一地编写出设计美观且能够投入生产的代码,同时大幅降低了错误率。
Claude Code智能编码使开发更为高效
自 2024 年 6 月以来,Sonnet 成为了全球开发者首选的模型。如今,Anthropic 推出了其首款智能编码工具 Claude Code(处于有限的研究预览阶段),进一步提高了开发者的工作效率
在功能方面,Claude Code 作为一个积极的协作伙伴,能够搜索和阅读代码,编辑文件,编写和运行测试,提交与推送代码至 GitHub,以及利用命令行工具操作。
以下是其几个应用示例,包括解释项目结构:全球首款混合推理模型:Claude 3.7 Sonnet震撼上市,真实编码实力超越所有竞争者编写测试:全球首款混合推理模型:Claude 3.7 Sonnet震撼上市,真实编码实力超越所有竞争者构建应用:全球首款混合推理模型:Claude 3.7 Sonnet震撼上市,真实编码实力超越所有竞争者尽管处于早期产品阶段,Claude Code 已成为 Anthropic 团队不可或缺的工具,尤其是在测试驱动开发、调试复杂问题和进行大规模重构方面。
在早期测试中,Claude Code 能够一次性完成通常需 45 分钟以上的手动任务,从而显著缩短了开发时间和成本。
在接下来的几周内,Anthropic 计划根据自身使用情况不断完善 Claude Code,包括提升工具调用的可靠性,增加对长时间运行命令的支持,改善应用内渲染效果,并扩展 Claude 对其功能的理解。
Claude Code 的目标是更好地理解开发者如何利用 Claude 进行编码,从而为未来的模型改进提供依据。通过加入此预览版,用户将能够使用与 Anthropic 在构建和改进 Claude 时所采用的相同强大工具。
负责任的构建与未来展望
Anthropic 对 Claude 3.7 Sonnet 进行了深入的测试和评估,并与外部专家合作,确保符合安全性和可靠性标准。
此外,Claude 3.7 Sonnet 还对有害与良性请求之间进行了更细致的区分。与前代模型相比,其不必要的拒绝比例降低了 45%。全球首款混合推理模型:Claude 3.7 Sonnet震撼上市,真实编码实力超越所有竞争者                                    CoT 忠实度评估结果。
在 Claude 3.7 Sonnet 的模型卡中,Anthropic 详细阐述了其负责任扩展策略的评估,以及其他 AI 实验室和研究人员在相关工作中采用的措施。此外,模型卡概述了计算机使用所带来的新风险,尤其是快速注入攻击,并解释了 Anthropic 如何识别和训练 Claude 抵御这些脆弱性。
模型卡还探讨了推理模型潜在的安全优势,分析了模型作出决策的方式,以及模型推理是否真正值得信赖和可靠。全球首款混合推理模型:Claude 3.7 Sonnet震撼上市,真实编码实力超越所有竞争者系统卡地址:https://assets.anthropic.com/m/785e231869ea8b3b/original/claude-3-7-sonnet-system-card.pdf
随着 Claude 3.7 Sonnet 和 Claude Code 的发布,Anthropic 认为这是 AI 系统向真正增强人类能力迈进的一个重要里程碑。具备深度推理、自主工作及高效协作能力的系统,使我们更接近于 AI 丰富和扩展人类能力的愿景。
同时,Anthropic 还描绘了一个令人兴奋的未来展望,期待在 2025 年,Claude 能够成为独立自主工作数小时的专家级智能体;到 2027 年,Claude 有望解决人工团队花费数年方能应对的复杂难题。全球首款混合推理模型:Claude 3.7 Sonnet震撼上市,真实编码实力超越所有竞争者博客地址:https://www.anthropic.com/news/claude-3-7-sonnet

© 版权声明

相关AI热点

暂无评论

none
暂无评论...