
就在昨晚,Anthropic 新模型的发布消息在人工智能社区中广泛传播,令人期待的并不是 Claude 4.0,而是 Claude 3.7 Sonnet 版本。
图源:https://x.com/btibor91/status/1893970824484581825
今日凌晨,Anthropic 准时推出了其最新旗舰模型,正式发布了目前为止最智能的模型以及市场上首款混合推理模型——Claude 3.7 Sonnet。
Claude 3.7 Sonnet 能够生成近乎即时的响应,或向用户展示扩展的逐步思考过程。根据 Anthropic 的说法,这款模型具备「一个模型,两种思考方式」(One model, two ways to think.),即标准模式和扩展思考模式。此外,API 用户还可以对模型的思考时间进行精细控制。
除了发布 Claude 3.7 Sonnet,Anthropic 还推出了一款用于智能编码的命令行工具 Claude Code。该工具目前处于有限的研究预览阶段,允许开发人员直接在终端中将大量工程任务委托给 Claude。
在编码方面,Anthropic 改进了 Claude.ai 上的编码体验,其 GitHub 集成现已在所有 Claude 计划中提供,开发人员可以将代码存储库直接连接至 Claude。通过更深入地了解个人、工作和开源项目,Claude 将成为用户在 GitHub 项目中修复错误、开发功能和构建文档的得力伙伴。
因此,凭借在编码和前端Web开发方面的功能与改进,Claude 3.7 Sonnet 成为 Anthropic 迄今最为出色的编码模型。
目前,Claude 3.7 Sonnet 可通过所有 Claude 计划(包括 Free、Pro、Team 和 Enterprise)以及 Anthropic API、Amazon Bedrock 和 Google Cloud Vertex AI 进行使用。除免费用户外,其他所有用户均可体验扩展思考模式。
在标准和扩展思考模式下,Claude 3.7 Sonnet 的定价与其前代(Claude 3.5 Sonnet)相同,每百万输入 token 为 3 美元,每百万输出 token 为 15 美元(包含思考 token)。
正如一位网友所言:「Anthropic 的每次发布总是令人莞尔,充满期待!」
最强 Claude 3.7 Sonnet
让前沿推理变得触手可及
Anthropic 表示,其开发 Claude 3.7 Sonnet 的理念与市场上其他推理模型截然不同。正如人类单一大脑能够实现快速反应与深入思考,Anthropic 认为推理应体现前沿模型的综合能力,而不是完全独立的模型。这种统一的方法将为用户带来更为无缝的体验。
遵循这一理念,Claude 3.7 Sonnet 具备诸多独特优势。
首先,Claude 3.7 Sonnet 同时具备普通语言模型(LLM)和推理模型的功能,用户可选择希望模型何时正常回答,何时希望其延长思考时间。在标准模式下,Claude 3.7 Sonnet 是前代 Claude 3.5 Sonnet 的升级版;而在扩展思维模式下,其会在作答之前进行自我反思,进而提升其在数学、物理、指令遵循、编码等诸多任务中的表现。Anthropic 发现,在这两种模式下,模型对提示词的响应机制类似。
其次,用户在通过 API 使用 Claude 3.7 Sonnet 时,还可控制思考预算。用户可以指示 Claude 的思考不超过 N 个 token,对于任何 N 值,其输出限制为 128K 个 token。这一设计使得用户能够在速度(和成本)与答案质量之间进行权衡。
第三,在其推理模型的开发中,Anthropic 更侧重于反映企业实际使用 LLM 的现实任务,而非过多关注数学和计算机科学竞赛问题的优化。
让我们来看一下 Claude 3.7 Sonnet 的基准测试结果,其中在 SWE-bench Verified(评估 LLM 在 GitHub 上解决真实软件问题能力的基准测试数据集)中,Claude 3.7 Sonnet 实现了当前技术水平的最佳性能,远超 Claude 3.5 Sonnet、OpenAI 的 o3-mini (high) 和 o1 以及 DeepSeek R1。
在 TAU-bench(评估 LLM 在复杂实际场景下用户与工具互动能力的基准测试平台)上,Claude 3.7 Sonnet 同样展现出技术领先性能,超越 Claude 3.5 Sonnet 和 OpenAI 的 o1。
Claude 3.7 Sonnet 在指令遵循、通用推理、多模态能力和智能编码方面均表现卓越,扩展思考在数学和科学领域取得显著提高,但在某些方面仍不及 OpenAI 的 o3-mini (high) 和 Grok-3 Beta。
从中可以看出,Anthropic 在 Claude 3.7 Sonnet 中突出强调了编码能力,而其他领域似乎并未受到同等重视。显而易见,Anthropic 希望将 Sonnet 打造成超级编码 AI(它已经是这方面的佼佼者)。
图源:https://x.com/kimmonismus/status/1894098443859079609
此外,Claude 3.7 Sonnet 不仅在传统基准测试中表现优异,甚至能够在宝可梦(Pokémon)游戏测试中超越所有以往模型。示出显著的改进。同时,Cognition 发现,Claude 在代码变更规划和全栈更新的处理能力上,与其他模型相比具有显著优越性。
Vercel 强调 Claude 在复杂代理工作流中的卓越精确性,而 Replit 则已成功部署 Claude,实现从零开始构建复杂网页应用及仪表板的能力,而其他模型在这方面尚未取得进展。在 Canva 的评估中,Claude 始终如一地编写出设计美观且能够投入生产的代码,同时大幅降低了错误率。
Claude Code智能编码使开发更为高效
自 2024 年 6 月以来,Sonnet 成为了全球开发者首选的模型。如今,Anthropic 推出了其首款智能编码工具 Claude Code(处于有限的研究预览阶段),进一步提高了开发者的工作效率。
在功能方面,Claude Code 作为一个积极的协作伙伴,能够搜索和阅读代码,编辑文件,编写和运行测试,提交与推送代码至 GitHub,以及利用命令行工具操作。
以下是其几个应用示例,包括解释项目结构:编写测试:
构建应用:
尽管处于早期产品阶段,Claude Code 已成为 Anthropic 团队不可或缺的工具,尤其是在测试驱动开发、调试复杂问题和进行大规模重构方面。
在早期测试中,Claude Code 能够一次性完成通常需 45 分钟以上的手动任务,从而显著缩短了开发时间和成本。
在接下来的几周内,Anthropic 计划根据自身使用情况不断完善 Claude Code,包括提升工具调用的可靠性,增加对长时间运行命令的支持,改善应用内渲染效果,并扩展 Claude 对其功能的理解。
Claude Code 的目标是更好地理解开发者如何利用 Claude 进行编码,从而为未来的模型改进提供依据。通过加入此预览版,用户将能够使用与 Anthropic 在构建和改进 Claude 时所采用的相同强大工具。
负责任的构建与未来展望
Anthropic 对 Claude 3.7 Sonnet 进行了深入的测试和评估,并与外部专家合作,确保符合安全性和可靠性标准。
此外,Claude 3.7 Sonnet 还对有害与良性请求之间进行了更细致的区分。与前代模型相比,其不必要的拒绝比例降低了 45%。 CoT 忠实度评估结果。
在 Claude 3.7 Sonnet 的模型卡中,Anthropic 详细阐述了其负责任扩展策略的评估,以及其他 AI 实验室和研究人员在相关工作中采用的措施。此外,模型卡概述了计算机使用所带来的新风险,尤其是快速注入攻击,并解释了 Anthropic 如何识别和训练 Claude 抵御这些脆弱性。
模型卡还探讨了推理模型潜在的安全优势,分析了模型作出决策的方式,以及模型推理是否真正值得信赖和可靠。系统卡地址:https://assets.anthropic.com/m/785e231869ea8b3b/original/claude-3-7-sonnet-system-card.pdf
随着 Claude 3.7 Sonnet 和 Claude Code 的发布,Anthropic 认为这是 AI 系统向真正增强人类能力迈进的一个重要里程碑。具备深度推理、自主工作及高效协作能力的系统,使我们更接近于 AI 丰富和扩展人类能力的愿景。
同时,Anthropic 还描绘了一个令人兴奋的未来展望,期待在 2025 年,Claude 能够成为独立自主工作数小时的专家级智能体;到 2027 年,Claude 有望解决人工团队花费数年方能应对的复杂难题。博客地址:https://www.anthropic.com/news/claude-3-7-sonnet