
人工智能公司 Anthropic 近日宣布推出其首款“混合推理模型”——Claude 3.7 Sonnet。据称,该模型在解决复杂问题以及数学和编码等领域展现出卓越性能,超越了以往的模型。

Anthropic 公司表示,这是其迄今为止“最智能”的 AI 模型,并强调这种“混合型”模型兼具“推理模式”(能够停下来思考复杂答案)和传统模式(实时生成答案)的能力,是目前市场上独树一帜的“混合”模型。
除新模型之外,AI工具库还注意到,Anthropic 发布了其“自主性”编程工具 Claude Code 的“有限研究预览版”。尽管 Anthropic 已经为 Cursor 等人工智能编程工具提供支持,但此次推出的 Claude Code 定位为一个“积极的合作伙伴”,具备搜索和阅读代码、编辑文件、编写和运行测试、将代码提交到 GitHub 以及使用命令行工具的能力。

自本周一始,用户即可在 Claude 应用程序中使用 Claude 3.7 Sonnet,开发者也可通过 Anthropic 的 API、亚马逊 Bedrock 和谷歌云的 Vertix AI 获取该模型。其运行成本与前代产品 3.5 Sonnet 保持一致,输入每百万 token 收费 3 美元,输出每百万 token 收费 15 美元。
目前,虽然 OpenAI 等公司提供独立的推理模型,但 Anthropic 产品研究主管 Dianne Penn 表示,公司旨在简化模型的使用体验。她指出:“我们从根本上认为,推理是人工智能的一个固有特征,而非一个完全独立的事物。”她还提到,无论是回答诸如“现在几点了?”之类的简单问题,还是应对诸如“规划一个为期两周的意大利之旅,并考虑 3 月下旬的天气”之类的复杂提示,Claude 的响应速度差异并不显著。
Dianne Penn 称,Claude 3.7 Sonnet 在“自主性编程”、金融和法律任务上的表现显著优于前代产品。尽管该模型仍不具备实时网络搜索功能,但其知识截止日期为 2024 年 10 月,较其他模型更为新近。此外,Anthropic 还允许开发者通过其“草稿纸”功能指导模型的“思考”方式,甚至可以精确控制模型的响应时间。Anthropic 产品副总裁 Michael Gerstenhaber 表示:“有时开发者只需要明确指出,回答这个问题不应超过 200 毫秒。”他认为这是产品决策中的重要考量。
在 Anthropic 内部,员工已利用 Claude 3.7 Sonnet 完成前端网站设计、交互式游戏开发等任务。Penn 透露,该模型甚至能通过反复构建和编辑测试用例,支持长达 45 分钟的编码工作。她还提到,公司通过将模型的 API 映射到游戏控制器方案,测试模型在一款经典《宝可梦》电子游戏中的表现。结果显示,前代 Claude 3.5 Sonnet 无法走出游戏初期的帕雷特镇,而 3.7 版本成功击败了多个道馆馆主。
Anthropic 凭借 Claude 3.7 Sonnet 的性能提升再次确立了其行业领先地位。该模型的发布也预示着行业正朝着一个模型能够完成所有任务的未来迈进,而非依赖独立的推理模型。