
标签:AI头条

Anthropic 最新发布的 Claude 3.5 Sonnet 在多种知识评估中表现出色,证明了其强大的理解和推理能力。在研究生水平问答(GPQA)测试中,Claude 3.5 Sonnet 的正确率达到了 67.2%,超过了在类似测试中取得 65% 正确率的人类专家,显示出其卓越的智能水平。
GPQA 是一项用于评估大型语言模型在科学、技术和数学等领域知识深度的基准测试,其中包含大量需要专业知识和深入理解的问题,考察模型对细微差别的把握和识别陷阱的能力。在此次评估中,通过少量样本的测试,该模型达到了 34% 的准确率,远超此前模型的 65% 的准确率。值得一提的是,如果一道题有 60% 的模型答对,那么它就相当于拥有 IQ150 的人才能回答正确。
尽管在某些方面,GPT-4o 和 GPT-4T 在 GPQA 测试中表现出色,但在综合能力方面,Claude 3.5 Sonnet 的推理能力超越了这两种模型。此外,在无需任何提示的情况下,Claude 3.5 Sonnet 的正确率超过了 GPT-4o(53.6%)和 GPT-4T(48.0%),证明了其在复杂问题解决和知识应用方面的卓越能力。
Anthropic 此次发布 Claude 3.5 Sonnet,旨在为用户提供更卓越的智能体验,助力他们在各个知识领域进行更高效的探索和创新。这款新模型不仅在理解能力上有所提升,更在推理能力上实现了显著突破,为未来的智能应用开辟了广阔的前景。
快讯中提到的AI工具
© 版权声明:
文章版权归作者所有,未经允许请勿转载。
本文地址:https://aidh.net/kuaixun/t81ldkb1暂无评论...