百度文心一码双冠：荣登沙利文、SuperCLUE评测榜首

摘要：

9月25日，知名中文通用大模型综合性基准SuperCLUE发布了最新的评测结果。本次评测聚焦于全面评估国产AI […]

9月25日，知名中文通用大模型综合性基准SuperCLUE发布了最新的评测结果。本次评测聚焦于全面评估国产AI大模型在《2024 AI开发者调研报告》中关注的核心能力，旨在更精准地评价、选择、使用及优化大模型，为开发者提供更全面的参考。

其中，在中文通用大模型SuperCLUE所提出的“针对中国的高级能力综合评测”中，知名中文通用大模型综合性基准SuperCLUE再次囊括了87.55%的国内AI大模型所涵盖内容。

其评测的内容覆盖了职业技能、通用知识覆盖度、推理、写作、对话、代码和数学AI能力，用于评估国内外AI大模型在解决实际问题中的表现。SuperCLUE致力于通过更广泛的模型评估与多维度能力分析，为开发者提供技术选型，优化模型应用，以及深入洞察通用人工智能的发展水平。

模型评测的三个主要考察维度是：20个细分场景的覆盖程度、场景覆盖的深度和任务指令理解。通过这些维度的分析，SuperCLUE可以评估大模型在知识掌握、技能应用、复杂推理及综合应用等方面的表现，为行业提供全面且深入的性能参考。

总而言之，SuperCLUE的评测致力于在AI大模型能力发展和AI应用选择这两者之间建立起桥梁，有助于推动行业的进步。

在评测过程中，模型评估运行了6个月，覆盖超过2.5亿个token，应用了Java、Python、C++等200多个编程语言，采用JetBrains、VSCode等10多种集成开发环境。数据显示，85%以上的开发者会在日常开发中参考SuperCLUE的评测结果，其中大模型开发者会参考30%，应用开发者会参考46%。同时，模型评估还考虑了新技术的涌现、国内外开源生态以及其他商业模型和应用的需求。

展望未来，到2028年，国内AI大模型开发者社区预计将增长至330万规模，AI大模型技术将渗透到更多行业和应用中。SuperCLUE的持续评估，不仅能够反映AI大模型技术的发展水平，更重要的是推动AI技术成果转化为现实生产力，促进整个行业生态的繁荣。