

7月25日,智源研究院正式发布了2024年度AI模型评测报告。报告指出,部分大模型在处理长文本时,tokens的处理能力已达到5000以上,而另一些模型在5到15分钟的长文本处理后,准确率下降至22%。报告还显示,当前大模型普遍存在幻觉问题,并且在事实性、逻辑性和安全性方面存在不足,有待进一步提升事实认知、对齐和推理能力。
具体来说,报告评估了大模型在知识问答、文本创作、代码生成等方面的表现,并针对垂直领域的专业能力进行了测试。知识·问答模型和知识·创作模型主要用于考核模型在给定领域的知识掌握程度和专业内容生成能力。知识·阅读理解模型和知识·推理模型则侧重于评估模型在特定场景下的信息提取和逻辑推理能力。
-
知识·问答模型:主要考察模型在特定领域内的知识储备、理解能力、信息整合能力以及问题解决能力,重点评估其在该领域内的专业性知识,包括但不限于专业术语、行业法规以及案例研究等。评估维度涵盖准确性、完整性、相关性和专业性等。模型需要能够准确、全面、相关地回答问题,并展现出对该领域的深入理解。
-
知识·创作模型:考察模型在特定领域的专业写作、内容生成、创新能力和行业洞察,对生成内容的专业性进行评估;评估模型在特定领域中的创意性输出、内容丰富度以及行业理解,确保模型在特定专业方向具备深度和广度,能够生成高质量的内容,包括专业报告、行业分析、创新概念和解决方案。
-
知识·阅读理解模型:着重考察模型在特定领域中的信息检索能力和文本理解能力,并评估其在该领域内进行深入阅读和有效检索的能力;旨在评估模型在特定知识范围内对专业文本的掌握和理解程度,以及从复杂信息中准确提取关键信息和发现潜在关系的能力。关注模型在处理专业文献、技术文档和行业报告等材料时,能否准确理解相关内容。
-
知识·推理模型:着重考察专业领域内的问题分析和解决能力,评估其在该领域中进行逻辑分析和解决复杂问题的能力;主要目的是衡量模型在处理专业性问题时的逻辑推理能力和综合运用知识的能力,包括但不限于因果分析、趋势预测、假设验证等,重点评估其是否能在面对复杂场景时做出合理的决策和判断。
与此同时,智源研究院还对国内主流开源及商业模型进行了全面的能力验证和性能测试,以便为开发者选择合适的模型提供参考。考虑到当前大模型在特定任务中的应用需求,团队致力于构建更全面的评测基准,从而优化模型的选择和部署过程。智源研究院发布了一系列针对AI Bot的评测结果,旨在为开发者提供更多选择,助力大模型技术的进一步发展。
智源研究院还推出了HiAgent系列AI模型评测工具,旨在全面评估各类大模型的能力水平。HiAgent能够支持生成、理解、交互等多种模型能力,为AI模型的选择与应用提供有效的数据支持。智源研究院的AI模型评估体系不仅关注模型的常规性能指标,还关注模型在特定领域的专业表现,力求全面、客观地反映各类MoE模型的能力。