
人工智能(AI)模型的发展速度让人眼花缭乱,技术开发者们不断提升其性能,却也引发了用户对于模型真实表现的疑虑。为解决此问题,由杰弗里・辛顿创办的 Vector Institute 推出了《评估现状研究》。该研究通过互动排行榜对11个顶尖的开源和闭源模型进行全面评测,包括数学、通用知识、编码、安全性等16个基准。
Vector Institute 的 AI 基础设施与研究工程经理约翰・威尔斯表示:“研究人员、开发者、监管者和用户可以独立验证结果,比较模型性能,并构建自己的基准和评估,促进改进和责任的实施。”
在评估中,表现最佳的模型包括 DeepSeek 和 OpenAI 的 o1,而表现较差的模型是 Command R+,主要因为其是规模最小且最老的模型。
研究发现,闭源模型在复杂的知识和推理任务中通常优于开源模型,但 DeepSeek 的表现显示开源模型也具竞争力。威尔斯指出:“在简单任务中,这些模型表现良好,但随任务复杂度增加,推理和理解能力显著下降。”
此外,11个模型在解决实际问题的“代理性基准”上都面临挑战,尤其在软件工程等领域需要开放推理和规划任务中,仍有待提高。为解决此问题,Vector Institute 发展了多模态巨量多任务理解(MMMU)基准来评估模型处理图像和文本的能力。在多模态理解评估中,o1 展现了出色的能力,尤其是在不同格式和难度级别下。然而,威尔斯强调目前需要更多工作实现真正的多模态系统,能够统一处理文本、图像和音频输入。
对于评估中的挑战,威尔斯指出,评估泄露是一大问题,即模型在熟悉的数据集上表现优异,但在新数据上却不尽人意。他认为,开发更创新的基准和动态评估将是解决这问题的关键。
快讯中提到的AI工具
© 版权声明:
文章版权归作者所有,未经允许请勿转载。
本文地址:https://aidh.net/kuaixun/23ab82r8暂无评论...