

当前,评估大型语言模型的知识水平通常使用HELM MMLU基准。该基准旨在测试模型在各个领域的知识掌握程度,由Percy Liang等人创建,最近的研究表明Qwen2-72B模型已经超越了Llama3-70B,成为了该基准上的领先者。
MMLU(Massive Multitask Language Understanding,大规模多任务语言理解)是一个衡量模型在各个学科知识水平的基准。它包含了人文、社会科学、STEM等57个学科,旨在评估语言模型的世界知识和推理能力。通过在大量主题上进行测试,能够更全面地评估模型在不同领域的表现,从而揭示其优势和局限性。
当前的研究由CRFM(Center for Research on Foundation Models)的研究人员进行,他们评估了HELM(A holistic framework for evaluating foundation models)基准上的语言模型表现,重点关注了模型的知识掌握和推理能力。HELM基准不仅考察模型在MMLU上的表现,还关注其安全性、公平性等方面,从而对模型进行更全面的评估。在此次研究中,研究人员着重分析了当前领先的语言模型在5个主要知识领域的性能。
根据Percy Liang团队最近在HELM MMLU上的评估结果,Qwen2-72B在该基准上取得了领先地位。具体来说,Qwen2-72B的得分超过了Claude3Opus、GPT-4o、Gemini1.5pro以及GPT-4等,成为了目前该基准上表现最佳的开源语言模型。
值得一提的是,Qwen2于2024年6月发布,包含了5个不同规模的预训练和指令微调模型。据介绍,Qwen系列模型在性能、可扩展性和适用性方面都表现出色,适用于各种自然语言处理任务。
在HELM MMLU的基准测试中,Qwen2-72B在知识掌握方面表现出色,证明了其在理解和运用各种领域知识方面的强大能力,进一步巩固了其在人工智能模型领域的领先地位。随着模型性能的不断提升,未来的开源语言模型将在更广泛的应用场景中发挥更大的作用。