

大型语言模型评测平台 OpenCompass 现已推出与 ModelScope 合作打造的全新主观评测能力 CompassArena(模型竞技场)。该平台通过众包方式,实现高效、可靠的模型主观评价。欢迎大家踊跃参与,共同促进大模型技术进步。
Judge Copilot 采用了强大的语言模型 Compass-Judger-1-32B-Instruct 作为评估者,能够对模型生成质量进行细致的分析和判断,包括文本相关性、流畅度和信息量等方面。借助该智能助手,您可以更准确地评估模型的优劣。此外,它还支持 Bradley-Terry 评分机制,通过两两对比的方式,对模型进行排序和打分,确保评估结果的公正性。目前,该评估工具已经支持超过 20 个主流大模型。
CompassArena 旨在提供公正、全面的 Judge 模型评估,确保每个参与者的回答都能得到客观评价。为了实现这一目标,平台采用匿名化机制,隐藏提交者的身份信息,仅显示 Judge 模型的输出结果。同时,平台还引入了 Bradley-Terry 评分系统,CompassArena 将根据所有用户的评分数据,计算出模型在各个维度上的综合得分,并根据得分高低进行排名,从而更科学地反映模型的真实水平。
目前,CompassArena 已经支持 360gpt2-pro、deep-seek-v2.5-chat、doubao-pro-32k-240828 等国内优秀的大模型,以及 claude-3.5-sonnet-20241022、gemini-exp-1121 等国外知名模型,并且还在不断增加中。这些模型分别来自 360、DeepSeek、豆包等知名机构,您可以轻松体验并参与评估。
项目链接:https://www.modelscope.cn/studios/opencompass/CompassArena