CompassArena大模型评测平台升级，发布Judge Copilot全新功能

大型语言模型评测平台 OpenCompass 现已推出与 ModelScope 合作打造的全新主观评测能力 CompassArena（模型竞技场）。该平台通过众包方式，实现高效、可靠的模型主观评价。欢迎大家踊跃参与，共同促进大模型技术进步。

Judge Copilot 采用了强大的语言模型 Compass-Judger-1-32B-Instruct 作为评估者，能够对模型生成质量进行细致的分析和判断，包括文本相关性、流畅度和信息量等方面。借助该智能助手，您可以更准确地评估模型的优劣。此外，它还支持 Bradley-Terry 评分机制，通过两两对比的方式，对模型进行排序和打分，确保评估结果的公正性。目前，该评估工具已经支持超过 20 个主流大模型。

CompassArena 旨在提供公正、全面的 Judge 模型评估，确保每个参与者的回答都能得到客观评价。为了实现这一目标，平台采用匿名化机制，隐藏提交者的身份信息，仅显示 Judge 模型的输出结果。同时，平台还引入了 Bradley-Terry 评分系统，CompassArena 将根据所有用户的评分数据，计算出模型在各个维度上的综合得分，并根据得分高低进行排名，从而更科学地反映模型的真实水平。

目前，CompassArena 已经支持 360gpt2-pro、deep-seek-v2.5-chat、doubao-pro-32k-240828 等国内优秀的大模型，以及 claude-3.5-sonnet-20241022、gemini-exp-1121 等国外知名模型，并且还在不断增加中。这些模型分别来自 360、DeepSeek、豆包等知名机构，您可以轻松体验并参与评估。

项目链接：https://www.modelscope.cn/studios/opencompass/CompassArena