
MMBench
MMBench提供多维度评估工具,专注于视觉-语言模型的能力验证与可靠性提升。

FlagEval大模型评测平台是一个致力于建立科学、公正、开放的评测基准、方法和工具集的综合性平台。其主要目标是协助研究人员全方位评估基础模型及训练算法的性能,同时通过引入AI辅助主观评测,大幅提升评测的效率和客观性。以下是对FlagEval平台各个功能和特点的详细介绍:
FlagEval的内容由AI导航(aidh.net)整理
通过这些功能,FlagEval不仅为研究人员提供了一个强大的评测工具,还为整个大模型领域的技术进步和应用推广提供了有力支持。

MMBench提供多维度评估工具,专注于视觉-语言模型的能力验证与可靠性提升。
LLMEval致力于系统评估大模型在各学科领域的能力,推动模型优化与应用。

评测助力,让AI成为你更好的伙伴

OpenCompass司南致力于为大模型提供全面、客观的评估参考,推动AI技术的发展与应用。
C-Eval是一个多层次、多学科的中文评估工具,专为基础模型设计。

EvalGPT AI 全面评估生成式AI与LLM应用的智能平台