SuperGPQA

SuperGPQA是由字节跳动豆包大模型团队与M-A-P联合推出的一个全面的知识推理基准测试集。该测试集涵盖了285个研究生级学科，包含26529道专业题目。项目旨在解决传统评测基准在学科覆盖不足、题目质量参差不齐及评测维度单一等问题。通过专家与大语言模型的协同构建，SuperGPQA保证了题目高质量与高难度，并覆盖了STEM和非STEM学科，其中有42.33%的题目涉及数学计算或严谨推理，有效评估大语言模型的泛化能力和真实推理水平。

SuperGPQA的主要功能包括全面评估大语言模型的泛化能力、揭示模型的真实推理能力、提供跨学科分析框架、填补长尾学科评估空白以及为模型优化提供参考。技术原理涉及专家-LLM协同构建、多模型协作验证、跨学科语义结构设计和高难度任务设计。

SuperGPQA的项目地址包括官网、GitHub仓库、HuggingFace模型库和arXiv技术论文。在应用场景上，SuperGPQA可用于模型性能评估、模型优化指导、跨学科分析、教育研究以及行业应用测试等领域。