近期,DeepSeek R1 推理模型在国内外社交媒体上引发了广泛关注,展现了大语言模型在类人深度思考能力方面的潜力。
尽管 DeepSeek R1、OpenAI 的 o1 和 o3 推理模型在数学以及编程领域取得了显著进展,但在某些测试基准中却表现欠佳,如国际数学奥林匹克竞赛(IMO)中的组合问题、抽象与推理语料库(ARC)中的谜题,以及人类最后考试(HLE)中的问题。例如,在 HLE 的相关测试中,主流推理模型整体表现不佳,数据显示 DeepSeek R1 和 o1 的准确率均低于 10%。
那么,如何提高推理模型在这些更具挑战性的基准上的准确性呢?最近,波士顿大学、NotBadMath.AI 和谷歌等机构的研究人员在最新论文中提出了一种结合多种模型与方法的多元推理方式。研究结果表明,该推理方法在数学、编程问题及其他问题的拒绝采样过程中,展现出了简单而高效的特性。
具体而言,研究者们利用交互式定理证明器 Lean 自动验证 IMO 问题答案的准确性,通过代码自动验证 ARC 谜题,并运用 best-of-N 算法有效解答 HLE 问题。
- 论文标题:Diverse Inference and Verification for Advanced Reasoning
- 论文地址:https://arxiv.org/pdf/2502.09955
实验结果显示,研究人员将 IMO 组合问题的答案准确率从 33.3% 提升至 77.8%,将 HLE 问题的准确率从 8% 提升至 37%,并且成功解决了948个人类难以攻克的达80%的 ARC 谜题,以及 o3 解算器无法解决的26.5% 的 ARC 谜题。
研究者指出,通过调整代理图示、不同的提示词、代码和数据集,同时结合模拟测试、强化学习及具有推理反馈的元学习等方法,可以显著提升推理模型的泛化能力。
此外,研究团队还发现了基础语言模型的第三个经验性规模法则,即多种模型和方法的数量与可验证问题性能之间存在正相关关系。前两个规模法则分别是:
- 模型大小、数据规模和损失之间的关系,即更多参数和训练数据能改善语言模型的表现。
- 模型性能与测试时计算能力的关系,早期棋盘游戏的研究验证了训练和测试时计算能力之间的权衡,增加任何一项将带来更好的性能。最近,DeepMind 的 AlphaCode 2 和 OpenAI 的 o1、o3-mini 也展示了测试时计算能力扩展对推理型 LLM 的积极影响。
方法概览
在方法部分,研究者主要提出了以下三项成果:
第一,多元推理(diverse inference)。研究者在测试时整合了多个模型、方法和代理,而非单一依赖某种模型。这意味着只要有任何一个正确的解决方案,都能够对 IMO 组合题和 ARC 谜题的可验证任务进行自动验证。具体方法如下:
- IMO:研究者采用了8种不同的方法,具体包括 LEAP、Z3、RTO、BoN、SC、MoA、MCTS 和 PV,这些方法显著提升了推理模型的准确性。其中,通过英文题目的自动形式化为 Lean,达成了完美验证。
- ARC:合成代码解决方案在训练示例上被用作单元测试(unit test)的验证。
- HLE:通过 best-of-N 作为不完美验证器,随着示例数量的增加,解决率逐步提高。
第二,测试时模拟和强化学习。研究者在推理过程中生成了额外的问题特定信息,具体情况为:
- IMO:将组合题转化为可交互的游戏环境,并使用组合搜索或深度强化学习来获取部分结果或边界。
- ARC:通过合成代码探索谜题转换,从而去掉不正确的解决方案并优化候选解。
此外,研究表明,在相同数据集下,使用经过训练的验证器进行搜索的效果通常优于监督微调,这引发了强化学习微调的研究兴趣。研究者通过运行测试时的模拟及强化学习生成额外数据,成功解答了2024年IMO组合题,并攻克了一系列困难的ARC谜题。
下图1展示了研究人员解决IMO组合题时使用的方法高级架构,其流程包括多个组件,涵盖了编码、模拟、深度强化学习和解码的环节。在编码阶段,研究者将问题形式化为状态空间、动作空间和奖励,以此来寻找答案,并提示LLM将问题转化为游戏环境。具体而言,研究者将问题表述为Gymnasium开源项目中的Python代码,涉及代理和策略,并利用模拟及深度强化学习寻求最优策略。此过程不断重复,为每个问题生成不同维度的多个游戏,同时相应生成每个游戏情节的数据和视频。n>
第三项内容为代码图的元学习。研究人员运用 LLM 及其他工具对工作流程(pipeline)进行追踪,同时生成超参数、提示词、代码标题以及数据的 A/B 测试,并自适应地调整代理图。
实验结果
研究者对 IMO 组合问题进行了广泛评估,采用不同的模型和方法,测试了来自未污染(non-contaminated)考试中所有的组合问题。
实验结果表明,零样本 o1 方法仅成功回答了 1/9(准确率约 11%)的问题,而使用 o3-mini 的最佳方法则成功解答了 3/9(准确率约 33.3%)的问题。相比之下,采用 o3-mini high 的八种多元方法成功解答了 7/9(准确率约 77.8%)的问题,并进行了自动验证。
同样,最佳的 o1 方法也答对了 3/9(准确率约 33.3%)的问题,而通过 o1 的多元方法则成功解答了 6/9(准确率约 66.7%)的问题,并进行了自动验证。接下来,研究者使用了 400 个 ARC 评估谜题,对 16 个模型和方法进行了详尽的评估,其结果如图 4 和图 5 所示,主要发现如下:
- 在没有 o3 的情况下,16 个多元模型和方法将模型性能从 53% 提升至 69.5%。
- 在引入 o3 后,16 个多元模型和方法将模型性能从 91.5% 提升至 93.75%。
- 这 16 个多元模型和方法成功解决了人类无法破解的 80% 的谜题,共计 948 道。
- 此外,这 16 个多元模型和方法解决了 o3 high 在 26.5% 谜题上的失误。
最后,针对 HLE 问题,由于计算成本的限制,研究者随机抽取了 100 个问题进行测试。不同模型和方法的准确率如下表 1 所示,其中 o3-mini high 在非多模态下达到了 13.0% 的准确率;而 Deep Research 采用网络搜索和代码的方式,获得了最高的 26.6% 准确率。
进一步地,使用 o3-mini high 对这 100 个随机选取问题进行 best-of-N 拒绝采样(N=3),所有类别的准确率为 37%,数学问题的准确率为 33.3%;而使用 o1 时,所有类别的准确率为 21%,数学问题的准确率为 29.6%,具体数据见图 6 和图 7 所示。
更多方法细节和实验结果可参见论文附录。