从自我进化视角剖析LLM推理能力的技术演进历程

论文标题：关于大型语言模型复杂推理的自我进化研究综述
论文链接：https://www.researchgate.net/publication/389209259_A_Survey_on_Complex_Reasoning_of_Large_Language_Models_through_the_Lens_of_Self-Evolution?channel=doi&linkId=67b8b5b0207c0c20fa9111fb&showFulltext=true
仓库链接：https://github.com/cs-holder/Reasoning-Self-Evolution-Survey

1. 引言

在人工智能的持续发展过程中，大型语言模型（LLM）所涉及的复杂推理研究已成为学术界和工业界的关注焦点。随着 OpenAI 的 O1 发布以及后续的 DeepSeek R1 等重大突破，相关领域的研究热度不断攀升，激发了广泛的学术讨论和实践探索。这些里程碑式的成果不仅加速了技术的迭代进程，也激励研究者们在复现及扩展其应用范围方面不断尝试新思路。

为此，哈尔滨工业大学赛尔实验室的知识挖掘组从自我进化的视角出发，对现存技术体系进行了系统性的分析。我们的研究框架涵盖三个相辅相成的核心维度：数据进化、模型进化与自我进化。在数据进化维度，重点探讨了如何通过优化推理训练数据来提升思维链推理的质量与效率，涉及任务设计的改进及推理计算过程的优化；模型进化维度则系统梳理了通过训练优化模型模块来增强复杂推理能力的技术路径；而在自我进化维度，我们深入分析了进化策略及其模式，并基于此对 O1 类代表性工作进行了详尽解读。

本研究基于对超过 200 篇前沿文献的深入调研，全面总结了提高 LLM 推理能力的技术演进路径。从基于树搜索的短思维链到基于强化学习的长思维链，我们系统梳理了当前最先进的研究方法，并对未来的研究方向进行了前瞻性展望。我们期待这篇综述能够为 LLM 复杂推理的研究者提供新的视角，促进该领域向更深层次发展，并为提升 LLM 的推理能力开辟新的研究路径。

2. 章节组织

本文将从三个主要部分介绍 LLM 复杂推理的自我进化方法：数据进化、模型进化和自我进化。最后，我们还将分析具有代表性的 O1 类研究工作，并对未来的研究方向进行展望。

数据进化：探讨如何通过任务进化与思维链进化来生成更高质量的训练数据。
模型进化：关注如何通过优化模型模块来增强系统的推理能力。
自我进化：探讨如何借助数据和模型的迭代进化来实现系统的自我优化。

3. 数据进化

数据进化主要关注如何通过生成更高质量的训练数据以提升系统的推理能力。这一部分将详细涵盖任务进化及思维链进化的相关策略和技术。

3.1 任务进化

任务进化旨在生成更具多样性和挑战性的任务，以增强模型的推理与泛化能力。目前研究指出，任务进化的三个关键方向包括：任务多样性、任务复杂性以及任务可靠性。

任务多样性：为提高任务的多样性，部分研究建议 LLM 调整数据类型和逻辑操作，生成结构相似但逻辑不同的任务。其他研究则通过重新表述参考问题，或引入温度采样与以多样性为导向的提示来丰富问题生成。此外，有研究明确指导 LLM 创造少见且领域特定的问题，而通过结合人工编写的任务与模型生成的任务，运用特定提示生成新任务也是一种有效的方法。
任务复杂性：生成更复杂任务的策略包括引入约束、深化题目、具体化描述、增加推理步骤及提升输入复杂性。例如，可以通过引入额外条件来增加任务的难度，或扩展查询的深度和广度，进而增强模型的推理能力。具体化方法将问题中的通用概念替换为更为具体的概念，使指令更加清晰。增加推理步骤则通过要求额外的推理环节来强化模型的逻辑思维，而通过调整问题条件、引入结构化数据或特定输入格式来提升模型的鲁棒性和泛化能力。
任务可靠性：自动生成的任务有可能产生未解决的问题或错误答案。为解决此类问题，一些研究采用微调的 LLM 对任务进行评分，筛选出高质量任务。另有研究则从原始问题出发生成任务，通过验证答案以过滤出不一致性。此外，借助 Python 解释器与预定义规则对编程任务的正确性进行验证也是确保质量的有效手段。

的推理链的生成。

3.2.1 元操作

思维链进化的基础是定义三种核心的元操作：逐步推理、评估和后处理。逐步推理的核心在于将复杂问题分解为一系列相互依赖的步骤，而评估则是在推理过程中对已进行的思考进行自我检查和反思，后处理则致力于对推理结果的修正与总结。通过搜索算法，这些元操作得以扩展，最终生成更高质量的推理链。

逐步推理：此方法将复杂的全局问题逐层分解为一系列依赖性逐渐增强的子题，促使模型逐步解决每一个子问题。这一方法通过递归分解，使模型能够应对更为复杂的任务。例如，Chain of Thought（CoT）通过阶段性提示来逐步解决每个子问题；Plan-and-Solve则通过生成详细计划再执行推理；Least-to-Most Prompting通过显性的问题分解来逐步处理每一小部分，ReACT则结合迭代推理与行动来增强推理的深度。
评估：这一阶段涉及模型对推理过程的自我评估与反思，使其能够识别并修正潜在错误。评估可分为结果级、步骤级和token级，结果级评估在推理完成后审视整体解决方案，步骤级评估对推理过程中各个步骤进行分析，而token级评估则针对每一个生成的token进行细致评估。这些多层次的评估方式提供了更加细致的反馈，从而支持模型在推理过程中不断改进。
后处理：这一过程旨在对推理结果进行修正和总结，使模型能够从错误中学习并优化其未来的推理策略。后处理方法包括过滤不合格的推理结果、提取推理过程中的关键信息，以及通过纠正错误来优化最终结果。这些后处理方式从不同角度提升推理结果的整体质量与可靠性。

3.2.2 显式树搜索（Short CoT）

显式树搜索方法运用树状搜索算法，如宽度优先搜索（BFS）、深度优先搜索（DFS）、束搜索（Beam Search）、A * 搜索及蒙特卡洛树搜索（MCTS），以探索多条推理路径，从而生成简洁且正确的推理链。这些方法在搜索过程中运用评估函数指导探索方向，并进行剪枝以优化效率。例如，BFS/DFS通过经典搜索策略探索多样化的推理路径，束搜索则平衡了候选序列的数量与搜索的准确性，A *搜索通过评估函数来提升搜索的有效性，而MCTS则在探索与利用之间寻找到优质的推理路径。

3.2.3 隐式试错搜索（Long CoT）

隐式试错搜索方法通过将整个搜索过程线性化，允许模型在推理阶段进行自我评估与修正，从而生成涵盖错误检测、回溯和修正的长推理链。此方法不依赖于外部评估或修正机制，而是依靠模型自身的评估运作来调整推理路径。例如，O1 Journey使用蒸馏法训练模型生成长推理链，DeepSeek-R1、Kimi-k1.5及T1则通过强化学习的方式训练模型以生成长推理链。

3.2.4 显式树搜索与隐式试错搜索的比较与关联

比较：

显式树搜索形式上通过使用树状搜索算法，如BFS/DFS、束搜索、A *和MCTS，探索多个推理路径，从而构建出正确且简练的推理链。这类方法利用评估函数在搜索过程中指引方向并进行剪枝，以提高效率。而隐式试错搜索则通过线性化整个搜索过程，给予模型在推理进行中自我评估与修正的机会，使得生成的推理链能够包含错误检测、回溯及修正。因此，隐式试错搜索不依赖外部评估器或修正器，而是通过模型的自我评估机制来调整推理路径。

关联：

从搜索空间的角度来看：树搜索方法专注于确保每个推理步骤的逻辑性，探索单一推理步骤所定义的动作空间。而试错搜索则通过引入元操作（如评估、修正、回溯）来扩展动作空间，从而生成更为完善的长推理链。因此，如果将树搜索中的动作空间扩展为涵盖评估、修正及回溯等元操作，在理论上，能够通过树搜索的方法发现长推理链。
在推理能力的演进方面：长推理链作为解决新问题的有效策略，通过试错与自我修正探索潜在解决方案。相较之下，短推理链则通过不断从长推理链中提取知识，学习到更高效的推理路径，减少试错的过程，缩短推理链的长度。长推理链作为初始解法，其蕴含的知识将被应用于学习短推理链，而短推理链则作为先验知识，旨在简化处理更复杂任务时的试错周期。

化提供了基本的优化框架，其技术逐步从传统的强化学习从人类反馈（RLHF）向更高效的范式演进。RLHF通过人工标注的偏好数据，不断训练模型，使其能够与LLM对齐。PPO算法以限制策略优化步伐的方式控制策略偏移，展现出稳定性的优势，但其训练复杂度高、资源消耗大等问题依然存在。为此，后续研究提出了多种改进方案：REINFORCE简化架构，利用最高概率的动作作为基线（ReMax）或通过多条轨迹采样估计基线（RLOO），有效降低对价值模型的依赖；GRPO通过蒙特卡洛组内归一化取代价值模型，从而提升训练的稳定性；DPO则省略显式的奖励建模，直接利用偏好数据对齐策略模型，虽然其优化方式细粒度不足；PRIME结合结果奖励模型（ORM）的培训，实现在 token 级别分发隐式奖励信号。

4.2 Reasoner 优化

Reasoner作为模型的核心组件，负责产生推理过程及最终结果。优化Reasoner的方法包括行为克隆、偏好优化与强化学习。

4.2.1 行为克隆

行为克隆利用监督学习直接模仿高质量推理轨迹，这是模型进化的基本方法。其核心流程为：从正确解中筛选训练数据，经过微调使模型掌握标准推理模式。

传统方法仅利用正确数据，导致大量错误解未被充分利用。为此，改进技术通过逆向策略借助错误数据：例如，通过重新生成正确解法来扩充正样本，或修改错误解的指令标签（如将“生成正确答案”更改为“生成错误答案”），借此将其转化为负样本供模型学习。此外，某些方法开发了专用修正器模型，以定位及纠正推理中的错误。

尽管行为克隆过程简易，但其依赖静态数据集的特点限制了持续进化的能力，并且难以充分挖掘错误样本中的潜在价值，从而成为后续强化学习方法的重要补充。

4.2.2 偏好优化

偏好优化通过提高高质量推理路径的概率、降低低质量路径的概率，以增强模型的推理能力。偏好优化可根据偏好数据的粒度分为解决方案级、步骤级和 token 级优化。

解决方案级偏好优化：通过比较不同解决方案的质量来优化模型。具体而言，根据答案的正确性将一组解决方案分为正确与错误两组，并基于这些分组构建偏好关系进行优化。此方法简便直观，但在中间推理步骤的优化能力上存在不足。
步骤级偏好优化：通过评估个别推理步骤的质量来优化模型。具体而言，主动构造或树搜索方法生成带有相同前缀的正确与错误推理轨迹，然后基于这些轨迹建立偏好关系进行优化。此方法能更为细致地优化模型推理过程，然而对数据质量的要求相对较高。
Token 级偏好优化：通过评估每个生成的 token 来优化模型。具体而言，可为每个 token 赋予奖励值，基于隐式奖励或显式标注方法进行优化。这一方法能够提供最细粒度的反馈，但在计算复杂度上相对较高。

4.2.3 强化学习

强化学习通过与环境的交互来优化 LLM 的推理能力。具体来说，强化学习方法包括 无模型在线强化学习、离线强化学习、基于模型的强化学习及层次强化学习。

无模型在线强化学习：通过直接与环境进行交互训练策略模型。即模型生成推理轨迹并依据奖励信号进行优化。常用方法包括 REINFORCE、PPO 和 GRPO。这些策略通过实时交互，能够动态调整模型的行为，然其对环境的依赖性较强。
离线强化学习：使用静态数据集进行训练，而非通过与环境交互收集数据。离线强化学习方法如 DPO，通过收集偏好数据，基于这些数据进行优化。这种方法能够高效利用已有数据，但对数据质量的要求较高。
基于模型的强化学习：通过模拟环境以降低训练和推理过程中的交互成本。初步通过学习环境模型进行，此后在模拟环境中进行训练。该方法显著减少了与真实环境的交互次数，但对环境模型的精准度要求较高。

化

评估器的主要职能是评估推理者生成的推理过程及答案的质量。针对评估器的优化方法主要包括训练数据的构造与训练格式的选择。

4.3.1 训练数据构造

为优化评估器，构造高质量训练数据是至关重要的，这包括结果级、步骤级和标记级的数据。

结果级数据构造：通过准确答案标签或大型语言模型（LLM）评估生成。具体而言，运用准确答案标签将解决方案分类为正确与错误，基于这些分类开展训练。这种方法简单明了，但在对中间推理步骤的评估上能力较弱。
步骤级数据构造：采用蒙特卡洛采样、LLM 评估或一致性评估生成数据。通过采样或评估方法，为每个推理步骤分配奖励值，并在此基础上进行训练。尽管此方法能够提供更为细致的反馈，但其计算复杂度相对较高。
标记级数据构造：通过生成模型重写原始解决方案或运用隐式奖励生成。例如，重写解决方案或通过奖励分配为每个标记分配奖励值，并据此进行训练。此方法提供了最细粒度的反馈，但实现难度显著增加。

4.3.2 训练格式

评估器的训练格式可以是点式、成对式或语言式。

点式训练：利用标量值来优化评估模型。具体来说，通过预测每个解决方案或步骤的奖励值进行模型训练。这种方法直观简便，但未能充分利用偏好数据。
成对式训练：运用偏好数据优化评估模型。通过比较不同解决方案或步骤的偏好关系进行模型训练，从而有效利用偏好数据，尽管对数据的要求相对较高。
语言式训练：通过生成自然语言反馈提升评估的可靠性与可解释性。具体而言，通过自然语言对解决方案或步骤进行评价，以此训练模型。这种方法虽能提供更丰富的反馈，但实现复杂度较高。

4.4 后处理器优化

后处理器负责对推理者生成的推理结果进行修正与总结。优化后处理器的策略主要包括行为克隆与强化学习。

行为克隆：通过利用错误数据生成修正数据以提升模型的自我修正能力。通过生成错误数据并基于正确数据进行微调，训练模型学习如何进行错误修正。这种方法显著提升模型的自我修正能力，但对数据质量要求较高。
强化学习：通过整合外部执行反馈来增强模型的自我改进能力。具体而言，将修正过程建模为马尔可夫决策过程，并运用强化学习算法进行优化，从而训练模型在推理过程中自我修正的方法。这种策略能提供动态反馈，尽管实现上具有较高的复杂性。

5. 自我进化

自我进化要求系统充分利用自身生成的数据，以持续提升其性能。本节将探讨自我进化的理论基础、策略、模式，以及面临的挑战和未来方向。

5.1 自我进化的理论基础

自我进化可通过期望最大化（EM）算法形式化为一种交替优化过程。E 步（数据进化）生成高质量推理轨迹并对其质量进行评估，而 M 步（模型进化）则基于生成的数据优化模型参数，从而形成一个闭环迭代机制。这一过程在理论上推动系统性能的逐步提升，并最终实现收敛。

5.2 自我进化策略

自我进化策略涵盖了独立进化、合作进化和对抗进化。独立进化专注于通过单独优化某一模块提升性能；合作进化强调模块间的协作以提升整体性能，而对抗进化则通过模块间的对抗机制来规避局部最优问题。

独立进化：每个模块独立进行优化，不依赖于其他模块的反馈。例如，推理者可以通过行为克隆或偏好优化单独训练，评估器可以通过结果级或步骤级数据独立训练，后处理器也可以通过行为克隆单独训练。此方法简便明确，然而可能未能充分利用模块间的协同效应。
合作进化：模块间通过合作来提升整体性能。间通过对抗机制来规避局部最优陷阱。例如，Task Creator可以生成更具挑战性的任务来测试Reasoner，而Reasoner则通过解决这些难题来提升自身的能力。这种方法在有效避免模型陷入局部最优方面表现突出，但需要精心设计对抗机制。

5.3 自我进化模式

自我进化模式包括对Reasoner单独优化、Reasoner与Evaluator协同、多模块组合（包括Reasoner与Post-Processor、Reasoner与Task Creator，以及Reasoner与Evaluator、Post-Processor的综合组合）。每种模式均具有独特的优化策略和优势，合理结合多种模式能够显著提升性能。

仅优化Reasoner：针对Reasoner进行单独优化，同时不考虑其他模块。采用的优化方法包括行为克隆、偏好优化及强化学习等。这种做法虽然简单明了，但可能无法充分利用其他模块的反馈信息。
Reasoner + Evaluator：Reasoner生成的推理结果可用于训练Evaluator，而Evaluator的反馈又能够进一步优化Reasoner。这一模式充分利用了模块间的协同效应，显著提升了推理和评估能力。
Reasoner + Post-Processor：Reasoner生成的推理结果用于训练Post-Processor，而Post-Processor的修正结果可进一步用于训练Reasoner。这种结合方式有效提高了推理结果的质量和可靠性。
Reasoner + Task Creator：Task Creator设计并生成更具挑战性的任务供Reasoner使用，从而促进Reasoner能力的发展。这种方式有效增强了模型的泛化能力和任务的多样性。
Reasoner + Evaluator + Post-Processor：在该模式中，Reasoner生成的推理结果被用于训练Evaluator与Post-Processor，Evaluator的反馈与Post-Processor的修正结果也直接反哺Reasoner的训练。此方法充分体现了模块间的协同作用，全面提升了系统的性能。

6. 对代表性 O1 类研究的重新解读

通过对代表性O1类研究的分析，我们发现所有这些研究均可在自我进化框架的视角下进行解释。具体而言，Marco-O1通过蒙特卡洛树搜索（MCTS）生成数据并进行监督式微调；O1 Journey通过生成长推理链和进行DPO优化来增强推理能力；Slow Thinking with LLMs通过迭代训练和DPO优化实现Reasoner与Evaluator的共同进化；rStar-Math则通过多轮迭代训练来达到同样目的；OpenR/O1-Coder利用强化学习优化Reasoner和Evaluator；DeepSeek R1/Kimi-k1.5/T1则通过在线强化学习实现Reasoner、Evaluator及Post-Processor的共同进化。

7. 挑战和未来方向

自我进化框架的挑战与未来方向：

更具前景的自我进化模式：探索不同的模块组合及策略（如合作与对抗学习），将助力形成更有效的自我进化框架。理想情况下，各个模块的同步提升将带来持续且显著的性能改善。

系统泛化：自我进化依赖于迭代训练来提升系统性能，而防止过拟合以及确保广泛的泛化能力至关重要。任务泛化尤为重要；合成更多样化和复杂的任务将确保模型在广泛场景下的覆盖，这是解决泛化问题的基础。此外，推理器、评估器与后处理器的泛化能力也更显得重要。研究表明，增强推理器的探索能力可以有效降低过拟合风险。同时，后处理器在多样化解决方案中也发挥着不可或缺的作用。值得关注的是，奖励黑客行为显示当前评估器可能过拟合于推理器，并利用奖励捷径。因此，推理系统的泛化能力是自我进化框架内持续增强的关键。

自我进化视角下提升R1等工作的不足：

任务多样性：当前的任务生成方法在复杂性和多样性上存在提升空间，需进一步增强任务的多样性以生成更具挑战性和领域相关性的任务。
自我评估与修正能力：模型在自我评估和修正能力上存在准确性与效率的不足，因此亟需进一步提升，以更准确地识别和纠正错误，从而借助高效的试错搜索推动数据的进化。
奖励建模方法：为了解决LLM在隐式试错搜索过程中过度思考和不足思考的问题，可能需引入更为细粒度的奖励信号。目前的奖励建模方法在泛化能力和准确性方面存在缺陷，因而亟待开发更加有效的奖励建模方法以更准确地评估模型性能，并为基于强化学习的模型进化提供指导。

将自我进化应用于具身智能场景：

在具身智能场景中，为实现自我进化，需提升模型对多模态数据的解析能力，重新定义多模态推理的思维链格式，降低与环境交互的成本，并增加培训数据的资源。