PTAG团队在大语言模型(LLM)领域提出了一种创新的多智能体强化学习框架PettingLLMs,首次实现了“群体强化”,显著提升了智能体在医疗、编程等领域的表现。研究中提出的GRPO算法有效支持多智能体协作,但在多轮对话中面临公平性挑战。为解决此问题,采用基于贪婪搜索的树状采样方法,平衡探索与利用。此外,构建异步分发训练系统优化模型更新。实验结果显示,智能体任务性能显著提升,互换角色策略增强了智能体的协作能力,展现了跨任务学习潜力,为未来研究提供新思路。

PTAG结合树状采样与角色化奖励机制的创新探索
在大语言模型(LLM)领域,PTAG团队提出了一种新的强化学习框架,首次实现了多智能体的“群体强化”,为智能体的协作与学习开辟了新的方向。研究表明,在多个智能体共同协作的任务中,能够显著提升表现,这一点在医疗、编程、科研及具身智能等领域尤为明显。
尽管已有大量研究展示了多智能体工作流的优势,现有的LLM训练框架依然主要集中在单一智能体上,亟需解决多智能体“群体强化”的问题。为此,来自UCSD和英特尔的研究者们提出了通用化的多智能体强化学习框架——PettingLLMs,支持多个LLM的组合训练,从而推动了智能体间的协作优化。
在训练大模型智能体时,Group Relative Policy Optimization(GRPO)算法被验证为一种有效的强化学习方法。然而,GRPO及其他针对LLM的训练框架仍然局限于单智能体的范畴,导致多智能体间的协作优化机制尚待完善。GRPO算法的核心在于通过多次采样生成一组回答,并对其进行评估以计算相对优势,但在多智能体环境中,这一机制面临着挑战。
尤其是在多轮对话中,智能体接收到的prompt存在显著差异,这使得将不同智能体的回答视为一个“组”进行优势计算变得不再公平。因此,如何在保证组内一定数量的回答同时,确保优势计算的公平性,成为了一个核心问题。为此,研究者们提出了一种基于贪婪搜索的树状采样方法,使每个智能体在每轮生成K个分支,并选择当前奖励最高的智能体进行下一次分支,这样有效地平衡了探索与利用。
此外,研究者们还面临着一个策略问题:在何种任务下,让模型进化成不同角色的“专属模型”?或在何种情况下,让所有智能体共享一个“通用模型”会更优?为此,构建了异步分发训练系统,其中路由模块负责收集智能体在环境中交互产生的轨迹数据,并根据不同模式进行数据分发,确保模型的独立更新或集中更新。
通过该研究,作者开源了通用的多智能体强化学习框架,使得多智能体的训练与开发变得更加高效与优雅。在长规划任务“推箱子”的实验中,采用AT-GRPO训练后,两个智能体的任务性能从14%提升至96%。通过在Qwen3-1.7B与Qwen3-8B的规模上进行的大规模实验,研究涵盖了规划、代码与数学等多类任务,结果显示出显著的性能提升。
消融实验进一步验证了关键设计的有效性,单一智能体训练的收益有限,而互换角色策略则表明了智能体之间互补而不可替代的能力。训练过程中,智能体的学习回报同步上升,任务所需的平均回合数持续下降,体现了更紧密的协作与对齐。
PettingLLMs通过支持通用的多智能体强化学习算法,让智能体们共同学习与进化,展现出跨任务、跨规模的学习潜力。这一创新不仅为未来的研究提供了新的思路,也为智能体的协作学习开辟了更广阔的前景。











