清华大学携手上海AI Lab共同推出全新过程奖励模型GenPRM,助力小型模型超越GPT-4o

2周前发布AI俱乐部
1 0 0
清华大学携手上海AI Lab共同推出全新过程奖励模型GenPRM,助力小型模型超越GPT-4o的封面图

人工智能领域中,OpenAI的o1和DeepSeek的R1模型备受关注,大语言模型(LLM)的推理能力和测试时扩展(TTS)技术也引起了许多研究者的兴趣。然而,在处理复杂推理问题时,准确评估模型每一步回答的质量仍是一个急需解决的难题。为此,清华大学与上海AI Lab共同提出了生成式过程奖励模型(GenPRM),为过程监督推理提供了创新解决方案。

传统的过程奖励模型(PRM)虽然能验证推理步骤的正确性,但由于采用了标量评分机制,难以捕捉深层次的逻辑错误。此外,PRM的判别式建模方式也限制了其在测试阶段的扩展能力。因此,GenPRM结合了生成式思维链推理和代码验证,并引入了测试时扩展机制,开创了全新的研究方向。

GenPRM的设计理念模拟了人类解题时的思维过程,允许模型在每一步推理时进行自然语言分析,从而提高了透明性,使步骤评估更易解释。同时,GenPRM生成并执行与推理相关的Python代码,确保了推理的可靠性。这种“先解释、再验证”的机制不仅能判断对错,还能提供具体的改进建议,显著提升了过程监督的效果。

令人惊讶的是,GenPRM仅用了23K的训练样本,就取得了超过GPT-4o的优异表现。在ProcessBench等数学推理基准的测试中,1.5B参数的GenPRM通过测试时扩展技术展现出优异的表现;而其7B参数版本成功超越了72B参数的Qwen2.5-Math-PRM,展示了强大的步骤级批评能力。

此外,GenPRM的优势还体现在其高效的数据合成方法上。通过相对进步估计(RPE)和代码验证,GenPRM生成了高质量的过程监督数据,显著减少了对大量标注数据的需求。研究者们利用QwQ-32B模型合成数据,并通过共识过滤保留高质量样本,最终形成了这个仅有23K的训练集。

未来,GenPRM不仅能作为答案的验证器,还能扮演“教练”的角色,通过反馈指导策略模型的迭代优化。这种“生成-批评-反思”的闭环为大语言模型的自我改进提供了全新路径,未来也可能扩展到代码生成和多模态推理等领域。

项目地址:https://ryanliu112.github.io/GenPRM/

快讯中提到的AI工具

DeepSeek
DeepSeek

深度求索:引领未来人工智能技术的探索与创新

GPT-4o
GPT-4o

OpenAI 最新的旗舰模型

GPT-4
GPT-4

OpenAI 发布的最新一代语言模型

OpenAI
OpenAI

致力于创造对全人类有益的安全 AGI

© 版权声明:
本文地址:https://aidh.net/kuaixun/8ep2641k

暂无评论

none
暂无评论...