腾讯AI实验室联手上海交大,攻克o1模型“过度思考”难题

4个月前发布AI俱乐部
6 0 0
腾讯AI实验室联手上海交大,攻克o1模型“过度思考”难题的封面图

近期,研究人员对大型语言模型(LLM)的推理能力进行了评估,特别关注了模型在进行链式推理和问题解决时的表现。据悉,OpenAI 的 o1 系列模型,以及类似于 o1 的模型,在处理复杂推理任务时展现出强大的能力,引人关注。

所谓“涌现能力”,指的是当模型参数达到一定规模时,在解决复杂问题时突然展现出的超出预期的能力。研究表明,即使 o1-like 模型能够记住大量的训练数据,但在面对 “2+3” 这样的简单算术问题时,o1-like 模型也需要通过生成一系列的 token 才能让 LLM 理解问题,而不是直接给出答案,这体现了涌现能力的一种体现,即模型需要逐步推理才能得出结论。

值得注意的是,当前 AI 系统在执行数学推理和常识推理等任务时,仍然面临一定的挑战。为了更深入地理解 o1-like 模型中的 “涌现能力”,研究人员着重分析了模型在解决 GSM8K、MATH500 和 AIME 等数学问题时的表现,旨在探究这些模型在处理复杂推理问题时的内在机制。通过对这些数学问题的解答过程进行分析,揭示了当前大型语言模型在进行推理时的优势与不足。

针对这些涌现能力的分析,有助于人们更清晰地认识到当前人工智能的发展阶段。研究结果表明,使用简单的思维链(FCS)或 FCS 结合其他技术手段,能够有效提升模型在解决问题时的准确性。例如,QwQ-32B-Preview 模型在 MATH500 数据集上的 token 准确率达到了 48.6%。通过深入研究这些模型的性能表现,我们可以更好地理解其推理能力的本质,从而为未来的模型设计和优化提供有价值的参考。

从技术角度来看,这项研究揭示了如何在模型训练过程中有效地利用 token 信息,从而提升模型的推理能力。具体来说,在 MATH500 数据集中,FCS + 其他技术的结合使用,使得模型准确率从 52.3% 提高到 75.8%。这种提升表明,通过优化思维链和信息处理方式,可以显著改善模型在复杂问题上的表现。此外,在 GPQA 和 AIME 等其他数据集中,研究人员也观察到了类似的效果,验证了提升模型推理能力的有效性。总的来说,这项技术为未来提升人工智能的推理水平提供了新的思路。

综上所述,AI 领域的研究者们正致力于探索 o1-like 模型中的 “涌现能力”,并力求深入理解这些模型在进行复杂推理时的工作机制,旨在揭示当前人工智能的优势与局限。这些方法涉及信息检索和思维链技术,为提升现有模型的潜在能力提供了新的视角。通过对相关数据集的持续研究,可以逐步提高复杂问题的解决效率,促进人工智能技术的进一步发展,从而为未来的创新应用奠定坚实基础。

论文链接:https://arxiv.org/abs/2412.21187

总结如下:  

🔍 研究人员评估了 o1-like 模型在解决复杂推理问题时的 “涌现能力”,揭示了模型在问题解决过程中的内在机制。  

💡 研究强调了思维链和信息检索技术在提升模型推理能力方面的作用,优化后的模型能够更准确地解决复杂问题。  

📊 技术分析表明,通过优化 token 使用策略,可以显著提升模型在数学和常识推理任务上的性能表现。  

快讯中提到的AI工具

OpenAI
OpenAI

致力于创造对全人类有益的安全 AGI

© 版权声明:
本文地址:https://aidh.net/kuaixun/3p7bt1r5

暂无评论

none
暂无评论...