

近日,据报道,DeepMind 推出了一款名为通用奖励模型(GenRM)的创新型人工智能工具,旨在提升 AI 在理解人类意图方面的能力。
这款 AI 工具的设计目标是更准确地解读人类的指令,它试图通过学习多个不同领域的奖励信号,来更好地对齐 AI 的行为与人类的期望。这意味着,该模型能够理解各种任务中的细微差别,从而做出更符合人类意愿的决策。具体来说,GenRM 旨在通过提升现有大型语言模型(LLMs)的奖励预测能力,使其在复杂场景中表现更加出色。这一创新旨在解决当前大型语言模型在理解复杂指令时可能出现的偏差。
实际上,通用奖励模型的设计灵感来源于这样一个观察:尽管大型语言模型已经展现出强大的能力,但它们仍然难以准确理解人类的偏好。为了解决这个问题,研究人员训练了一组奖励模型(RMs),使其能够从不同的角度评估语言模型生成的响应,从而更全面地捕捉人类的意图。值得一提的是,这种方法也被称为 “LLM 偏好对齐”,它能够显著提高人工智能在各种实际应用中的可靠性。
GenRM 的核心优势在于它能够学习跨领域的通用技能,这意味着它可以将从一个任务中学到的知识迁移到其他任务中。通过这种方式,GenRM 能够帮助 LLMs 更好地理解人类指令,并在不同的情境下做出更明智的决策。更重要的是,GenRM 还能够有效利用思维链(CoT)方法,在评估复杂问题时进行更深入的推理,从而提供更准确和可靠的答案。
总而言之,GenRM 工具代表着人工智能领域在理解人类意图方面迈出的重要一步,它能够帮助大型语言模型更好地对齐人类的价值观,从而提高人工智能在各种应用中的实用性和可靠性。在性能方面,该模型在提高 AI 的响应质量方面表现出色,并且能够显著减少不必要的偏见。
实验结果显示,GenRM 在多个自然语言处理任务中表现出色,尤其是在处理涉及常识推理和逻辑推理的任务时,GenRM 的性能提升尤为显著。相较于其他奖励模型和 LLM 偏好对齐的基准,GenRM 的性能提升幅度达到了 16% 到 64%。
此外,在使用 Gemini1.0Pro 模型时,GenRM 能够将模型性能从 73% 提升至 92.8%。
GenRM 工具的成功表明,通过改进奖励模型的训练方法,可以显著提高人工智能系统的性能,并且能够为 AI 更好地理解人类意图,并创造出更加智能和可靠的应用程序开辟了新的道路。
总结要点:
1. 🌟 GenRM 能够学习通用技能,从而提高 AI 在理解人类指令方面的能力。
2. 📈 GenRM 在多个自然语言处理任务中表现出色,性能提升幅度达到了 16% 到 64%。
3. 🧠 该工具能够帮助 AI 更好地对齐人类的价值观,并提高人工智能的可靠性。