昆仑万维发布Skywork-Reward：全新大模型奖励模型重磅来袭

摘要：

近日，天工团队发布了两款奖励模型，分别是Skywork-Reward-Gemma-2-27B和Skywork- […]

近日，天工团队发布了两款奖励模型，分别是Skywork-Reward-Gemma-2-27B和Skywork-Reward-Llama-3.1-8B，它们在领先的开源奖励模型评估基准RewardBench上表现出色。其中，Skywork-Reward-Gemma-2-27B模型展现了卓越的性能，并在RewardBench排行榜上名列前茅。

这些模型在复杂的奖励建模任务中表现出色，适用于需要理解非显性人类偏好的场景。通过对奖励信号的精确建模，它们能够提升生成模型的对齐能力。这些模型擅长捕捉微妙的偏好，并能应用于偏好排序等任务。总而言之，这些奖励模型的设计旨在提高模型的安全性，并对齐人类的价值观。

RewardBench是一个全面的基准，用于评估奖励模型在不同任务中的表现。它涵盖了安全性、偏好以及幻觉识别等多个方面。具体来说，该基准的评估范围包括模型的事实核查能力，以及区分有害和无害回复的能力。通过RewardBench，可以全面评估奖励模型是否能够准确捕捉微妙的偏好差异，从而区分安全回复和不安全回复。

总的来说，Skywork-Reward模型旨在提升大语言模型的安全性和对齐能力，并且在奖励建模方面取得了显著的进展。这些模型能够更好地对齐生成模型，并在安全评估中表现出色，有效提高了模型的安全性和可靠性。这些成果代表了在奖励建模领域的进步，并为未来语言模型的发展方向提供了参考。

总而言之，天工的奖励模型在安全性、偏好和幻觉识别等方面都展现出了卓越的性能，尤其是在Skywork-Reward-Gemma-2-27B模型上得到了充分体现。这一突破标志着天工在对齐AI模型与人类偏好方面的努力取得了重要进展，并有助于确保AI系统更加符合人类的价值观。

27B模型链接：

https://huggingface.co/Skywork/Skywork-Reward-Gemma-2-27B

8B模型链接：

https://huggingface.co/Skywork/Skywork-Reward-Llama-3.1-8B

文章版权归作者所有，未经允许请勿转载。

本文地址：https://aidh.net/kuaixun/0cbc7lkn