揭示跳跃式思维链:DeepSeek实现创造力基础,Qwen系列即将达到人类顶尖水准

在大语言模型(LLM)的研究中,与以链式思维(Chain-of-Thought)为代表的逻辑思维能力相比,LLM中同样重要的跳跃性思维(Leap-of-Thought)能力,即创造力,目前相关讨论和分析仍显不足。这一短缺可能会严重制约LLM在创造力领域的发展。造成此困境的主要原因之一在于,面对“创造力”这一概念,我们难以构建一个合适且自动化的评估流程。揭示跳跃式思维链:DeepSeek实现创造力基础,Qwen系列即将达到人类顶尖水准                                   图 1
以往针对创造力的评估在探讨LLM的跳跃性思维能力时,多遵循普通大模型的评估类型,如选择、排序等。尽管这种方法在考察逻辑思维能力时效果显著,但其在评估创造力时却显得不够合理。
如图所示,设想我们要求阅读给定的图和图中文字,并为图中“?”部分补充一句话,以使整体呈现出创意且幽默的效果。如果这一任务以选择题的形式呈现,并提供“A. 能否帮我扶一下?”和“B. 能否帮我解开手铐?”两个选项,则LLM可能在无需任何创造力的情况下选择B选项,因为A选项较为常规,而B选项则显得更为特殊。揭示跳跃式思维链:DeepSeek实现创造力基础,Qwen系列即将达到人类顶尖水准                                                                         图 2
评估LLM的创造力应侧重于“考量其生成创新内容的能力”,而非“判定是否具备创新内容”。在当前研究范式中,通过人类评估或LLM作为评判者的方式可以符合这一要求。然而,尽管人类评估的准确性最高且符合普遍人类价值观,这一方法却存在不可持续且成本高昂的问题。
而LLM作为评判者的方式,主要通过零样本(zero-shot)学习或对LLM进行微调(fine-tuning)来对目标进行评分,其在创造力任务中的评估能力目前仍处于初步阶段,且并不稳定。
面对这一系列挑战,来自中山大学、哈佛大学、鹏城实验室及新加坡管理大学的研究者们另辟蹊径,探讨了LLM生成与人类高质量创新内容所需代价(也可以视为LLM生成内容与人类水平创新内容之间的距离),建立了一个多轮交互的可信且自动化的创造力评估范式LoTbench。相关研究成果已发表于IEEE TPAMI。揭示跳跃式思维链:DeepSeek实现创造力基础,Qwen系列即将达到人类顶尖水准

  • 论文题目:A Causality-aware Paradigm for Evaluating Creativity of Multimodal Large Language Models
  • 论文链接:https://arxiv.org/abs/2501.15147
  • 项目主页:https://lotbench.github.io

任务场景
本论文为CVPR’24会议中的“梗王”大模型(Let’s Think Outside the Box: Exploring Leap-of-Thought in Large Language Models with Creative Humor Generation)的期刊扩展,所考虑的创造力基础任务如图2所示,即通过观察图像直接生成补全文字中的空缺部分,以实现图文的整体创新和幽默效果。
此类任务类似于日本传统游戏“大喜利”,在中文互联网社区也被称为日式冷吐槽,该游戏具有以下特点:
1. 日式冷吐槽游戏要求玩家通过观察图像并补全具有创意且幽默的文字,对创造力的要求极高,属于典型的创造力问题;2. 此类日式冷吐槽游戏的格式恰好契合当前多模态大模型的输入输出要求,即以图文为输入,仅文字为输出,而文字补全正是大模型的强项;3. 日式冷吐槽游戏因在互联网上的热度,积累了大量高质量的人类标注数据及带有排序信息的评价数据,为构建数据集提供了极大的便利。
综上所述,此类日式冷吐槽游戏是极为适合多模态LLM进行创造力评测的理想平台。
任务内容揭示跳跃式思维链:DeepSeek实现创造力基础,Qwen系列即将达到人类顶尖水准                                   图 3
与常规大模型评估(Standard Evaluation)中的选择、排序等范式不同,本文提出的LoTbench考虑的是通过LLM生成与人类高质量创新内容(High-quality human-level response, HHCR)相似的响应所需的总轮次,从而构建创造力得分。
如图3右侧所示,对于一个HHCR,LLM在给定条件下,需多轮尝试以生成与HHCR相似的创新响应。当LLM以较少的轮次生成HHCR时,可以视为该模型具备良好的创造力。相反,若LLM需要长时间的轮次甚至无法达到目标,则可认为其在当前HHCR中的创造力表现不足。oTbench 的具体流程如下:

  • 精选具有人类高质量创新内容 (HHCR) 的日式冷吐槽游戏的数据,从而构建 MLM 任务,要求 LLM 在每一轮根据图文信息,补全给定的文字空缺 Rt;
  • 判断所生成的 Rt 与 R(即 HHCR)是否存在异曲同工之妙 (different approach but equally satisfactory outcome, DAESO)。若符合,则开始通过轮数计算创造力分数;否则进入第三步;
  • 要求待测 LLM 根据历史交互信息提出一个一般疑问句 Qt。测评系统根据 HHCR 返回 Yes 或 No 的评估结果;
  • 整理当前轮次的所有交互信息以及系统提供的提示,称之为下一轮的历史提示(history prompt),并重新进入第一步,以生成创新响应。

创造力分数 Sc 的计算与 n 个 HHCR 样本在 m 次重复实验密切相关,具体如下所示:揭示跳跃式思维链:DeepSeek实现创造力基础,Qwen系列即将达到人类顶尖水准创造力分数 Sc 具有以下特点:
1. 创造力分数与轮数呈反比,轮数越少意味着创造力越高;2. 随着轮数趋于无限,创造力分数将趋近于 0,即当前 LLM 无法满足给定的 HHCR;3. 考虑到创造力的难度和多样性,创造力分数是基于多次实验得出的;
如何判断异曲同工之妙(DAESO)?
为何关注异曲同工之妙(DAESO)?
创造力任务的一个显著特征是多样性。在特定的填词条件下,玩家可以产生许多符合条件的回应。例如,如图 5 所示,「生动的闹钟」与「生动的手机」都展现出相似的创新幽默性。然而,单纯依靠文字匹配或语义计算并不能有效地判断这种相似性,必须引入异曲同工之妙的相关分析。 揭示跳跃式思维链:DeepSeek实现创造力基础,Qwen系列即将达到人类顶尖水准                                         图 5
如何实施异曲同工之妙(DAESO)的判断?揭示跳跃式思维链:DeepSeek实现创造力基础,Qwen系列即将达到人类顶尖水准                                      图 6
在研究中,作者明确提出,满足异曲同工之妙(DAESO)的两个回应需同时满足两个条件:
1. 两个回应需具备相同的核心创新解释;2. 两个回应需具备相同的功能相似性;
功能相似性与语义相似性存在一定差异。如图 6 (a) 所示,从语义角度来看,诺基亚与三星的语义相似度高于诺基亚与锤子;然而在砸核桃的场景中,诺基亚与锤子的功能更为相似。如果两个回应仅在核心创新解释上保持一致,而未能体现功能上的相似性,则可能导致回应的偏离。例如,图 5 中的例子还可以是「生动的跳蚤」,但跳蚤并未展现出「发出声音」的功能。另外,如果两个回应仅在功能上相似,而未能实现创新性的体现,那么回应可能缺乏应有的深度,例如图 5 中还可以提到「生动的鼓」,但鼓未能有效传达由于震动所带来的活力感。
在具体实现 DAESO 判断时,作者首先为每个 HHCR 提供详细的解释标注,以阐明为何该 HHCR 具有幽默与创造力。随后,结合突破性的图像说明信息,可以利用 LLM 在文本空间中构建相应的因果链条,如图 6 (c) 所示,并设计特定指令以判断 DAESO 的两个条件在文本空间中的实现情况。
研究表明,基于 GPT 4o mini,能够以较低的计算成本实现对 DAESO 80%-90%的判断准确率。此外,由于 LoTbench 进行多次重复实验,因此 DAESO 判断的准确性亦可得到进一步保证。
测评结果揭示跳跃式思维链:DeepSeek实现创造力基础,Qwen系列即将达到人类顶尖水准                                                                  图 7
通过对当前主流 LLM 的测评,如图 7 所示,可以发现目前的 LLM 在 LoTbench 测评中创造力表现并不突出。然而,与各级别的人类比较,LLM 仍蕴含潜力,具备超越人类的创造力可能。
图 8 展示了测评榜单中排名前两位的 Gemini 1.5 Pro 和 Qwen-VL-max 的创新响应,其中红色部分标识为 HHCR,而蓝色部分则为被测 LLM 的创新输出。值得一提的是,DeepSeek 最近发布的多模态模型 DeepSeek-VL2 及 Janus-Pro-7B 系列也参与了测评,结果显示其创造力依然处于人类初级阶段。我们期待 DeepSeek 团队能推出更先进的多模态大语言模型。揭示跳跃式思维链:DeepSeek实现创造力基础,Qwen系列即将达到人类顶尖水准                                         图 8
有关更多研究细节,请参阅原文。

文章中提到的AI工具

DeepSeek
DeepSeek

深度求索:引领未来人工智能技术的探索与创新

© 版权声明

相关AI热点

暂无评论

none
暂无评论...