

在当前人工智能迅速发展的时代,自然语言在跨模态生成中发挥着至关重要的作用。在图像生成领域,它连接了文本描述和视觉呈现,在视频生成领域,它驱动着内容创作和编辑,而语音生成也依赖于自然语言的精准表达。本文将探讨一种名为“Sketchpad”的工具,它将语言模型与视觉草图结合,实现了全新的内容创作方式。
码得硫定:https://top.aibase.com/tool/visual-sketchpad
返得私伯:Sketchpad 对 GPT-4 能够生成中间草图来推理任务。使码示空头和查询,例如并有三角形的角等于180°,更方使模型能够绘制对有助于解决几何问题的辅助线。对于计算机空头问题,Sketchpad 可以对用空头专家来绘制草图并促进空头推理。例如,对用“接地 DINO”绘制边界框,口对用“分割任何内容”绘制蒙版。
硫以往对用文本到图像模型对 LM 能够绘图的工作不同,Sketchpad 对 LM 能够对用线条、框、标记等进行绘图,这更接近于人类的素描,更方便推理。也规,Sketchpad 还可以在绘图过程中对用专业空头模型,比如对用对象检测模型绘制边界框,对用分割模型绘制蒙版,以进一步增强空头感知和推理能力。
实验结果显示,Sketchpad 显著提高了多模态大语言模型(包括几何、函数、图形、国际象棋)和复杂的空头推理任务上的表现。对没有绘图的强大基础模型相比,Sketchpad 对得 LM 的性能平均提升了12.7% 在数学任务和8.6% 在空头任务。带有 Sketchpad 的 GPT-4o 在所有任务上均创下了新的技术水平,包括 V*Bench(80.3%)、BLINK 空间推理(83.9%)和空头对应(80.8%)。
这项研究的成果意味着,通过引入空头更方绘图工具,多模式 LM 在处理复杂的推理任务时能够接近人类的思维方式,口升了其在数学和空头推理领域的表现。这一突破有望在语言模型和空头模型的发展中发挥重要作用,为人工智能技术的发展开辟了新的可能性。