CMU与Meta重磅合作:VQAScore以单题问答革新文生图模型评测,精度超越传统方案!

4个月前发布AI俱乐部
6 0 0
CMU与Meta重磅合作:VQAScore以单题问答革新文生图模型评测,精度超越传统方案!的封面图

如果人工智能模型擅长回答问题,那么它是否也能分辨出哪些问题难以回答?事实上,这种能力可能比简单地提供答案更为重要。毕竟,知道哪些问题超出了模型的理解范围至关重要。

要评估模型的这种能力,关键在于理解其对答案的置信度,以及它是否能够识别出模糊不清或具有误导性的问题。例如,它可以识别出一个需要常识推理,或者涉及复杂世界知识的问题吗?最近,研究人员尝试量化这种置信度,并将其与模型的实际表现联系起来。他们不仅关注模型的准确性,还关注其判断自身答案质量的能力。这对于理解大型语言模型在现实世界中的应用至关重要,在这些应用中,避免给出错误答案与给出正确答案同样重要。

为了应对这一挑战,来自滑铁卢大学的研究人员与Meta的研究人员合作,设计并实施了一种名为VQAScore的全新评估指标,用于评估视觉问答(VQA)模型。该指标的核心思想是,判断VQA模型在回答视觉相关问题时的置信度。

具体来说,VQAScore会衡量模型在回答问题时的置信度与答案正确性之间的相关性。例如,当被问到“这张图片中有几个物体是蓝色的?”时,一个好的视觉问答模型不仅应该给出正确答案,还应该对其答案的准确性有较高的置信度。VQA模型需要区分它知道“是”还是“否”,以便VQAScore能够评估VQA模型识别正确答案的能力。

这项指标在多个方面都表现出色,它能够有效衡量视觉问答模型在没有明确提示的情况下识别问题和正确回答的能力。与仅仅关注答案准确性的传统指标不同,VQAScore的评分会根据置信度进行调整,从而能够更全面地评估模型的性能,尤其是评估GPT-4V等多模态模型的性能。

重要的是,VQAScore不仅适用于一般的视觉问答模型,还适用于3D视觉问答模型。这意味着,即使VQA模型面临着需要复杂推理的挑战,VQAScore仍然能够有效地评估其性能,并且可以深入了解不同模型架构在处理复杂场景方面的优势。

为了进一步推进该领域的发展,研究人员创建了一个名为GenAI-Bench的新基准测试,旨在评估人工智能模型的性能。该基准测试包含1600个精心挑选的视觉提示,涵盖了各种场景,包括常识推理、细粒度识别和恶意对抗场景。研究人员利用大约15000个模型输出来评估各种视觉问答模型在这种基准测试中的表现。

总而言之,VQAScore和GenAI-Bench为评估人工智能模型的性能提供了一种更细致的方法。VQAScore通过测量置信度评分与答案准确性之间的相关性来补充传统的评估指标,从而能够更深入地了解模型在处理各种视觉问答任务时的能力。GenAI-Bench通过提供具有挑战性的场景来帮助识别通用人工智能模型在视觉推理方面的优势和劣势。

总的来说,VQAScore是一个重要的进步。通过考虑置信度,它可以更准确地评估VQA模型的性能,从而提高模型识别自身局限性的能力。最终,VQA模型的输出能力将不再受限于GPT-4V等现有模型。

相关链接:https://linzhiqiu.github.io/papers/vqascore/

快讯中提到的AI工具

GPT-4
GPT-4

OpenAI 发布的最新一代语言模型

© 版权声明:
本文地址:https://aidh.net/kuaixun/e2o95b7d

暂无评论

none
暂无评论...