李飞飞团队突破:多模态AI模型展现空间智能前瞻性研究

3个月前发布AI俱乐部
4 0 0
李飞飞团队突破:多模态AI模型展现空间智能前瞻性研究的封面图

现在,人们常常将具备“AI能力”的大型模型视为通用人工智能发展道路上的重要里程碑,但事实上,这些所谓的“生成模型”的局限性依然存在,它们在推理和理解真实世界方面还存在着一些根本性的挑战。

针对这些模型的能力评估,业界推出了一项名为VSI-Bench的全新基准测试,它包含了超过5000个图像和288个视频剪辑,旨在全面衡量模型在理解物理世界方面的能力。该基准测试涵盖了视觉、物理和社会智能等多个方面,为评估通用人工智能的进展提供了一个更全面的视角。

据了解,在当前的测评中,即使是像Gemini 1.5 Pro这样的大型多模态模型,在某些需要复杂推理和理解的场景中仍然表现不佳,这表明现有的大型语言模型(LLaVA)在处理复杂视觉信息方面还存在一定的局限性。

值得关注的是,研究人员发现,增加训练数据并不能显著提升模型在物理推理方面的能力,即使增加超过10倍的数据量,提升效果仍然有限。这表明,仅仅依靠扩大数据集可能无法有效解决模型在理解物理世界方面的根本性问题。

总而言之,生成模型是实现AI通用智能道路上不可或缺的一部分,它们能够帮助我们更好地理解和构建通用人工智能(AGI)系统。然而,我们也必须认识到,生成模型并不能完全代表AI的全部潜力,它们只是通往2025年及以后实现真正通用智能的众多步骤之一。

今年9月,风险投资机构World Labs发布了一份关于人工智能代理的报告,重点关注了当前最先进的人工智能模型。该报告吸引了包括硅谷知名风投机构a16z和Adobe等科技巨头的关注,总融资额超过10亿美元。

从这些基准测试结果可以看出,尽管AI领域在过去几年取得了显著进展,但要实现真正的通用人工智能,仍然有很长的路要走。在未来的发展中,我们需要关注模型推理能力、常识知识以及解决实际问题的能力,为实现通用人工智能奠定坚实的基础。

© 版权声明:
本文地址:https://aidh.net/kuaixun/t1b4eojc

暂无评论

none
暂无评论...