

据报道,2025年有望迎来“VLA元年”,预示着通用智能领域可能发生根本性变革。VLA,即视觉-语言-行动模型(Vision-Language-Action Model),最早由DeepMind于2023年提出,旨在解决具身智能体在复杂环境中面临的感知和决策难题。届时,这一技术或许能够为现实世界的自动化带来革命。
相较于先前的视觉-语言模型(VLM),VLA的关键创新在于它能够理解并执行物理世界的动作,使其不仅仅是“观察者”,更能成为能够与环境互动的“行动者”。
这意味着通用智能系统将能够处理更为复杂的任务,例如在非结构化环境中进行导航、操作工具以及完成复杂的装配任务。考虑到目前机器人技术的局限性,VLA有可能通过理解真实世界的物理规则,显著提升机器人的适应性和自主性。由此可见,VLA在应对复杂环境挑战方面展现出巨大潜力,有望推动通用智能的发展。
从行业角度来看,除了商业领域的应用,如果能够成功构建通用视觉-语言-行动模型,它将为人工智能的发展带来一个重要的里程碑。因为目前大多数环境和行动决策都依赖于某个单独的智能体,这限制了通用智能的发展。预计在2025年将会涌现出首批VLA模型的早期应用。这不仅仅是一项技术进步,更可能预示着人机交互方式的根本转变。
从更广阔的视角来看,人工智能正在朝着更加通用且智能的方向发展,这需要解决长期以来阻碍人工智能发展的诸多挑战。“具身”智能体的发展不仅需要更强大的算法,还需要更有效的数据收集策略。具身智能体的应用场景不局限于特定领域,而是能够适应更加多样化的物理世界。2024年,谷歌和英伟达等科技巨头都在大力投资具身智能模型,预示着行业未来的发展趋势。
通用智能领域的下一个重大突破,VLA的潜力在于它能够帮助人工智能更好地理解世界运作的方式。通过整合视觉、语言和行动的反馈,通用智能系统能够适应复杂多变的环境,从而实现更高级别的自动化。这意味着未来的通用智能系统不仅能够理解人类的指令,还能在现实世界中执行复杂的任务。