

Waymo 近期推出了一项重要创新,展示了一种结合多模态大型语言模型 (MLLM) 与 Gemini 的视觉感知能力的新方法。此项创新名为 EMMA (利用多模态注意力进行感知),旨在提高自动驾驶系统对复杂交通场景的理解能力,从而增强其整体性能表现。
EMMA 模型旨在弥合视觉和语言理解之间的鸿沟,充分利用 MLLM 的强大功能。与仅依赖视觉数据的传统 LLM 相比,它可以更全面地理解周围环境,从而能够更好地进行推理和决策。其优势在于能够处理复杂的交通状况,例如识别遮挡物和预测其他道路使用者的行为。
Waymo 的研究人员表示,Gemini 的 MLLM 能够提供更精细的场景理解,例如区分“正在等待行人过马路的车辆”和“可能准备启动”的车辆;或者识别出“交通锥”指向的“施工区域”,从而更好地理解交通管制措施。这种更深层次的理解有助于系统做出更安全、更合理的驾驶决策。
Waymo 的 EMMA 模型在各种感知任务中表现出色,包括目标检测、场景分割以及对复杂事件的推理。它能够利用来自多个传感器的数据,构建更准确、更可靠的 3D 环境模型,从而提高自动驾驶系统在复杂和动态环境中的适应能力。通过利用 MLLM 的强大功能,该模型有望提升自动驾驶技术的整体性能。
总而言之,Waymo 通过结合 Gemini 的多模态大型语言模型,展示了其在自动驾驶技术领域的持续创新和领先地位,为实现更安全、更可靠的自动驾驶技术铺平了道路。
© 版权声明:
文章版权归作者所有,未经允许请勿转载。
本文地址:https://aidh.net/kuaixun/09mnuulf暂无评论...