

目前,视觉模型在执行涉及现实世界的任务时,通常依赖于特定领域的训练数据。为了应对这一挑战,一种名为 "Magma" 的新型 AI 模型应运而生。该模型旨在通过整合视觉和语言理解,从而提升通用 AI 代理的能力。通过结合来自网络的数据以及合成数据,该模型能够学习执行各种操作任务。
这种 AI 模型的设计目标是实现多方面的能力——不仅能够理解指令,还能与现实世界进行互动。例如,Pix2Act 和 WebGUM 模型专注于 UI 界面中的操作任务,而 OpenVLA 和 RT-2 则擅长处理物理世界的任务。通过整合这些能力,Magma 旨在创建一个更全面的智能代理。
"Magma" 模型的关键优势在于其泛化能力。它不仅限于处理特定类型的问题,还能适应新的情境和任务。为了实现这一目标,该模型利用了 AI 研究中的两项重要技术:“Set-of-Mark” (SoM) 和 “Trace-of-Mark” (ToM)。前者帮助模型理解 UI 界面的可操作元素,后者则帮助模型跟踪用户与界面的交互历史,从而实现更精确的操作。
“Magma” 还借鉴了大型语言模型在常识推理和代码生成方面的优势,从而提升其整体性能。该模型采用了 ConvNeXt-XXL 视觉骨干网络和 LLaMA-3-8B 语言模型来增强其处理能力。通过这种方式,“Magma” 能够更有效地理解和执行各种任务,从而在现实世界中实现更强大的代理能力。
了解更多信息,请访问:https://microsoft.github.io/Magma/
核心要点:
✨ Magma 模型使用了 39 亿个参数进行训练,旨在提升人工智能代理在现实世界中的表现。
💡 该模型融合了视觉、语言和操作能力,为未来的 AI 模型发展方向提供了新的思路。
📊 Magma 在各种任务中表现出色,展现了其强大的泛化能力和适应性。