微软LAM模型:赋予AI真实操作能力,在Word中自主执行任务

4个月前发布AI俱乐部
12 0 0
微软LAM模型:赋予AI真实操作能力,在Word中自主执行任务的封面图

人工智能领域正在经历一场变革,一种被称为“大型行动模型”(Large Action Model,简称 LAM)的新型智能体正在崭露头角,有望彻底改变 AI 与现实世界的交互方式。与诸如 GPT-4o 这样的大语言模型不同,LAM 能够直接与 Windows 等操作系统进行交互,从而实现更广泛的应用,甚至可能实现自主操作。

LAM 的核心优势在于能够执行复杂的任务,例如操作计算机、浏览网页、撰写邮件,甚至完成其他需要人机协作才能完成的工作。与只能生成文本的大型语言模型不同,LAM 具备更强的行动能力,能够完成实际操作。一个典型的 LAM 应用场景是:它可以像人类助手一样,处理各种数字任务。

实际上,Mistral-7B 已经展现出了一些 LAM 的潜力,它甚至可以在 Word 文档中像人类一样进行操作。具体来说,该模型在模仿人类完成特定任务方面的准确率达到了 71%,略高于 GPT-4o 的 63%。

在涉及实际操作的基准测试中,LAM 在模仿人类行为方面表现出色,比如完成一项任务平均需要 30 步,而 GPT-4o 则需要 86 步。此外,在模拟人类行为的准确率方面,GPT-4o 的准确率为 75.5%,相比之下,LAM 在需要更多步骤才能完成的任务中表现更佳。

为了验证这些模型的实际能力,研究人员使用了包含 29,000 个任务和步骤的数据集,这些数据来源于真实世界的应用场景,例如自动化软件、wikiHow 指南和各种应用程序。结果显示,虽然 GPT-4o 擅长生成连贯的步骤,但在实际操作方面,LAM 的表现更为出色,它可以正确执行多达 76,000 个步骤,比前者高出 150%。这也意味着,大约 2,000 个操作步骤就能充分发挥 LAM 的优势。

总而言之,LAM 的出现代表了人工智能领域的一个重要进步,它有望弥合 AI 与现实世界之间的差距,推动 AI 技术在自动化、决策制定等领域的应用。当然,在人工智能领域,LAM 代表着一种全新的可能性,它不仅能够理解人类意图,还能够像人类一样采取行动,完成各种复杂的任务。

要点总结:

💡 LAM 能够像人类一样操作 Windows 系统,这为人工智能开辟了更广阔的应用前景。

⏱️ 在 Word 文档操作方面,LAM 的准确率为 71%,高于 GPT-4o 的 63%,显示出其在模仿人类行为方面的优势。

📊 研究表明,LAM 能够更有效地执行复杂的任务,完成多达 76,000 个步骤,体现了其在实际操作方面的强大能力。

快讯中提到的AI工具

GPT-4o
GPT-4o

OpenAI 最新的旗舰模型

GPT-4
GPT-4

OpenAI 发布的最新一代语言模型

© 版权声明:
本文地址:https://aidh.net/kuaixun/42jotlhf

暂无评论

none
暂无评论...