智谱AI发布AutoGLM智能体，赋予AI模拟人手操控手机的能力

摘要：

如今，利用大型语言模型构建智能体已成为一种热门趋势，AutoGLM便是其中一个杰出的开源框架。它赋予AI模拟人 […]

如今，利用大型语言模型构建智能体已成为一种热门趋势，AutoGLM便是其中一个杰出的开源框架。它赋予AI模拟人类进行复杂任务的能力，例如操作手机应用程序，从而实现更智能的交互。

AutoGLM不仅可以模拟点击屏幕等基本操作，还支持更高级的任务处理，如在多个应用程序之间切换、进行复杂的数据分析、甚至模拟12306购票流程、以及浏览网页内容。它的灵活性使得开发者能够将AI融入各种现实场景，极大地提升了用户体验。

值得一提的是，开发者可以借助AutoGLM-Web快速搭建“自然语言操控”演示环境，它是一种便捷的在线界面，让用户可以通过简单的文字指令，驱动AI完成诸如网页浏览、信息搜索等任务。此外，AutoGLM还在不断完善其跨平台能力，致力于实现对更多应用场景的支持。

AutoGLM的设计理念在于探索大型语言模型在“人机交互智能体”和“自动化流程处理引擎”方面的潜力，它通过整合各类外部工具和资源，实现复杂的决策制定和任务执行，例如信息检索、内容生成、代码编写以及数据分析等。AutoGLM致力于降低构建智能体的门槛，让更多的人能够参与到这一领域中来。

在技术层面，AutoGLM着重解决了“行动规划”能力不足和“环境感知”能力有限的问题。它通过优化“环境感知”模块与“行动规划”模块之间的协同工作，从而提升了智能体在复杂环境中的适应性和决策能力。同时，AutoGLM还专注于解决智能体在Web和移动平台上的应用问题。

AutoGLM在Phone Use和Web Browser Use等任务上的表现优异，尤其在AndroidLab测试环境中，相较于GPT-4o和Claude-3.5-Sonnet等模型，AutoGLM在WebArena-Lite测试中，性能提升高达200%，充分展示了其在GUI界面交互方面的强大能力。

项目链接:https://xiao9905.github.io/AutoGLM