智谱GLM-PC体验开放：多模态Agent实现自主电脑操作升级

清华大学知识工程研究室发布了全新的多模态对话模型 GLM-PC，它融合了视觉感知能力，可以实现更高级的人机交互。相较于其他大型语言模型，GLM-PC 的显著优势在于其集成的感知能力，特别是 CogAgent。凭借强大的图像理解能力，它能够处理更为复杂的视觉输入。

在2024年11月29日，GLM-PC v1.0 正式发布，标志着该项目的一个重要里程碑。这一版本引入了“桌面控制”功能，用户可以通过自然语言指令与计算机进行交互，甚至在 Windows 操作系统上实现自动化操作。GLM-PC 的核心功能包括理解用户的指令、执行桌面操作以及提供图形用户界面 (GUI) 控制，从而提升用户在多模态对话环境中的交互体验。

在桌面控制和 GUI 操作方面，GLM-PC 能够识别屏幕上的元素，执行诸如点击按钮、填写表单等任务，并支持用户自定义操作流程。用户可以通过语音或文字输入指令，实现对计算机的精确控制，例如指定窗口位置。同时，GLM-PC 还具备一定的容错能力，即使在复杂环境中也能稳定运行。

关于桌面和 GUI 交互的具体应用，GLM-PC 允许用户通过自然语言来管理和操控桌面应用程序，例如调整窗口大小和位置，从而简化日常操作。此外，它还支持自定义工作流程，使用户能够根据个人需求定制个性化的交互体验，进一步提升工作效率。

总而言之，GLM-PC 模型的发布不仅代表着技术上的突破，也为未来的多模态人机交互开辟了新的可能性，为各行各业的人们带来了更加便捷的智能助手。

文章版权归作者所有，未经允许请勿转载。

本文地址：https://aidh.net/kuaixun/ilb28hva