

2025年1月23日,由清华大学知识工程实验室和智谱AI团队共同打造的、具备视觉操作能力的开源GLM-PC助手正式发布,引起了广泛关注。GLM-PC的核心技术在于融合了强大的多模态认知智能体CogAgent,能够理解用户的“所见”和“所想”,从而实现复杂桌面应用的自动化操作。
早在2024年11月29日,GLM-PC v1.0版本就已经在内部进行了小范围的测试,主要用于验证其在非图像类应用中的能力。此次发布的“先行体验版”,进一步提升了其在处理复杂任务和个性化需求方面的能力,使得GLM-PC能够在更多场景下满足用户的实际需求。值得一提的是,GLM-PC还完美兼容Windows操作系统,为广大用户提供了便捷的使用体验。
GLM-PC的设计理念旨在利用Agent代理技术,弥合现有大模型与实际应用之间的差距。一个典型的Agent系统通常需要具备感知、规划、记忆等核心模块;而GLM-PC则能够利用这些模块实现诸如窗口控制、鼠标点击等功能;此外,它还能够通过解析GUI界面元素,实现对各类应用程序的灵活操控。GLM-PC通过结合“视觉”与“决策”两大关键要素,旨在提升现有大模型在执行复杂任务和处理复杂环境时的能力。
在实际应用方面,GLM-PC展现出了强大的潜力。例如,“视觉”模块能够精准识别图像中的各类元素,从而使得其能够自主完成诸如数据提取和信息归纳等任务,真正实现了办公自动化。具体来说,GLM-PC可以快速读取Excel表格,自动提取关键数据并进行整理分析,极大地提升了工作效率。“决策”能力则赋予了其处理复杂流程和个性化需求的能力,它能够根据用户的具体指令执行一系列复杂的桌面操作,例如进行跨应用的数据分析,甚至模拟人工完成复杂的办公流程。借助GLM-PC,数据处理、信息提取等工作的效率和智能化水平将得到显著提升。
总而言之,GLM-PC旨在打造一个具备通用性和实用性的桌面助手。在不断迭代和完善的过程中,GLM-PC有望在桌面应用领域引发一场新的技术革命,推动AI技术的普及和发展。通过融合大模型和PC应用,进一步释放AIPC(AI个人电脑)的巨大潜力与价值。AIPC不再仅仅是一个概念,而是AI Agent在实际应用场景中的重要体现,它将能够真正地提升效率、简化操作,并为用户带来前所未有的智能体验。
项目主页&体验:https://cogagent.aminer.cn