智谱AI发布CogAgent，体验GLM-PC电脑智能体大模型

2025年1月23日，由清华大学知识工程实验室和智谱AI团队共同打造的、具备视觉操作能力的开源GLM-PC助手正式发布，引起了广泛关注。GLM-PC的核心技术在于融合了强大的多模态认知智能体CogAgent，能够理解用户的“所见”和“所想”，从而实现复杂桌面应用的自动化操作。

早在2024年11月29日，GLM-PC v1.0版本就已经在内部进行了小范围的测试，主要用于验证其在非图像类应用中的能力。此次发布的“先行体验版”，进一步提升了其在处理复杂任务和个性化需求方面的能力，使得GLM-PC能够在更多场景下满足用户的实际需求。值得一提的是，GLM-PC还完美兼容Windows操作系统，为广大用户提供了便捷的使用体验。

GLM-PC的设计理念旨在利用Agent代理技术，弥合现有大模型与实际应用之间的差距。一个典型的Agent系统通常需要具备感知、规划、记忆等核心模块；而GLM-PC则能够利用这些模块实现诸如窗口控制、鼠标点击等功能；此外，它还能够通过解析GUI界面元素，实现对各类应用程序的灵活操控。GLM-PC通过结合“视觉”与“决策”两大关键要素，旨在提升现有大模型在执行复杂任务和处理复杂环境时的能力。

在实际应用方面，GLM-PC展现出了强大的潜力。例如，“视觉”模块能够精准识别图像中的各类元素，从而使得其能够自主完成诸如数据提取和信息归纳等任务，真正实现了办公自动化。具体来说，GLM-PC可以快速读取Excel表格，自动提取关键数据并进行整理分析，极大地提升了工作效率。“决策”能力则赋予了其处理复杂流程和个性化需求的能力，它能够根据用户的具体指令执行一系列复杂的桌面操作，例如进行跨应用的数据分析，甚至模拟人工完成复杂的办公流程。借助GLM-PC，数据处理、信息提取等工作的效率和智能化水平将得到显著提升。

总而言之，GLM-PC旨在打造一个具备通用性和实用性的桌面助手。在不断迭代和完善的过程中，GLM-PC有望在桌面应用领域引发一场新的技术革命，推动AI技术的普及和发展。通过融合大模型和PC应用，进一步释放AIPC（AI个人电脑）的巨大潜力与价值。AIPC不再仅仅是一个概念，而是AI Agent在实际应用场景中的重要体现，它将能够真正地提升效率、简化操作，并为用户带来前所未有的智能体验。

项目主页&体验:https://cogagent.aminer.cn

文章版权归作者所有，未经允许请勿转载。

本文地址：https://aidh.net/kuaixun/pk19i468