清华大学CogAgent：全新视觉语言模型，强化GUI理解与导航能力

2年前发布AI俱乐部

标签：CogAgent 清华大学视觉语言模型

清华大学CogAgent：全新视觉语言模型，强化GUI理解与导航能力的封面图

介绍一款名为CogAgent的大型视觉语言AI模型，它能够理解指令，并与图形用户界面(GUI)进行交互，从而实现对各种应用程序和网页的控制。该模型允许用户通过GUI界面实现人机交互，操控电脑。

不仅如此，CogAgent还能够处理在PC和Android等不同平台的GUI界面上的操作，并具备执行复杂任务和解决多步骤问题的能力。CogAgent的设计目标是能够观察和理解GUI元素，执行点击、输入等操作，并像人类一样理解GUI的上下文和状态。

值得一提的是，在特定场景下，CogAgent甚至能够完成需要跨多个应用程序才能实现的复杂任务，展现出强大的通用性和实用性。

© 版权声明：

文章版权归作者所有，未经允许请勿转载。

本文地址：https://aidh.net/kuaixun/10u5eerg

暂无评论

none

暂无评论...

阿里云通义千问就 Github 页面 404 问题回应：已联系 Github 官方

5浏览 0点赞 11个月前

阿里云通义千问就 Github 页面 404 问题回应：已联系 Github 官方

DeepSeek-AI开源DeepSeek-VL2系列，包含30亿、160亿和270亿参数三种规模模型

7浏览 0点赞 8个月前

DeepSeek-AI开源DeepSeek-VL2系列，包含30亿、160亿和270亿参数三种规模模型

清华大学为新生配备AI助手，预示教育产业AI应用新纪元

7浏览 0点赞 1年前

清华大学为新生配备AI助手，预示教育产业AI应用新纪元

实测GPT-4V：连北京烤鸭都不认识？别再盲目吹捧了！

9浏览 0点赞 2年前

实测GPT-4V：连北京烤鸭都不认识？别再盲目吹捧了！

Kimi的开源视觉语言模型Kim-VL和Kimi-VL-Thinking在多个基准上超越GPT-4o

3浏览 0点赞 4个月前

Kimi的开源视觉语言模型Kim-VL和Kimi-VL-Thinking在多个基准上超越GPT-4o

H2O.ai发布强大AI视觉模型，文档分析性能超越科技巨头，小身材蕴藏大能量！

5浏览 0点赞 10个月前

H2O.ai发布强大AI视觉模型，文档分析性能超越科技巨头，小身材蕴藏大能量！

Moondream获450万美元融资，推出仅16亿参数的高效AI模型，GitHub星标达5K

7浏览 0点赞 9个月前

Moondream获450万美元融资，推出仅16亿参数的高效AI模型，GitHub星标达5K

阿里云通义千问重新开源：全新多模态大模型Qwen-VL

10浏览 0点赞 2年前

阿里云通义千问重新开源：全新多模态大模型Qwen-VL