视觉语言模型

共 20 篇AI快讯

Kimi的开源视觉语言模型Kim-VL和Kimi-VL-Thinking在多个基准上超越GPT-4o

4浏览 0点赞 7个月前

Kimi的开源视觉语言模型Kim-VL和Kimi-VL-Thinking在多个基准上超越GPT-4o

谷歌 DeepMind 发布十亿级别超大规模视觉语言数据集 WebLI-100B

5浏览 0点赞 9个月前

谷歌 DeepMind 发布十亿级别超大规模视觉语言数据集 WebLI-100B

IBM发布20亿参数视觉语言模型Granite-Vision-3.1，高效解析复杂视觉文档

6浏览 0点赞 9个月前

IBM发布20亿参数视觉语言模型Granite-Vision-3.1，高效解析复杂视觉文档

英伟达VLA技术赋能，黑马企业智驾突围，市场份额激增

7浏览 0点赞 10个月前

英伟达VLA技术赋能，黑马企业智驾突围，市场份额激增

Hugging Face推出SmolVLM模型：300倍体积压缩，小巧智能，手机端AI应用成真

6浏览 0点赞 10个月前

Hugging Face推出SmolVLM模型：300倍体积压缩，小巧智能，手机端AI应用成真

MIT和DeepMind研究表明视觉语言模型未能有效理解否定含义

11浏览 0点赞 10个月前

MIT和DeepMind研究表明视觉语言模型未能有效理解否定含义

DeepSeek-AI开源DeepSeek-VL2系列，包含30亿、160亿和270亿参数三种规模模型

7浏览 0点赞 11个月前

DeepSeek-AI开源DeepSeek-VL2系列，包含30亿、160亿和270亿参数三种规模模型

Moondream2：16亿参数的口袋级视觉AI模型，小巧而强大，手机端轻松运行！

37浏览 0点赞 1年前

Moondream2：16亿参数的口袋级视觉AI模型，小巧而强大，手机端轻松运行！

Moondream获450万美元融资，推出仅16亿参数的高效AI模型，GitHub星标达5K

7浏览 0点赞 1年前

Moondream获450万美元融资，推出仅16亿参数的高效AI模型，GitHub星标达5K

H2O.ai发布强大AI视觉模型，文档分析性能超越科技巨头，小身材蕴藏大能量！

5浏览 0点赞 1年前

H2O.ai发布强大AI视觉模型，文档分析性能超越科技巨头，小身材蕴藏大能量！

阿里云通义千问就 Github 页面 404 问题回应：已联系 Github 官方

5浏览 0点赞 1年前

阿里云通义千问就 Github 页面 404 问题回应：已联系 Github 官方

通义千问Qwen2-VL开源，2B/7B尺寸视觉语言模型API开放直接调用

7浏览 0点赞 1年前

通义千问Qwen2-VL开源，2B/7B尺寸视觉语言模型API开放直接调用

NVIDIA发布NVEagle视觉语音模型，实现看图实时对话

5浏览 0点赞 1年前

NVIDIA发布NVEagle视觉语音模型，实现看图实时对话

智源研究院发布EVE：新一代无编码器视觉语言多模态大模型

5浏览 0点赞 1年前

智源研究院发布EVE：新一代无编码器视觉语言多模态大模型

清华大学CogAgent：全新视觉语言模型，强化GUI理解与导航能力

8浏览 0点赞 2年前

清华大学CogAgent：全新视觉语言模型，强化GUI理解与导航能力

智谱AI开源CogAgent：一款支持图形界面问答的视觉语言模型

9浏览 0点赞 2年前

智谱AI开源CogAgent：一款支持图形界面问答的视觉语言模型

谷歌发布小体量、SOTA性能视觉语言模型PaLI-3

7浏览 0点赞 2年前

谷歌发布小体量、SOTA性能视觉语言模型PaLI-3

实测GPT-4V：连北京烤鸭都不认识？别再盲目吹捧了！

9浏览 0点赞 2年前

实测GPT-4V：连北京烤鸭都不认识？别再盲目吹捧了！

通义千问实现图像识别！阿里云开源视觉语言大模型Qwen-VL，支持图文双模态输入

12浏览 0点赞 2年前

通义千问实现图像识别！阿里云开源视觉语言大模型Qwen-VL，支持图文双模态输入

阿里云通义千问重新开源：全新多模态大模型Qwen-VL

10浏览 0点赞 2年前

阿里云通义千问重新开源：全新多模态大模型Qwen-VL