字节大模型最新进展：首次融合视觉定位，实现细粒度多模态联合理解，已开源并提供可玩示范

2年前发布AI俱乐部

标签：BuboGPT 多模态字节跳动

字节大模型最新进展：首次融合视觉定位，实现细粒度多模态联合理解，已开源并提供可玩示范的封面图

这篇文章介绍了由字节跳动推出的BuboGPT模型，该模型支持文本、图像和音频三种模式的多模态联合理解，并首次引入视觉定位技术，能够精确定位图像中的对象。研究人员通过应用多模态指令调整的训练方案，使BuboGPT在多模态任务上取得了优异的效果。该模型已经开源，并提供了一个可供体验的演示页面。

© 版权声明：

文章版权归作者所有，未经允许请勿转载。

本文地址：https://aidh.net/kuaixun/fc61afk4

暂无评论

none

暂无评论...

字节跳动开源FLUX Dev，Hyper SD Lora模型助力生图，仅需8步！

4浏览 0点赞 1年前

字节跳动开源FLUX Dev，Hyper SD Lora模型助力生图，仅需8步！

字节跳动OmniHuman-1：照片一键生成，栩栩如生的可交互虚拟人

5浏览 0点赞 7个月前

字节跳动OmniHuman-1：照片一键生成，栩栩如生的可交互虚拟人

字节跳动发布Infinity：自回归文生图技术取得新突破，性能表现超越扩散模型

8浏览 0点赞 9个月前

字节跳动发布Infinity：自回归文生图技术取得新突破，性能表现超越扩散模型

字节联合高校重磅发布 STAR 模型：显著提升视频清晰度与分辨率

6浏览 0点赞 8个月前

字节联合高校重磅发布 STAR 模型：显著提升视频清晰度与分辨率

Cline升级至Gemini 2.5 Pro：AI开发迎来强大支持

3浏览 0点赞 6个月前

Cline升级至Gemini 2.5 Pro：AI开发迎来强大支持

SALMONN框架：赋予大型语言模型卓越的通用听觉能力

8浏览 0点赞 2年前

SALMONN框架：赋予大型语言模型卓越的通用听觉能力

剪映负责人张逍然离职，曾助力产品月活跃用户破亿

10浏览 0点赞 9个月前

剪映负责人张逍然离职，曾助力产品月活跃用户破亿

谷歌发布人工智能系统Gemini，或将增强其在AI领域的影响力

9浏览 0点赞 2年前

谷歌发布人工智能系统Gemini，或将增强其在AI领域的影响力