字节大模型最新进展:首次融合视觉定位,实现细粒度多模态联合理解,已开源并提供可玩示范

2年前发布AI俱乐部
12 0 0
字节大模型最新进展:首次融合视觉定位,实现细粒度多模态联合理解,已开源并提供可玩示范的封面图

这篇文章介绍了由字节跳动推出的BuboGPT模型,该模型支持文本、图像和音频三种模式的多模态联合理解,并首次引入视觉定位技术,能够精确定位图像中的对象。研究人员通过应用多模态指令调整的训练方案,使BuboGPT在多模态任务上取得了优异的效果。该模型已经开源,并提供了一个可供体验的演示页面。

© 版权声明:
本文地址:https://aidh.net/kuaixun/fc61afk4

暂无评论

none
暂无评论...