这篇文章介绍了由字节跳动推出的BuboGPT模型,该模型支持文本、图像和音频三种模式的多模态联合理解,并首次引入视觉定位技术,能够精确定位图像中的对象。研究人员通过应用多模态指令调整的训练方案,使BuboGPT在多模态任务上取得了优异的效果。该模型已经开源,并提供了一个可供体验的演示页面。