微软发布Phi-3.5-vision：专为复杂视觉推理打造的轻量级多模态开源模型

12个月前发布AI俱乐部

微軟正式推出了名為 Phi-3.5-vision 的多模態大型語言模型，這是一款功能強大且經濟實惠的人工智慧模型，它繼承了 Phi-3 模型系列的優良特性，同時具備了處理視覺資訊的能力。Phi-3.5-vision 模型能夠理解圖像，為開發更具互動性和實用性的應用程式開闢了道路。

Phi-3.5-vision 模型擅長處理包含視覺內容的各種任務，比如理解圖表和視覺資訊、執行光學字元識別（OCR）、回答圖像相關問題，以及產生帶有圖像的文字描述。它能夠在圖像和文字之間建立聯繫，從而實現更深入的理解和更豐富的互動。

Phi-3.5-vision 模型是基於 42 億參數的模型，其性能表現可與更大的視覺語言模型相媲美，例如 Gemini Pro 1.5 Flash 和 Claude 3 Haiku。無論是在複雜推理任務、知識水平還是安全指標方面，它都展現出了卓越的能力，為使用者提供了可靠且高效的解決方案。

Phi-3.5-vision 模型包含以下三種變體：

Phi-3.5Mini Instruct：專為需要處理包含視覺資訊任務的應用而設計的多模態人工智慧模型。

Phi-3.5MoE (Mixture of Experts)：一種“混合專家”模型，旨在實現卓越的成本效益和整體性能。

Phi-3.5Vision Instruct：一種多模態模型，可以同時處理文字和圖像輸入，並產生相應的回應。

主要應用場景

Phi-3.5-vision 模型的典型應用場景包括圖像理解、OCR、圖像相關問題解答、圖像生成、基於視覺內容的互動對話以及進階的視覺推理。

Phi-3.5-vision 在多項基準測試中展現出了優異的性能，包括 MMMU、MMBench、TextVQA 以及其他視覺問答基準測試，甚至在某些文字和知識密集型任務中也超越了其他模型。

總體而言，Phi-3.5-vision 模型的推出，為人工智慧應用開啟了新的可能性，它不僅提升了模型的互動性和實用性，還為開發更廣泛的視覺應用程式提供了支援。透過其強大的功能和卓越的性能，微軟正在推動人工智慧技術的普及和發展。

模型下載連結：https://huggingface.co/microsoft/Phi-3.5-vision-instruct

快讯中提到的AI工具

Claude

由Anthropic公司开发的下一代人工智能AI助手

文章版权归作者所有，未经允许请勿转载。

本文地址：https://aidh.net/kuaixun/8hrp6t1a