
微软公司于 2024 年 12 月推出了 Phi-4,这是一款在同类产品中表现出色的精巧型语言模型(SLM)。如今,微软进一步拓展了 Phi-4 系列,隆重推出两款全新模型:Phi-4 多模态 (Phi-4-multimodal) 和 Phi-4 迷你 (Phi-4-mini)。
Phi-4 多模态模型是微软首款集成了语音、视觉和文本处理功能的统一架构多模态语言模型,其参数规模达到了 56 亿。在多项基准测试中,Phi-4 多模态的性能超越了其他现有的先进全模态模型,如谷歌的 Gemini 2.0 Flash 和 Gemini 2.0 Flash Lite。
在语音相关任务中,Phi-4 多模态在自动语音识别(ASR)和语音翻译(ST)方面的表现均优于 WhisperV3 和 SeamlessM4T-v2-Large 等专业语音模型。微软方面表示,该模型在 Hugging Face OpenASR 排行榜上以 6.14% 的词错误率荣登榜首。
在视觉相关任务中,Phi-4 多模态在数学和科学推理方面展现出了卓越的能力。在文档理解、图表理解、光学字符识别(OCR)以及视觉科学推理等常见多模态能力方面,该模型与 Gemini-2-Flash-lite-preview 和 Claude-3.5-Sonnet 等主流模型相比肩甚至更胜一筹。
AI工具库指出,Phi-4 迷你模型则专注于文本任务,参数量为 38 亿。其在文本推理、数学计算、编程、指令遵循和函数调用等任务中表现优异,超越了多款流行的大型语言模型。
为确保新模型的安全性与可靠性,微软邀请了内部和外部安全专家进行测试,并采纳了微软人工智能红队(AIRT)所制定的策略。经过进一步优化,Phi-4 迷你和 Phi-4 多模态模型均可通过 ONNX Runtime 部署到设备端,从而实现跨平台应用,并适用于低成本和低延迟场景。
目前,Phi-4 多模态和 Phi-4 迷你模型已在 Azure AI Foundry、Hugging Face 和 NVIDIA API 目录中正式上线,以供开发者使用。
Phi-4 系列新模型的发布,标志着高效 AI 技术的显著进步,为各种人工智能应用带来了强大的多模态和文本处理能力。