微软推出 Phi-4 多模态与迷你模型，语音、视觉和文本处理升级再启航

近日，微软推出了名为 Phi-4 的全新模型系列，包括两种型号：Phi-4-multimodal 和 Phi-4-mini。这两款模型旨在提升人工智能解决方案在处理复杂任务时的能力。

Phi-4-multimodal 模型是一种能够处理文本、图像和音频等多模态信息的通用模型，参数量达到了 56 亿。该模型在语音识别和翻译方面表现出色，甚至超越了 Gemini 2.0 模型。在自动语音识别（ASR）和语音翻译（ST）任务中，Phi-4-multimodal 模型的性能优于 WhisperV3 和 SeamlessM4T-v2-Large 等现有模型，错误率降低了 6.14%，并已被上传至 Hugging Face OpenASR 排行榜。

在视觉任务方面，Phi-4-multimodal 模型同样表现出色。除了在标准图像分类任务中表现出色外，它还在文档理解（包括表格理解、文档问答和光学字符识别（OCR））方面表现出色。与 Gemini-2-Flash-lite-preview 和 Claude-3.5-Sonnet 等其他模型相比，该模型在处理此类任务时表现出了卓越的性能。

另一方面，Phi-4-mini 模型专注于文本处理，参数量为 38 亿。在文本推理、语言理解、编码和数学等任务中，Phi-4-mini 模型表现出色，甚至可以与更大的专家混合模型相媲美。为了提高模型的安全性和可靠性，微软还采用了对抗性鲁棒性测试（AIRT）技术来增强模型的防御能力。

这两款模型均可在 ONNX Runtime 环境中运行，从而为各种硬件配置提供高效且可扩展的推理能力。此外，这些模型还可以在 Azure AI、Hugging Face 和 NVIDIA API 等平台上使用，从而简化了开发过程。总而言之，Phi-4 系列模型的发布标志着人工智能领域取得了显著进展，为开发人员提供了更强大的工具来构建创新的解决方案，并推动了人工智能技术的普及。