微软推出 Phi-4 多模态与迷你模型,语音、视觉和文本处理升级再启航

2周前发布AI俱乐部
2 0 0
微软推出 Phi-4 多模态与迷你模型,语音、视觉和文本处理升级再启航的封面图

近日,微软推出了名为 Phi-4 的全新模型系列,包括两种型号:Phi-4-multimodal 和 Phi-4-mini。这两款模型旨在提升人工智能解决方案在处理复杂任务时的能力。

Phi-4-multimodal 模型是一种能够处理文本、图像和音频等多模态信息的通用模型,参数量达到了 56 亿。该模型在语音识别和翻译方面表现出色,甚至超越了 Gemini 2.0 模型。在自动语音识别(ASR)和语音翻译(ST)任务中,Phi-4-multimodal 模型的性能优于 WhisperV3 和 SeamlessM4T-v2-Large 等现有模型,错误率降低了 6.14%,并已被上传至 Hugging Face OpenASR 排行榜。

在视觉任务方面,Phi-4-multimodal 模型同样表现出色。除了在标准图像分类任务中表现出色外,它还在文档理解(包括表格理解、文档问答和光学字符识别(OCR))方面表现出色。与 Gemini-2-Flash-lite-preview 和 Claude-3.5-Sonnet 等其他模型相比,该模型在处理此类任务时表现出了卓越的性能。

另一方面,Phi-4-mini 模型专注于文本处理,参数量为 38 亿。在文本推理、语言理解、编码和数学等任务中,Phi-4-mini 模型表现出色,甚至可以与更大的专家混合模型相媲美。为了提高模型的安全性和可靠性,微软还采用了对抗性鲁棒性测试(AIRT)技术来增强模型的防御能力。

这两款模型均可在 ONNX Runtime 环境中运行,从而为各种硬件配置提供高效且可扩展的推理能力。此外,这些模型还可以在 Azure AI、Hugging Face 和 NVIDIA API 等平台上使用,从而简化了开发过程。总而言之,Phi-4 系列模型的发布标志着人工智能领域取得了显著进展,为开发人员提供了更强大的工具来构建创新的解决方案,并推动了人工智能技术的普及。

快讯中提到的AI工具

Claude
Claude

由Anthropic公司开发的下一代人工智能AI助手

Hugging Face
Hugging Face

机器学习和人工智能技术的平台

© 版权声明:
本文地址:https://aidh.net/kuaixun/b2mllltv

暂无评论

none
暂无评论...