实时信息提取

共 1 篇文章

Phi-4-Multimodal

Phi-4-Multimodal是微软最新推出的多模态语言模型,拥有 56 亿个参数,能够整合语音、视觉和文本处理于一个统一的框架内。该模型在多项基准测试中表现卓越,在自动语音识别(ASR)和语音翻译(ST)任务中,以 6.14% 的单词错误率高居 Hugging Face OpenASR 排行榜榜...
AI工具箱8个月前
Phi-4-Multimodal