

微软推出了新一代的小型语言模型 Phi-3.5,它在多个方面都有显著的改进,并且针对边缘设备的部署进行了优化。这一系列的模型包括:Phi-3.5-mini-instruct、-3.5-MoE-instruct 以及 Phi-3.5-vision-instruct,它们在性能和多模态理解上都有着出色的表现。
Phi-3.5 Mini Instruct 模型是一个轻量级的 AI 模型,其大小仅为 3.8B,但却在各项基准测试中展现出强大的竞争力。它具备 128k 的超长上下文窗口,能够处理复杂的推理任务,适用于代码生成、语言理解以及数据提取等多种应用场景。尽管体积小巧,这款模型在处理文本和数据时仍能提供卓越的性能。
链接:https://huggingface.co/microsoft/Phi-3.5-mini-instruct
Phi-3.5MoE 模型则是一个“混合专家”模型,采用了多专家架构,可以在不同类型的任务之间实现更高效的切换。该模型拥有 419 亿参数,同样支持 128k 的超长上下文窗口,使得它在处理大规模数据集时能够实现更高的效率。这款模型在代码生成、语言理解以及其他复杂任务中表现出色,性能甚至可以与 OpenAI 的 GPT-4o mini 相媲美,尤其在 MMLU(大规模多任务语言理解)等评估基准上。
链接:https://huggingface.co/microsoft/Phi-3.5-MoE-instruct
Phi-3.5Vision Instruct 模型是一个多模态 AI 模型,能够理解图像和文本信息,实现视觉推理。它可以处理图像描述生成、视觉问答、图像理解和数据分析等多种任务。该模型同样支持 128k 的上下文窗口,可以处理包含丰富视觉信息的复杂场景。
链接:https://huggingface.co/microsoft/Phi-3.5-vision-instruct
为了训练这些模型,微软使用了大量的数据和算力资源。Mini Instruct 模型使用了 3.4 万亿 token 的数据集,并在 512 块 H100-80G GPU 上训练了 10 天;Vision Instruct 模型则使用了 5000 亿 token 的数据集,训练时长为 6 天;而 MoE 模型则在 23 天内,使用 4.9 万亿 token 的数据集完成了训练。
总而言之,新一代的 Phi-3.5 模型系列遵循 MIT 许可证,允许商业和非商业用途,方便开发者进行使用、修改和分发。这些模型不仅在性能上有所提升,而且在边缘设备上的部署也更加高效,为各种需要 AI 能力的应用提供了新的选择。
快讯中提到的AI工具

OpenAI 推出的最新小型模型

OpenAI 最新的旗舰模型

OpenAI 发布的最新一代语言模型

致力于创造对全人类有益的安全 AGI