

近日,艾伦人工智能研究所 (AI2) 发布了一款名为 OLMoE 的开源大型语言模型 (LLM)。这款模型不设使用限制,鼓励开放研究。
OLMoE 采用了一种混合专家 (MoE) 架构,包含 70 个专家,每次推理时只有 10 个专家处于活跃状态。该模型提供不同规模的版本,包括预训练的 OLMoE-1B 和 7B,以及指令优化的 OLMoE-1B-7B-Instruct。
与某些封闭源代码的大型模型不同,AI2 旨在通过开源 OLMoE 来促进语言模型的研究。他们表示:“开源 MoE 模型非常重要:它允许对模型权重进行检查,以及对性能和影响进行量化。” 这种开放性有助于深入了解这些模型。
AI2 的研究人员强调,OLMoE 在训练和评估方面都力求透明。OLMoE 的开发使用了大量的高性能计算资源,包括 H100 集群。通过开源 OLMoE 模型,AI2 希望推动可重复的 AI 研究,并为学术界和工业界提供有价值的资源。
在模型训练方面,AI2 使用了 64 个专家并行处理,避免了在单个设备上进行数据分片。为了确保公平评估,OLMoE 在学术基准和对抗性测试中进行了全面评估。OLMoE 的性能与 AI2 之前的开源语言模型 OLMO1.7-7B 相当,后者使用了 4096 个 token 的上下文窗口。OLMoE 的训练数据来源于 Common Crawl、Dolma CC 等大型数据集。
在初步评估中,OLMoE-1B-7B 在各种规模的模型中表现出色,在某些语言任务中甚至超过了 Llama2-13B-Chat 和 DeepSeekMoE-16B。
AI2 的目标是构建一套完整的开源 AI 模型生态系统,包括混合专家架构。他们认为,通过开源 MoE 架构,AI2 可以促进对大型 AI 模型在各个领域的应用和改进。
Hugging Face 地址:https://huggingface.co/collections/allenai/olmoe-66cf678c047657a30c8cd3da
研究论文地址:https://arxiv.org/abs/2409.02060
要点总结:
- ✨ AI2 发布的开源语言模型 OLMoE,旨在推动开放研究和社区协作。
- 🧠 OLMoE 采用混合专家架构,实现了高效的推理和卓越的性能表现。
- 🔍 AI2 致力于可重复的 AI 研究,提供训练细节、数据集和评估指标。
快讯中提到的AI工具

深度求索:引领未来人工智能技术的探索与创新

机器学习和人工智能技术的平台