

据最新消息,Meta公司正在积极研发其新一代大型语言模型Llama 3.1 405B。据了解,该模型在多个关键性能指标上取得了显著突破,标志着Llama 3在技术层面的又一次重大升级。
Llama 3.1 405B是一个拥有1280亿参数的庞大语言模型。为了训练这个庞大的模型,需要大量的计算资源。该模型支持高达8K上下文长度,甚至可以扩展至128K上下文长度。据Meta官方透露,该模型在推理性能上,已经超越了目前领先的GPT-4模型。
为了进一步提升Llama模型的性能,Meta采取了以下策略:
- 利用高质量的数据进行模型训练,从而提升模型的整体性能;
- 着重提升模型在推理方面的能力,使其在实际应用中表现更出色。
405B模型的训练规模相当庞大,需要消耗15.6百万GPU小时以及3.8x10^25次浮点运算。为了满足这一需求,Meta专门为此构建了一套由16,000个H100 GPU组成的集群。
为了加速405B模型的训练过程,Meta采用了16位浮点(BF16)和8位浮点(FP8)混合精度计算,从而在保证模型精度的前提下,显著提高了训练效率。
与此同时,Meta还计划发布405B模型的70B和8B参数版本。在模型训练策略上,主要采用了监督微调(SFT)以及强化学习和人类反馈等技术。值得一提的是,SFT训练数据集的质量对模型的最终性能有着至关重要的影响。
Llama 3在工具使用、推理以及代码生成等方面都表现出色,并且在许多基准测试中都超越了现有的模型。不仅如此,该模型还在安全防护方面进行了特别的优化。
Meta的目标是构建一套开放且负责任的生态系统,以便开发者能够更好地利用Llama模型。
Meta公司的一位发言人表示:“我们坚信,开放的AI生态系统能够加速创新,并为每个人创造更多机会。我们致力于推动Llama模型的持续发展!”
总而言之,AI模型领域的竞争日益激烈,而大型语言模型依然是推动AI技术发展的重要引擎。
快讯中提到的AI工具

OpenAI 发布的最新一代语言模型