Meta发布开源大型语言模型Llama 3.1 405B，性能直逼GPT-4

摘要：

据最新消息，Meta公司正在积极研发其新一代大型语言模型Llama 3.1 405B。据了解，该模型在多个关键 […]

据最新消息，Meta公司正在积极研发其新一代大型语言模型Llama 3.1 405B。据了解，该模型在多个关键性能指标上取得了显著突破，标志着Llama 3在技术层面的又一次重大升级。

Llama 3.1 405B是一个拥有1280亿参数的庞大语言模型。为了训练这个庞大的模型，需要大量的计算资源。该模型支持高达8K上下文长度，甚至可以扩展至128K上下文长度。据Meta官方透露，该模型在推理性能上，已经超越了目前领先的GPT-4模型。

为了进一步提升Llama模型的性能，Meta采取了以下策略：

405B模型的训练规模相当庞大，需要消耗15.6百万GPU小时以及3.8×10^25次浮点运算。为了满足这一需求，Meta专门为此构建了一套由16,000个H100 GPU组成的集群。

为了加速405B模型的训练过程，Meta采用了16位浮点（BF16）和8位浮点（FP8）混合精度计算，从而在保证模型精度的前提下，显著提高了训练效率。

与此同时，Meta还计划发布405B模型的70B和8B参数版本。在模型训练策略上，主要采用了监督微调（SFT）以及强化学习和人类反馈等技术。值得一提的是，SFT训练数据集的质量对模型的最终性能有着至关重要的影响。

Llama 3在工具使用、推理以及代码生成等方面都表现出色，并且在许多基准测试中都超越了现有的模型。不仅如此，该模型还在安全防护方面进行了特别的优化。

Meta的目标是构建一套开放且负责任的生态系统，以便开发者能够更好地利用Llama模型。

Meta公司的一位发言人表示：“我们坚信，开放的AI生态系统能够加速创新，并为每个人创造更多机会。我们致力于推动Llama模型的持续发展！”

总而言之，AI模型领域的竞争日益激烈，而大型语言模型依然是推动AI技术发展的重要引擎。

快讯中提到的AI工具

GPT-4

OpenAI 发布的最新一代语言模型

文章版权归作者所有，未经允许请勿转载。

本文地址：https://aidh.net/kuaixun/ojc7l26m