Meta发布开源大型语言模型Llama 3.1 405B,性能直逼GPT-4

8个月前发布AI俱乐部
3 0 0
标签:
Meta发布开源大型语言模型Llama 3.1 405B,性能直逼GPT-4的封面图

据最新消息,Meta公司正在积极研发其新一代大型语言模型Llama 3.1 405B。据了解,该模型在多个关键性能指标上取得了显著突破,标志着Llama 3在技术层面的又一次重大升级。

Llama 3.1 405B是一个拥有1280亿参数的庞大语言模型。为了训练这个庞大的模型,需要大量的计算资源。该模型支持高达8K上下文长度,甚至可以扩展至128K上下文长度。据Meta官方透露,该模型在推理性能上,已经超越了目前领先的GPT-4模型。

为了进一步提升Llama模型的性能,Meta采取了以下策略:

  1. 利用高质量的数据进行模型训练,从而提升模型的整体性能;
  2. 着重提升模型在推理方面的能力,使其在实际应用中表现更出色。

405B模型的训练规模相当庞大,需要消耗15.6百万GPU小时以及3.8x10^25次浮点运算。为了满足这一需求,Meta专门为此构建了一套由16,000个H100 GPU组成的集群。

为了加速405B模型的训练过程,Meta采用了16位浮点(BF16)和8位浮点(FP8)混合精度计算,从而在保证模型精度的前提下,显著提高了训练效率。

与此同时,Meta还计划发布405B模型的70B和8B参数版本。在模型训练策略上,主要采用了监督微调(SFT)以及强化学习和人类反馈等技术。值得一提的是,SFT训练数据集的质量对模型的最终性能有着至关重要的影响。

Llama 3在工具使用、推理以及代码生成等方面都表现出色,并且在许多基准测试中都超越了现有的模型。不仅如此,该模型还在安全防护方面进行了特别的优化。

Meta的目标是构建一套开放且负责任的生态系统,以便开发者能够更好地利用Llama模型。

Meta公司的一位发言人表示:“我们坚信,开放的AI生态系统能够加速创新,并为每个人创造更多机会。我们致力于推动Llama模型的持续发展!”

总而言之,AI模型领域的竞争日益激烈,而大型语言模型依然是推动AI技术发展的重要引擎。

快讯中提到的AI工具

GPT-4
GPT-4

OpenAI 发布的最新一代语言模型

© 版权声明:
本文地址:https://aidh.net/kuaixun/ojc7l26m

暂无评论

none
暂无评论...