Nvidia推出Llama3压缩版:4亿参数小型语言模型Llama-3.1-Minitron4B

8个月前发布AI俱乐部
10 0 0
Nvidia推出Llama3压缩版:4亿参数小型语言模型Llama-3.1-Minitron4B的封面图

当前,在高性能计算领域,模型压缩技术日益受到关注,它旨在减小模型尺寸,同时保持性能。Nvidia 最新发布了一种基于 Llama-3 的模型压缩技术,引起了广泛关注。本文将深入探讨 Nvidia 如何利用剪枝和蒸馏技术,将 Llama-3 1-8B 模型压缩为 NVIDIA Llama-3 1-Minitron4B 模型。

该技术的核心在于结合使用剪枝和蒸馏两种模型压缩方法。剪枝是一种通过移除模型中不重要的连接来减小模型大小的技术。蒸馏则是将大型模型的知识转移到小型模型,使其在保持性能的同时,减少计算需求。通过这两种技术的结合,实现了模型尺寸的大幅缩减。

具体而言,Nvidia 利用一种名为 “SGD 剪枝” 的方法,它侧重于剪除对模型性能影响较小的连接;同时,采用 “激活感知量化” 技术,旨在保留关键的激活信息,进而保证模型在压缩后的性能表现。此外,该技术还能够保留原始模型的知识和推理能力。

在一个典型的案例中,Nvidia 的工程师们利用 Nemotron15B 模型对 Llama 3.1-8B 模型进行了剪枝和蒸馏处理,成功将其压缩为一个只有 4GB 大小的模型。这一压缩过程在 MMLU 基准测试中仅损失了 16% 的准确率,同时,推理速度提升了 40%。

此外,Nvidia 的研究人员还展示了 Llama3.18B 模型的压缩潜力,他们将其压缩为同样只有 4GB 大小的模型。值得注意的是,他们使用了一个包含约 940 个 token 的长提示语的基准测试来评估压缩模型的性能,结果表明,8B 压缩模型在性能上可以与原始模型相媲美。这进一步证明了剪枝和蒸馏技术在模型压缩方面的有效性,尤其是在处理长文本时。

值得一提的是,Nvidia 还开发了 NeMo-Aligner 工具,旨在优化模型的对齐过程,并通过融合提示工程、奖励建模、检索增强生成(RAG)等技术,进一步提升模型的性能。

总而言之,Llama-3 1-Minitron4B 模型充分展示了通过模型压缩技术在减小模型尺寸的同时,提升推理速度的可能性。该模型的压缩版本已发布在 Hugging Face 平台上,方便研究人员和开发者进行下载、部署和评估。

相关链接:https://developer.nvidia.com/blog/how-to-prune-and-distill-llama-3-1-8b-to-an-nvidia-llama-3-1-minitron-4b-model/

要点总结:

✨ Llama-3 1-Minitron4B 是 Nvidia 基于剪枝和蒸馏技术压缩 Llama-3 模型后的产物,旨在降低计算成本,实现高效推理。

💡 压缩后的模型在性能上损失较小,在 MMLU 测试中,仅损失了 16% 的准确率,但推理速度提升了 40%。

📌 该压缩模型已在 Hugging Face 上发布,方便开发者下载和使用。

快讯中提到的AI工具

Hugging Face
Hugging Face

机器学习和人工智能技术的平台

© 版权声明:
本文地址:https://aidh.net/kuaixun/qltolnoe

暂无评论

none
暂无评论...