英伟达发布NVILA:性能超越GPT-4o Mini和Llama 3.2的全新视觉语言模型

5个月前发布AI俱乐部
4 0 0
英伟达发布NVILA:性能超越GPT-4o Mini和Llama 3.2的全新视觉语言模型的封面图

最近,NVIDIA 发布了一款新型视觉语言模型,名为 NVILA。据称,它在性能和效率方面都得到了显著提升,有望推动 AI 应用的发展。

根据 NVIDIA 的说法,NVILA 在推理速度上比之前的版本提升了高达 4.5 倍,数据吞吐量也提升了 3.4 倍。此外,它在训练成本方面也有所降低,大约降低了 2 倍。据了解,这款模型是基于 LLaVa OneVision 架构构建的。

在模型兼容性方面,NVILA 能够无缝兼容 GPT4o Mini,并且能够与 GPT4o、Sonnet3.5 以及 Gemini1.5Pro 等其他大型语言模型进行集成。同时,NVILA 还支持 Llama3.2 的格式,方便开发者进行迁移。值得一提的是,NVIDIA 承诺,所有相关的模型权重都将发布在 Hugging Face 平台上,以方便研究人员使用,并促进模型的进一步发展。

NVIDIA 强调,使用该视觉语言模型的一个主要优势是其对计算资源的需求较低,只需要一个 7B 参数的模型就可以在 400 个 GPU 上运行。具体来说,7B 参数的模型只需要配备 64GB 显存的 GPU 即可。

此外,NVIDIA 还推出了一种名为“神经压缩”的技术,旨在优化视觉语言模型的性能。该技术通过减少模型推理过程中的计算量和内存占用,从而提高模型的效率。简而言之,该技术能够显著降低训练和部署的成本,同时保证模型的准确性。

具体而言,该模型使用了混合精度量化技术,可以有效地减少 token 的大小,从而降低显存占用,提高推理速度。NVIDIA 表示,该技术可以将每个视觉语言模型 token 的大小降低 2 倍。这意味着,用户可以在相同的硬件条件下运行更大规模的模型,或者在更小的硬件上运行现有模型。

为了进一步提升模型性能,NVILA 还集成了一系列先进的技术,包括 NVIDIA 自研的 VILA1.5 模型架构。此外,NVIDIA 还引入了一些优化技术,例如 S2 结构、DeltaLoss 量化方法以及 FP8 数据格式。

目前,一个包含 8B 参数的模型已经可以从 Arxiv 上获取。

论文链接:https://arxiv.org/pdf/2412.04468

要点总结:

✨ NVILA 模型在推理速度上提升了 4.5 倍,加速了 AI 应用的开发。

📌 通过优化计算和内存占用,NVILA 提高了模型的使用效率。

📍 NVIDIA 承诺将公开模型权重,以促进相关领域的研究和发展。

快讯中提到的AI工具

Hugging Face
Hugging Face

机器学习和人工智能技术的平台

© 版权声明:
本文地址:https://aidh.net/kuaixun/2g57qmej

暂无评论

none
暂无评论...