谷歌开源Gemma-3:性能提升,成本降低90%,引领多模态模型新时代

2个月前发布AI俱乐部
4 0 0

谷歌 CEO 桑达尔・皮查伊(Sundar Pichai)于一场发布会上宣布,谷歌已开源其最新的多模态大型模型 Gemma-3。该模型以低成本和高性能为显著特点,引起广泛关注。

谷歌开源Gemma-3:性能提升,成本降低90%,引领多模态模型新时代

Gemma-3 提供了四种不同参数规模的选择,分别为 10 亿、40 亿、120 亿和 270 亿参数。令人瞩目的是,参数规模最大的 270 亿模型仅需单张 H100 显卡即可实现高效推理,而同类模型通常需要十倍的算力。这使得 Gemma-3 成为目前对算力要求最低的高性能模型之一。

根据最新的测试数据,Gemma-3 在各类对话模型的评比中表现优异,仅次于知名的 DeepSeek 模型,并超越了 OpenAI 的 o3-mini 和 Llama3 等多个热门模型。此次发布的 Gemma-3 在架构上延续了前两代的通用解码器 Transformer 设计,同时融入了诸多创新和优化。为解决长上下文带来的内存问题,Gemma-3 采用了局部与全局自注意力层交错的架构,显著降低了内存占用。

在上下文处理能力方面,Gemma-3 支持的上下文长度扩展至 128K token,为处理长文本提供了更佳的支持。此外,Gemma-3 还具备多模态能力,能够同时处理文本和图像,并集成了基于 VisionTransformer 的视觉编码器,有效降低了图像处理的计算成本。

在训练过程中,Gemma-3 使用了更多的 token 预算,尤其是在 270 亿参数模型中使用了 14T 的 token 量,并引入了多语言数据,以增强模型的语言处理能力,使其能够支持 140 种语言,其中 35 种语言可直接使用。Gemma-3 采用了先进的知识蒸馏技术,在训练后期通过强化学习优化模型表现,尤其在帮助性、推理能力和多语言能力等方面取得了显著提升。

经评测,Gemma-3 在多模态任务上表现卓越,其长文本处理能力也令人印象深刻,准确率达到了 66%。此外,在对话能力评估中,Gemma-3 的表现亦名列前茅,彰显了其在各项任务中的综合实力。

地址:https://huggingface.co/collections/google/gemma-3-release-67c6c6f89c4f76621268bb6d

划重点:

🔍 Gemma-3 是谷歌最新开源的多模态大型模型,参数范围从 10 亿到 270 亿,且算力需求降低至十分之一。

💡 该模型采用创新的架构设计,能够有效处理长上下文和多模态数据,支持文本与图像的同时处理。

🌐 Gemma-3 支持 140 种语言的处理能力,经过训练优化后在多项任务中表现优异,展现了强大的综合能力。

快讯中提到的AI工具

DeepSeek
DeepSeek

深度求索:引领未来人工智能技术的探索与创新

OpenAI
OpenAI

致力于创造对全人类有益的安全 AGI

© 版权声明:
本文地址:https://aidh.net/kuaixun/lfav34gv

暂无评论

none
暂无评论...