谷歌利用小模型加速大模型AI训练，效率提升28%

7个月前发布AI俱乐部

8 0 0

标签：AI Midjourney SALT 大型语言模型

一般来说，提到大型语言模型 (LLM) 的能力扩展和训练难度，人们往往会关注其显著的资源需求。然而，并非所有场景都需要如此庞大的模型。

文章概要：探索 AI 模型的微调，聚焦轻量级模型 Midjourney。

谷歌和 DeepMind 的研究表明，通过“从小规模做起，逐步扩展：训练高效的子语言模型”这一策略，SALT 模型能够有效利用小规模数据集提升 AI 模型的性能。这种方法不追求规模，而是专注于提升特定任务的效率。

SALT 的核心理念是模块化。在这个框架下，小型语言模型 (SLM) 可以通过专门训练，在特定领域实现卓越的表现。小型模型更易于管理，能够在保证性能的同时，降低对计算资源的需求。

第二种策略是利用现有大型语言模型进行知识提炼。大型语言模型在此扮演着“教师”的角色，指导小型模型学习其泛化能力。这种方法允许小型模型在无需海量数据集的情况下，获得更强的推理能力。

研究人员发现，仅仅使用 15000 个令牌训练的小型语言模型，在 “常识推理” 任务中的表现就能达到使用 28% 训练数据的大型语言模型。通过进一步调整，小型语言模型在知识评估方面的表现从 31.84% 提升至 34.87%，在对抗性问题上的表现从 63.7% 提高到 67%。这些结果表明，即使不增加模型规模，也能显著提升性能。

SALT 突出了针对 AI 发展方向的另一种可能性，即利用有限的计算资源实现高性能的语言模型，而不是仅仅依赖 AI 模型的规模。通过模型和训练方法的优化，有可能在资源受限的环境中实现卓越的 AI 性能，从而应对更广泛的应用场景。