阿里开源最强!通义千问Qwen2重磅发布

9个月前发布AI俱乐部
2 0 0
阿里开源最强!通义千问Qwen2重磅发布的封面图

近期,备受瞩目的开源社区迎来了 Qwen2 系列模型的发布,为大模型技术的发展注入了新的活力。这些模型包含了多种参数规模,以满足不同应用场景的需求,具体包括:Qwen2-0.5B、Qwen2-1.5B、Qwen2-7B、Qwen2-57B-A14B 以及 Qwen2-72B。值得一提的是,在特定基准测试中,这些模型的性能表现已超越了之前的 Qwen1.5 系列。

在模型能力方面,Qwen2 系列展现出了卓越的语言理解能力,尤其是在文本和代码处理任务中。该系列模型还能够高效地处理长文本,最长可达 128K tokens。更重要的是,大型模型(70B+ 参数)在推理、生成、知识理解等多个领域均实现了显著提升,Qwen2-72B 模型在许多综合性与专业性评测中都表现出色。

Qwen2 模型不仅性能优异,还注重模型的易用性,允许开发者在商业应用中使用,为 AI 技术的普及创造了有利条件。此外,该模型在 M-MMLU 和 MGSM 等基准测试中也展现出强大的竞争力,进一步证明了 Qwen2 系列模型的综合实力。

Qwen2 系列模型的开源发布,有助于推动人工智能领域的创新,降低了 AI 应用的门槛,让更多的开发者能够参与到 AI 技术的开发和应用中。与此同时,Qwen2 还支持多语言,能够满足不同语言环境下的需求,促进了全球 AI 技术的协同发展。

模型规格

Qwen2 系列模型包含五种不同规模的模型及变体,分别是 Qwen2-0.5B、Qwen2-1.5B、Qwen2-7B、Qwen2-57B-A14B 以及 Qwen2-72B。下面表格中展示了这些模型的详细参数信息:

参数 Qwen2-0.5B Qwen2-1.5B Qwen2-7B Qwen2-57B-A14B Qwen2-72B
# 参数量 0.49B 1.54B 7.07B 57.41B 72.71B
# Embedding 层参数量 0.35B 1.31B 5.98B 56.32B 70.21B
训练数据 预训练 预训练 预训练 预训练 预训练
指令微调 支持 支持 支持 支持 支持
上下文长度 3.2K 3.2K 128K 64K 128K

值得关注的是,Qwen1.5 模型中的 Qwen1.5-32B 和 Qwen1.5-110B 采用了 Group Query Attention(GQA)技术。这项技术能够有效提升模型在处理长文本时的效率,同时降低计算成本。此外,这些模型还使用了 tying embedding 技术,可以减少模型参数量,从而提高模型的训练效率。

在上下文长度方面,所有经过预训练的模型均支持 32K tokens 的上下文长度。为了进一步提升模型在长文本处理方面的性能,开发者们采用了 PPL(Perplexity)方法,成功将上下文长度扩展至 128K。与此同时,他们还积极改进了模型架构,大幅降低了 PPL 值。为了验证这些模型在长文本场景下的实际效果,研究人员还专门设计了一项名为 Needle in a Haystack 的测试。结果表明,Qwen2-7B-Instruct 和 Qwen2-72B-Instruct 模型均能有效处理长达 128K tokens 的上下文信息。

为了更全面地评估模型的性能,研究团队还针对语言理解能力进行了多项测试,包括通用知识、专业知识、推理能力等。这些测试涵盖了多个数据集,旨在评估模型在不同任务上的表现。通过这些评估,研究人员能够更深入地了解模型的优势与不足,为未来的模型优化提供参考。

性能表现

在评估环节中,研究团队对大型语言模型(70B+ 参数)进行了全面评测,结果显示,Qwen1.5 在多个基准测试中均表现出色。值得注意的是,Qwen2-72B 模型在多种评测任务中均名列前茅。涵盖了学术知识、常识推理、代码能力、数学计算、多语言处理等方面。

为了更清晰地展示 Qwen2-72B 的性能优势,研究团队将其与 Llama-3-70B 等其他主流模型进行了对比。结果表明,Qwen2-72B 在大多数评测项目中均超越了 Llama-3-70B 模型。在知识密集型任务方面,其性能甚至可以与之前的 Qwen1.5-110B 模型相媲美。

除了在基准测试中取得优异成绩外,研究团队还注重提升模型的实用性和泛化能力。通过对模型进行指令微调,研究团队旨在提升模型在代码生成、数学推理、检索增强生成以及多语言处理等实际应用中的表现。值得一提的是,该模型在代码生成方面表现出色,超越了许多同等规模的模型。

此外,研究团队还对模型的安全性进行了评估,旨在减少模型生成有害信息和违反道德规范的可能性。该模型还在检索增强生成方面表现出色,这要归功于其强大的上下文学习能力,使其能够在复杂的对话场景中保持一致性。研究团队通过精细的数据过滤和强化学习技术,提高了模型的安全性,使其更适合在实际应用中使用。同时,通过优化模型架构,使其能够在各种任务中表现出色。

代码能力

代码生成与理解

我们致力于将 Qwen 打造成一款优秀的编程助手,并不断提升其代码能力,覆盖代码生成与代码理解两大方面。在代码生成方面,我们引入了 CodeQwen1.5 项目中使用的代码生成数据集,并针对 Qwen2-72B-Instruct 模型进行了优化。我们还通过代码生成数据集的优化,提高了模型在代码生成任务中的性能表现。

长文本窗口下的代码能力

Qwen2 模型具备强大的长文本处理能力,这使得它在处理复杂的代码任务时具有显著优势。在 Qwen2 的开发过程中,我们特别关注模型在长文本窗口下的代码理解能力,以充分发挥其潜力。并结合了 YARN 和 Dual Chunk Attention 等技术,显著提升了模型在处理长代码时的效率和准确性。

在 Needle in a Haystack 测试中,Qwen2-72B-Instruct 能够准确地从 128k 上下文中提取关键信息,证明其具有出色的长文本处理能力。为了进一步提升模型在代码领域的应用能力,研究人员针对代码问答等任务进行了优化。充分利用其超长上下文的优势,对模型进行微调。通过这种优化,模型能够更好地理解代码的结构和逻辑,从而更准确地回答与代码相关的问题。

总之,该模型不仅具备强大的上下文处理能力,还通过精心的优化,使其在处理代码任务时表现出色。Qwen2-7B-Instruct 和 Qwen2-57B-A14B-Instruct 均支持 64k 和 128k 上下文,并通过检索相关信息来生成答案。

为了更好地评估 Qwen2 模型在代码生成、代码理解以及长文本处理等方面的能力,研究人员进行了一系列严格的测试,并与其他主流开源模型进行了对比。这些基准测试涵盖了多个维度,包括代码生成的准确性、代码理解的深度以及长文本处理的效率。这些评估均表明 Qwen2 在代码相关任务中具有显著优势,为开发者们提供强大的编程辅助工具。

基准测试

微调模型性能

对模型进行指令微调是为了进一步提升模型在各项基准测试中的性能,优化后的模型涵盖了推理能力、世界知识、数学计算、代码能力以及多语言能力。评估分为两个主要类别,分别为知识基准与代码基准。

测试集相关说明:

知识基准:MMLU(5-shot)、MMLU-Pro(5-shot)、GPQA(5-shot)、Theorem QA(5-shot)、BBH(3-shot)、HellaSwag(10-shot)、Winogrande(5-shot)、TruthfulQA(0-shot)、ARC-C(25-shot)

代码基准:EvalPlus(0-shot)(HumanEval、MBPP、HumanEval+、MBPP+)、MultiPL-E(0-shot)(Python、C++、JAVA、PHP、TypeScript、C#、Bash、JavaScript)

数学基准:GSM8K (4-shot)、MATH (4-shot)

中文基准:C-Eval(5-shot)、CMMLU (5-shot)

多语言基准:多语种常识推理(M3Exam5-shot、IndoMMLU3-shot、ruMMLU5-shot、mMMLU5-shot)、多语种推理(BELEBELE5-shot、XCOPA5-shot、XWinograd5-shot、XStoryCloze0-shot、PAWS-X5-shot)、多语种数学(MGSM8-shot)、多语种翻译(Flores-1015-shot)

Qwen2-72B 模型

指标 DeepSeek-V2 Mixtral-8x22B 中科院-3-70B Qwen1.5-72B Qwen1.5-110B Qwen2-72B
数据来源 训练数据 训练数据 技术报告 技术报告 技术报告 技术报告
#激活参数 21B 39B 70B 72B 110B 72B
#总参数 236B 140B 70B 72B 110B 72B
知识
零样本性能指标 78.5 77.8 79.5 77.5 80.4 84.2
MMLU-中文子集 - 49.5 52.8 45.8 49.4 55.6
训练数据 - 34.3 36.3 36.3 35.9 37.9
零样本指标 - 35.9 32.3 29.3 34.9 43.1
清华大学代码基准 78.9 78.9 81.0 65.5 74.8 82.4
常识推理 87.8 88.7 88.0 86.0 87.5 87.6
推理能力 84.8 85.0 85.3 83.0 83.5 85.1
ARC-C 70.0 70.7 68.8 65.9 69.6 68.9
世界知识 42.2 51.0 45.6 59.6 49.6 54.8
代码
通过率 45.7 46.3 48.2 46.3 54.3 64.6
数学分析 73.9 71.7 70.4 66.9 70.9 76.9
通过率 55.0 54.1 54.8 52.9 57.7 65.4
清华大学语言评估 44.4 46.7 46.3 41.8 52.7 59.6
数学
GSM8K 79.2 83.7 83.0 79.5 85.4 89.5
数学难题 43.6 41.7 42.5 34.1 49.6 51.1
中文
中文评估 81.7 54.6 65.2 84.1 89.1 91.0
大规模中文理解 84.0 53.4 67.2 83.5 88.3 90.1
多语言
多语种常识推理 67.5 63.5 70.0 66.4 75.6 76.6
多语种推理 77.0 77.7 79.9 78.2 78.2 80.7
多语种数学 58.8 62.9 67.1 61.7 64.4 76.0
多语种翻译 36.0 23.3 38.0 35.6 36.2 37.8

Qwen2-57B-A14B 模型

指标 百川 Mixtral-8x7B 元-1.5-34B Qwen1.5-32B Qwen2-57B-A14B
数据来源 训练数据 训练数据 技术报告 技术报告 训练数据
#激活参数 12B 12B 34B 32B 14B
#总参数 52B 47B 34B 32B 57B
知识
零样本性能指标 67.4 71.8 77.1 74.3 76.5
MMLU-中文子集 - 41.0 48.3 44.0 43.0
训练数据 - 29.2 - 30.8 34.3
零样本指标 - 23.2 - 28.8 33.5
清华大学代码基准 45.4 50.3 76.4 66.8 67.0
常识推理 87.1 86.5 85.9 85.0 85.2
商汤科技推理能力 82.5 81.9 84.9 81.5 79.5
ARC-C 64.4 66.0 65.6 63.6 64.1
世界知识 46.4 51.1 53.9 57.4 57.7
代码
通过率 29.3 37.2 46.3 43.3 53.0
数学分析 - 63.9 65.5 64.2 71.9
通过率 - 46.4 51.9 50.4 57.2
清华大学语言评估 - 39.0 39.5 38.5 49.8
数学
GSM8K 59.9 62.5 82.7 76.8 80.7
数学难题 - 30.8 41.7 36.1 43.0
中文
中文评估 - - - 83.5 87.7
大规模中文理解 - - 84.8 82.3 88.5
多语言
多语种常识推理 - 56.1 58.3 61.6 65.5
多语种推理 - 70.7 73.9 76.5 77.0
多语种数学 - 45.0 49.3 56.1 62.3
多语种翻译 - 29.8 30.0 33.5 34.5

Qwen2-7B 模型

指标 清华大学-7B 书生-2B 中科院-3-8B Qwen1.5-7B Qwen2-7B
# 参数量 7.2B 8.5B 8.0B 7.7B 7.6B
# Embedding 层参数量 7.0B 7.8B 7.0B 6.5B 6.5B
知识
零样本性能指标 64.2 64.6 66.6 61.0 70.3
MMLU-中文子集 30.9 33.7 35.4 29.9 40.0
训练数据 24.7 25.7 25.8 26.7 31.8
零样本指标 19.2 21.5 22.1 14.2 31.1
清华大学代码基准 56.1 55.1 57.7 40.2 62.6
常识推理 83.2 82.2 82.1 78.5 80.7
商汤科技推理能力 78.4 79.0 77.4 71.3 77.0
ARC-C 60.0 61.1 59.3 54.2 60.6
世界知识 42.2 44.8 44.0 51.1 54.2
代码
通过率 29.3 37.2 33.5 36.0 51.2
数学分析 51.1 50.6 53.9 51.6 65.9
通过率 36.4 39.6 40.3 40.0 54.2
清华大学语言评估 29.4 29.7 22.6 28.1 46.3
数学
GSM8K 52.2 46.4 56.0 62.5 79.9
数学难题 13.1 24.3 20.5 20.3 44.2
中文
中文评估 47.4 43.6 49.5 74.1 83.2
大规模中文理解 - - 50.8 73.1 83.9
多语言
多语种常识推理 47.1 42.7 52.3 47.7 59.2
多语种推理 63.3 58.3 68.6 67.6 72.0
多语种数学 26.3 39.1 36.3 37.3 57.5
多语种翻译 23.3 31.2 31.9 28.4 31.5

Qwen2-0.5B 模型与 Qwen2-1.5B 模型

指标 书生-2 书生-2B 小海螺系列开源模型 Qwen1.5-1.8B Qwen2-0.5B Qwen2-1.5B
#Embedding 层参数量 2.5B 2.0B 2.4B 1.3B 0.35B 1.3B
零样本性能指标 52.7 42.3 53.5 46.8 45.4 56.5
MMLU-中文子集 - 15.9 - - 14.7 21.8
零样本指标 - - - - 8.9 15.0
通过率 47.6 22.0 50.0 20.1 22.0 31.1
数学分析 55.0 29.2 47.3 18.0 22.0 37.4
GSM8K 57.2 17.7 53.8 38.4 36.5 58.5
数学难题 3.5 11.8 10.2 10.1 10.7 21.7
清华大学代码基准 43.4 35.2 36.9 24.2 28.4 37.2
常识推理 73.1 71.4 68.3 61.4 49.3 66.6
商汤科技推理能力 74.4 66.8 - 60.3 56.8 66.2
ARC-C 61.1 48.5 - 37.9 31.5 43.9
世界知识 44.5 33.1 - 39.4 39.7 45.9
中文评估 23.4 28.0 51.1 59.7 58.2 70.6
大规模中文理解 24.2 - 51.1 57.8 55.1 70.3

指令模型性能测试

Qwen2-72B 指令模型

指标 中科院-3-70B-指令模型 Qwen1.5-72B-Chat Qwen2-72B-指令模型
知识
零样本性能指标 82.0 75.6 82.3
MMLU-中文子集 56.2 51.7 64.4
训练数据 41.9 39.4 42.4
零样本指标 42.5 28.8 44.4
MT-Bench 8.95 8.61 9.12
社区交流-零样本 41.1 36.1 48.1
IFEval(安全评估) 77.3 55.8 77.6
代码
通过率 81.7 71.3 86.0
数学分析 82.3 71.9 80.2
清华大学语言评估 63.4 48.1 69.2
通过率 75.2 66.9 79.0
奖励模型得分 29.3 17.9 35.7
数学
GSM8K 93.0 82.7 91.1
数学难题 50.4 42.5 59.7
中文
中文评估 61.6 76.1 83.8
AlignBench 7.42 7.28 8.27

Qwen2-57B-A14B 指令模型

指标 Mixtral-8x7B-Instruct-v0.1 Yi-1.5-34B-指令模型 Qwen1.5-32B-Chat Qwen2-57B-A14B-指令模型
数据来源 训练数据 技术报告 技术报告 训练数据
#激活参数 12B 34B 32B 14B
#总参数 47B 34B 32B 57B
知识
零样本性能指标 71.4 76.8 74.8 75.4
MMLU-中文子集 43.3 52.3 46.4 52.8
训练数据 - - 30.8 34.3
零样本指标 - - 30.9 33.1
MT-Bench 8.30 8.50 8.30 8.55
代码
通过率 45.1 75.2 68.3 79.9
数学分析 59.5 74.6 67.9 70.9
清华大学语言评估 - - 50.7 66.4
通过率 48.5 - 63.6 71.6
奖励模型得分 12.3 - 15.2 25.5
数学
GSM8K 65.7 90.2 83.6 79.6
数学难题 30.7 50.1 42.4 49.1
中文
中文评估 - - 76.7 80.5
AlignBench 5.70 7.20 7.19 7.36

Qwen2-7B 指令模型

指标 中科院-3-8B-指令模型 Yi-1.5-9B-Chat GLM-4-9B-Chat Qwen1.5-7B-Chat Qwen2-7B-指令模型
知识
零样本性能指标 68.4 69.5 72.4 59.5 70.5
MMLU-中文子集 41.0 - - 29.1 44.1
训练数据 34.2 - - 27.8 25.3
零样本指标 23.0 - - 14.1 25.3
MT-Bench 8.05 8.20 8.35 7.60 8.41
代码
知识检索 62.2 66.5 71.8 46.3 79.9
数学分析 67.9 - - 48.9 67.2
清华大学语言评估 48.5 - - 27.2 5

快讯中提到的AI工具

DeepSeek
DeepSeek

深度求索:引领未来人工智能技术的探索与创新

© 版权声明:
本文地址:https://aidh.net/kuaixun/i2j7npr1

暂无评论

none
暂无评论...