阿里开源最强！通义千问Qwen2重磅发布

摘要：

近期，备受瞩目的开源社区迎来了 Qwen2 系列模型的发布，为大模型技术的发展注入了新的活力。这些模型包含了多 […]

近期，备受瞩目的开源社区迎来了 Qwen2 系列模型的发布，为大模型技术的发展注入了新的活力。这些模型包含了多种参数规模，以满足不同应用场景的需求，具体包括：Qwen2-0.5B、Qwen2-1.5B、Qwen2-7B、Qwen2-57B-A14B 以及 Qwen2-72B。值得一提的是，在特定基准测试中，这些模型的性能表现已超越了之前的 Qwen1.5 系列。

在模型能力方面，Qwen2 系列展现出了卓越的语言理解能力，尤其是在文本和代码处理任务中。该系列模型还能够高效地处理长文本，最长可达 128K tokens。更重要的是，大型模型（70B+ 参数）在推理、生成、知识理解等多个领域均实现了显著提升，Qwen2-72B 模型在许多综合性与专业性评测中都表现出色。

Qwen2 模型不仅性能优异，还注重模型的易用性，允许开发者在商业应用中使用，为 AI 技术的普及创造了有利条件。此外，该模型在 M-MMLU 和 MGSM 等基准测试中也展现出强大的竞争力，进一步证明了 Qwen2 系列模型的综合实力。

Qwen2 系列模型的开源发布，有助于推动人工智能领域的创新，降低了 AI 应用的门槛，让更多的开发者能够参与到 AI 技术的开发和应用中。与此同时，Qwen2 还支持多语言，能够满足不同语言环境下的需求，促进了全球 AI 技术的协同发展。

模型规格

Qwen2 系列模型包含五种不同规模的模型及变体，分别是 Qwen2-0.5B、Qwen2-1.5B、Qwen2-7B、Qwen2-57B-A14B 以及 Qwen2-72B。下面表格中展示了这些模型的详细参数信息：

参数	Qwen2-0.5B	Qwen2-1.5B	Qwen2-7B	Qwen2-57B-A14B	Qwen2-72B
# 参数量	0.49B	1.54B	7.07B	57.41B	72.71B
# Embedding 层参数量	0.35B	1.31B	5.98B	56.32B	70.21B
训练数据	预训练	预训练	预训练	预训练	预训练
指令微调	支持	支持	支持	支持	支持
上下文长度	3.2K	3.2K	128K	64K	128K

值得关注的是，Qwen1.5 模型中的 Qwen1.5-32B 和 Qwen1.5-110B 采用了 Group Query Attention（GQA）技术。这项技术能够有效提升模型在处理长文本时的效率，同时降低计算成本。此外，这些模型还使用了 tying embedding 技术，可以减少模型参数量，从而提高模型的训练效率。

在上下文长度方面，所有经过预训练的模型均支持 32K tokens 的上下文长度。为了进一步提升模型在长文本处理方面的性能，开发者们采用了 PPL（Perplexity）方法，成功将上下文长度扩展至 128K。与此同时，他们还积极改进了模型架构，大幅降低了 PPL 值。为了验证这些模型在长文本场景下的实际效果，研究人员还专门设计了一项名为 Needle in a Haystack 的测试。结果表明，Qwen2-7B-Instruct 和 Qwen2-72B-Instruct 模型均能有效处理长达 128K tokens 的上下文信息。

为了更全面地评估模型的性能，研究团队还针对语言理解能力进行了多项测试，包括通用知识、专业知识、推理能力等。这些测试涵盖了多个数据集，旨在评估模型在不同任务上的表现。通过这些评估，研究人员能够更深入地了解模型的优势与不足，为未来的模型优化提供参考。

性能表现

在评估环节中，研究团队对大型语言模型（70B+ 参数）进行了全面评测，结果显示，Qwen1.5 在多个基准测试中均表现出色。值得注意的是，Qwen2-72B 模型在多种评测任务中均名列前茅。涵盖了学术知识、常识推理、代码能力、数学计算、多语言处理等方面。

为了更清晰地展示 Qwen2-72B 的性能优势，研究团队将其与 Llama-3-70B 等其他主流模型进行了对比。结果表明，Qwen2-72B 在大多数评测项目中均超越了 Llama-3-70B 模型。在知识密集型任务方面，其性能甚至可以与之前的 Qwen1.5-110B 模型相媲美。

除了在基准测试中取得优异成绩外，研究团队还注重提升模型的实用性和泛化能力。通过对模型进行指令微调，研究团队旨在提升模型在代码生成、数学推理、检索增强生成以及多语言处理等实际应用中的表现。值得一提的是，该模型在代码生成方面表现出色，超越了许多同等规模的模型。

此外，研究团队还对模型的安全性进行了评估，旨在减少模型生成有害信息和违反道德规范的可能性。该模型还在检索增强生成方面表现出色，这要归功于其强大的上下文学习能力，使其能够在复杂的对话场景中保持一致性。研究团队通过精细的数据过滤和强化学习技术，提高了模型的安全性，使其更适合在实际应用中使用。同时，通过优化模型架构，使其能够在各种任务中表现出色。

代码能力

代码生成与理解

我们致力于将 Qwen 打造成一款优秀的编程助手，并不断提升其代码能力，覆盖代码生成与代码理解两大方面。在代码生成方面，我们引入了 CodeQwen1.5 项目中使用的代码生成数据集，并针对 Qwen2-72B-Instruct 模型进行了优化。我们还通过代码生成数据集的优化，提高了模型在代码生成任务中的性能表现。

长文本窗口下的代码能力

Qwen2 模型具备强大的长文本处理能力，这使得它在处理复杂的代码任务时具有显著优势。在 Qwen2 的开发过程中，我们特别关注模型在长文本窗口下的代码理解能力，以充分发挥其潜力。并结合了 YARN 和 Dual Chunk Attention 等技术，显著提升了模型在处理长代码时的效率和准确性。

在 Needle in a Haystack 测试中，Qwen2-72B-Instruct 能够准确地从 128k 上下文中提取关键信息，证明其具有出色的长文本处理能力。为了进一步提升模型在代码领域的应用能力，研究人员针对代码问答等任务进行了优化。充分利用其超长上下文的优势，对模型进行微调。通过这种优化，模型能够更好地理解代码的结构和逻辑，从而更准确地回答与代码相关的问题。

总之，该模型不仅具备强大的上下文处理能力，还通过精心的优化，使其在处理代码任务时表现出色。Qwen2-7B-Instruct 和 Qwen2-57B-A14B-Instruct 均支持 64k 和 128k 上下文，并通过检索相关信息来生成答案。

为了更好地评估 Qwen2 模型在代码生成、代码理解以及长文本处理等方面的能力，研究人员进行了一系列严格的测试，并与其他主流开源模型进行了对比。这些基准测试涵盖了多个维度，包括代码生成的准确性、代码理解的深度以及长文本处理的效率。这些评估均表明 Qwen2 在代码相关任务中具有显著优势，为开发者们提供强大的编程辅助工具。

基准测试

微调模型性能

对模型进行指令微调是为了进一步提升模型在各项基准测试中的性能，优化后的模型涵盖了推理能力、世界知识、数学计算、代码能力以及多语言能力。评估分为两个主要类别，分别为知识基准与代码基准。

测试集相关说明：

知识基准：MMLU（5-shot）、MMLU-Pro(5-shot)、GPQA(5-shot)、Theorem QA(5-shot)、BBH(3-shot)、HellaSwag(10-shot)、Winogrande(5-shot)、TruthfulQA(0-shot)、ARC-C(25-shot)

代码基准:EvalPlus（0-shot）(HumanEval、MBPP、HumanEval+、MBPP+)、MultiPL-E(0-shot)(Python、C++、JAVA、PHP、TypeScript、C#、Bash、JavaScript)

数学基准:GSM8K (4-shot)、MATH (4-shot)

中文基准:C-Eval（5-shot）、CMMLU (5-shot)

多语言基准:多语种常识推理（M3Exam5-shot、IndoMMLU3-shot、ruMMLU5-shot、mMMLU5-shot）、多语种推理(BELEBELE5-shot、XCOPA5-shot、XWinograd5-shot、XStoryCloze0-shot、PAWS-X5-shot)、多语种数学(MGSM8-shot)、多语种翻译(Flores-1015-shot)

Qwen2-72B 模型

指标	DeepSeek-V2	Mixtral-8x22B	中科院-3-70B	Qwen1.5-72B	Qwen1.5-110B	Qwen2-72B
数据来源	训练数据	训练数据	技术报告	技术报告	技术报告	技术报告
#激活参数	21B	39B	70B	72B	110B	72B
#总参数	236B	140B	70B	72B	110B	72B
知识
零样本性能指标	78.5	77.8	79.5	77.5	80.4	84.2
MMLU-中文子集	–	49.5	52.8	45.8	49.4	55.6
训练数据	–	34.3	36.3	36.3	35.9	37.9
零样本指标	–	35.9	32.3	29.3	34.9	43.1
清华大学代码基准	78.9	78.9	81.0	65.5	74.8	82.4
常识推理	87.8	88.7	88.0	86.0	87.5	87.6
推理能力	84.8	85.0	85.3	83.0	83.5	85.1
ARC-C	70.0	70.7	68.8	65.9	69.6	68.9
世界知识	42.2	51.0	45.6	59.6	49.6	54.8
代码
通过率	45.7	46.3	48.2	46.3	54.3	64.6
数学分析	73.9	71.7	70.4	66.9	70.9	76.9
通过率	55.0	54.1	54.8	52.9	57.7	65.4
清华大学语言评估	44.4	46.7	46.3	41.8	52.7	59.6
数学
GSM8K	79.2	83.7	83.0	79.5	85.4	89.5
数学难题	43.6	41.7	42.5	34.1	49.6	51.1
中文
中文评估	81.7	54.6	65.2	84.1	89.1	91.0
大规模中文理解	84.0	53.4	67.2	83.5	88.3	90.1
多语言
多语种常识推理	67.5	63.5	70.0	66.4	75.6	76.6
多语种推理	77.0	77.7	79.9	78.2	78.2	80.7
多语种数学	58.8	62.9	67.1	61.7	64.4	76.0
多语种翻译	36.0	23.3	38.0	35.6	36.2	37.8

Qwen2-57B-A14B 模型

指标	百川	Mixtral-8x7B	元-1.5-34B	Qwen1.5-32B	Qwen2-57B-A14B
数据来源	训练数据	训练数据	技术报告	技术报告	训练数据
#激活参数	12B	12B	34B	32B	14B
#总参数	52B	47B	34B	32B	57B
知识
零样本性能指标	67.4	71.8	77.1	74.3	76.5
MMLU-中文子集	–	41.0	48.3	44.0	43.0
训练数据	–	29.2	–	30.8	34.3
零样本指标	–	23.2	–	28.8	33.5
清华大学代码基准	45.4	50.3	76.4	66.8	67.0
常识推理	87.1	86.5	85.9	85.0	85.2
商汤科技推理能力	82.5	81.9	84.9	81.5	79.5
ARC-C	64.4	66.0	65.6	63.6	64.1
世界知识	46.4	51.1	53.9	57.4	57.7
代码
通过率	29.3	37.2	46.3	43.3	53.0
数学分析	–	63.9	65.5	64.2	71.9
通过率	–	46.4	51.9	50.4	57.2
清华大学语言评估	–	39.0	39.5	38.5	49.8
数学
GSM8K	59.9	62.5	82.7	76.8	80.7
数学难题	–	30.8	41.7	36.1	43.0
中文
中文评估	–	–	–	83.5	87.7
大规模中文理解	–	–	84.8	82.3	88.5
多语言
多语种常识推理	–	56.1	58.3	61.6	65.5
多语种推理	–	70.7	73.9	76.5	77.0
多语种数学	–	45.0	49.3	56.1	62.3
多语种翻译	–	29.8	30.0	33.5	34.5

Qwen2-7B 模型

指标	清华大学-7B	书生-2B	中科院-3-8B	Qwen1.5-7B	Qwen2-7B
# 参数量	7.2B	8.5B	8.0B	7.7B	7.6B
# Embedding 层参数量	7.0B	7.8B	7.0B	6.5B	6.5B
知识
零样本性能指标	64.2	64.6	66.6	61.0	70.3
MMLU-中文子集	30.9	33.7	35.4	29.9	40.0
训练数据	24.7	25.7	25.8	26.7	31.8
零样本指标	19.2	21.5	22.1	14.2	31.1
清华大学代码基准	56.1	55.1	57.7	40.2	62.6
常识推理	83.2	82.2	82.1	78.5	80.7
商汤科技推理能力	78.4	79.0	77.4	71.3	77.0
ARC-C	60.0	61.1	59.3	54.2	60.6
世界知识	42.2	44.8	44.0	51.1	54.2
代码
通过率	29.3	37.2	33.5	36.0	51.2
数学分析	51.1	50.6	53.9	51.6	65.9
通过率	36.4	39.6	40.3	40.0	54.2
清华大学语言评估	29.4	29.7	22.6	28.1	46.3
数学
GSM8K	52.2	46.4	56.0	62.5	79.9
数学难题	13.1	24.3	20.5	20.3	44.2
中文
中文评估	47.4	43.6	49.5	74.1	83.2
大规模中文理解	–	–	50.8	73.1	83.9
多语言
多语种常识推理	47.1	42.7	52.3	47.7	59.2
多语种推理	63.3	58.3	68.6	67.6	72.0
多语种数学	26.3	39.1	36.3	37.3	57.5
多语种翻译	23.3	31.2	31.9	28.4	31.5

Qwen2-0.5B 模型与 Qwen2-1.5B 模型

指标	书生-2	书生-2B	小海螺系列开源模型	Qwen1.5-1.8B	Qwen2-0.5B	Qwen2-1.5B
#Embedding 层参数量	2.5B	2.0B	2.4B	1.3B	0.35B	1.3B
零样本性能指标	52.7	42.3	53.5	46.8	45.4	56.5
MMLU-中文子集	–	15.9	–	–	14.7	21.8
零样本指标	–	–	–	–	8.9	15.0
通过率	47.6	22.0	50.0	20.1	22.0	31.1
数学分析	55.0	29.2	47.3	18.0	22.0	37.4
GSM8K	57.2	17.7	53.8	38.4	36.5	58.5
数学难题	3.5	11.8	10.2	10.1	10.7	21.7
清华大学代码基准	43.4	35.2	36.9	24.2	28.4	37.2
常识推理	73.1	71.4	68.3	61.4	49.3	66.6
商汤科技推理能力	74.4	66.8	–	60.3	56.8	66.2
ARC-C	61.1	48.5	–	37.9	31.5	43.9
世界知识	44.5	33.1	–	39.4	39.7	45.9
中文评估	23.4	28.0	51.1	59.7	58.2	70.6
大规模中文理解	24.2	–	51.1	57.8	55.1	70.3

指令模型性能测试

Qwen2-72B 指令模型

指标	中科院-3-70B-指令模型	Qwen1.5-72B-Chat	Qwen2-72B-指令模型
知识
零样本性能指标	82.0	75.6	82.3
MMLU-中文子集	56.2	51.7	64.4
训练数据	41.9	39.4	42.4
零样本指标	42.5	28.8	44.4
MT-Bench	8.95	8.61	9.12
社区交流-零样本	41.1	36.1	48.1
IFEval（安全评估）	77.3	55.8	77.6
代码
通过率	81.7	71.3	86.0
数学分析	82.3	71.9	80.2
清华大学语言评估	63.4	48.1	69.2
通过率	75.2	66.9	79.0
奖励模型得分	29.3	17.9	35.7
数学
GSM8K	93.0	82.7	91.1
数学难题	50.4	42.5	59.7
中文
中文评估	61.6	76.1	83.8
AlignBench	7.42	7.28	8.27

Qwen2-57B-A14B 指令模型

指标	Mixtral-8x7B-Instruct-v0.1	Yi-1.5-34B-指令模型	Qwen1.5-32B-Chat	Qwen2-57B-A14B-指令模型
数据来源	训练数据	技术报告	技术报告	训练数据
#激活参数	12B	34B	32B	14B
#总参数	47B	34B	32B	57B
知识
零样本性能指标	71.4	76.8	74.8	75.4
MMLU-中文子集	43.3	52.3	46.4	52.8
训练数据	–	–	30.8	34.3
零样本指标	–	–	30.9	33.1
MT-Bench	8.30	8.50	8.30	8.55
代码
通过率	45.1	75.2	68.3	79.9
数学分析	59.5	74.6	67.9	70.9
清华大学语言评估	–	–	50.7	66.4
通过率	48.5	–	63.6	71.6
奖励模型得分	12.3	–	15.2	25.5
数学
GSM8K	65.7	90.2	83.6	79.6
数学难题	30.7	50.1	42.4	49.1
中文
中文评估	–	–	76.7	80.5
AlignBench	5.70	7.20	7.19	7.36

Qwen2-7B 指令模型

指标	中科院-3-8B-指令模型	Yi-1.5-9B-Chat	GLM-4-9B-Chat	Qwen1.5-7B-Chat	Qwen2-7B-指令模型
知识
零样本性能指标	68.4	69.5	72.4	59.5	70.5
MMLU-中文子集	41.0	–	–	29.1	44.1
训练数据	34.2	–	–	27.8	25.3
零样本指标	23.0	–	–	14.1	25.3
MT-Bench	8.05	8.20	8.35	7.60	8.41
代码
知识检索	62.2	66.5	71.8	46.3	79.9
数学分析	67.9	–	–	48.9	67.2
清华大学语言评估	48.5	–	–	27.2	5 点赞 0 快讯中提到的AI工具 DeepSeek 深度求索：引领未来人工智能技术的探索与创新 © 版权声明：文章版权归作者所有，未经允许请勿转载。本文地址：https://aidh.net/kuaixun/i2j7npr1 上一篇 LMSYS排行榜更新：Gemini 1.5 Pro登顶日语、中文、法语语言模型榜首下一篇 Meta利用社交媒体帖子训练AI，欧洲用户可选择退出计划暂无评论再想想暂无评论... 复旦大学创新：RECE技术如何利用AI擦除不雅图像，使其彻底消失？ 7浏览 0点赞 1年前 Cohere发布安全AI平台North，剑指微软和谷歌！ 8浏览 0点赞 10个月前亚马逊计划于2025年投资超过1000亿美元，以加速其在人工智能领域的发展。 9浏览 0点赞 9个月前 OpenAI敦促欧洲增加对AI基础设施的投资，以提高市场竞争力 3浏览 0点赞 7个月前 PBT集团强调高质量数据对ChatGPT训练的重要性 7浏览 0点赞 2年前 SpaceX、Palantir和OpenAI强强联合，竞逐美国国防部合同，撼动传统军工巨头地位 10浏览 0点赞 11个月前融资速度迅猛！LiblibAI再获数亿投资，实现一年内四轮融资，引领AI应用赛道 4浏览 0点赞 9个月前阶跃星辰举办首届生态开放日，智能终端代理成亮点 3浏览 0点赞 9个月前热门AI工具豆包 DeepSeek 即梦AI ChatGPT 可灵AI LiblibAI-哩布哩布AI 通义千问 Runway Stability AI Claude Cursor 智谱清言 AI快讯 1117 Lovart牙膏：随手一拍，竟然能媲美商业摄影的惊艳效果！揭秘百度智能云Agent Infra如何将智能体转变为无可匹敌的生产力！这些大神的Meta论文，错过一篇就追悔莫及！安谋科技全新“周易”X3 NPU IP，FP8 AI算力狂飙至惊人80 TFLOPS！上海首例AI提示词案背后的“咒语”时代如何颠覆我们的未来！俄罗斯“胜利航空”首创人形机器人空乘，未来航空服务的颠覆者！ Grok 5推迟至2026年Q1！6万亿参数锁定AGI的未来！超节点操作系统震撼发布！openEuler引领AI时代的未来革命！李飞飞的最新长文引爆硅谷，震撼科技界的真相曝光！银河通用机器人首次破解手掌任意旋转难题，未来科技大揭秘！稚晖君最新188机器人惊艳亮相！为何他选择在发布后“阅后即焚”？百度猎户座发布即将揭晓：这葫芦里究竟藏着什么惊天秘密？标签云人工智能 OpenAI ChatGPT Midjourney AI 生成式AI AI头条大模型谷歌微软生成式人工智能大型语言模型 Meta AI模型 DeepSeek 英伟达 AI技术 Anthropic GPT-4 苹果融资 Nvidia Gemini xAI 历史AI快讯回顾 2025 年 11 月 2025 年 10 月 2025 年 9 月 2025 年 8 月 2025 年 7 月 2025 年 5 月 2025 年 4 月 2025 年 3 月 2025 年 2 月 2025 年 1 月 2024 年 12 月 2024 年 11 月 2024 年 10 月 2024 年 9 月 2024 年 8 月 2024 年 7 月 2024 年 6 月 2024 年 4 月 2024 年 3 月 2024 年 2 月 2024 年 1 月 2023 年 12 月 2023 年 11 月 2023 年 10 月 2023 年 9 月 2023 年 8 月