腾讯“混元-T1”推理模型在基准测试中达到与 OpenAI 的 o1 模型相匹敌水平

1个月前发布AI俱乐部
2 0 0
腾讯“混元-T1”推理模型在基准测试中达到与 OpenAI 的 o1 模型相匹敌水平的封面图

腾讯最近宣布推出其最新的大型语言模型——混元-T1,并表示该模型在推理能力上与OpenAI的最佳推理系统相媲美。据腾讯介绍,混元-T1在开发过程中高度依赖强化学习,其中高达96.7%的训练资源被用于提升模型的逻辑推理能力和与人类喜好的一致性。

在多项基准测试中,混元-T1展现出强大的性能。在测试14个学科知识的MMLU-PRO评估中,该模型取得了87.2分,仅略低于OpenAI的o1模型。在科学推理方面,混元-T1在GPQA-diamond测试中获得了69.3分。

尤其值得一提的是,腾讯强调混元-T1在数学方面的卓越表现。在MATH-500基准测试中,该模型获得了高达96.2分的成绩,仅次于Deepseek-R1。此外,该模型在代码生成(LiveCodeBench:64.9分)和高难度推理(ArenaHard:91.9分)等方面表现出色。腾讯还指出,混元-T1在多项中文任务中的准确率超过90%。

在模型训练方面,腾讯采用了课程学习的方法,逐步增加任务难度。此外,该公司还创新性地开发了自我奖励系统,利用模型的早期版本评估新版本的输出,从而推动模型性能的持续提升。

混元-T1采用了Transformer Mamba混合架构,腾讯声称在相同条件下,该架构处理长文本的速度是传统模型的两倍。目前,混元-T1已通过腾讯云对外开放,并在Hugging Face上提供了演示。

此次发布是在百度和阿里巴巴相继推出声称达到o1水平的自研模型后,中国科技巨头在AI领域展开竞争的又一重要举措。值得注意的是,阿里巴巴、百度和Deepseek都在积极实行开源战略。人工智能投资者、前谷歌中国区总裁李开复此前曾公开表示,这些中国AI模型的发展对OpenAI构成了潜在的生存威胁。

快讯中提到的AI工具

Hugging Face
Hugging Face

机器学习和人工智能技术的平台

OpenAI
OpenAI

致力于创造对全人类有益的安全 AGI

© 版权声明:
本文地址:https://aidh.net/kuaixun/pq2nsqp8

暂无评论

none
暂无评论...