智源研究院发布全球首个万亿参数单体稠密模型Tele-FLM-1T

标签：FLM-2-52B-Instruct Tele-FLM 万亿参数模型中国电信

摘要：

合肥综合性国家科学中心人工智能研究院与中国科学技术大学合作，推出了名为TeleAI的开源项目，其中包含Tele […]

合肥综合性国家科学中心人工智能研究院与中国科学技术大学合作，推出了名为TeleAI的开源项目，其中包含Tele-FLM大语言模型。该项目近期发布了520亿参数的FLM-2-52B-Instruct模型，以及基于万亿级别tokens训练的基础大模型Tele-FLM-1T，并提供了相关的模型权重。

FLM-2-52B-Instruct模型是Tele-FLM-52B指令微调模型，它使用了高质量的指令数据集进行训练，旨在提升模型在中文任务上的性能。通过实验评估，该模型在常识推理方面表现出色。研究人员使用了100个指令微调数据集进行训练，并选择了其中3个数据集进行了额外的增强。此外，还使用了拒绝采样技术。在训练过程中，研究人员调整了batch size、学习率以及epoch等参数，并通过AlignBench进行评估。结果表明，FLM-2-52B-Instruct在中文常识推理方面，有90%的概率能够达到甚至超过GPT-4的水平。

Tele-FLM-1T是一个拥有千亿级别tokens训练的基座大模型，可用于各种下游任务。该模型基于GPT架构的decoder-only Transformer构建，并在此基础上进行了改进，包括优化了Input和Output嵌入、引入了RoPE旋转位置编码、RMSNorm和SwiGLU等技术。同时，该模型还采用了分组查询注意力和多头注意力机制，旨在提高训练效率。研究人员还对训练过程中的超参数进行了调整。

FLM-2-52B-Instruct模型下载地址：

https://huggingface.co/CofeAI/FLM-2-52B-Instruct-2407

Tele-FLM-1T模型下载地址：

https://huggingface.co/CofeAI/Tele-FLM-1T

52B +1T 模型论文地址：

https://arxiv.org/abs/2407.02783

52B指令模型论文地址：

https://arxiv.org/abs/2404.16645

快讯中提到的AI工具

GPT-4

OpenAI 发布的最新一代语言模型

文章版权归作者所有，未经允许请勿转载。

本文地址：https://aidh.net/kuaixun/4ghj2i3j

智源研究院发布全球首个万亿参数单体稠密模型Tele-FLM-1T

快讯中提到的AI工具

AI招聘官争议：标榜公平，反成最大“歧视者”，求职者如何应对？

美国参议院通过法案，严厉打击深度伪造色情制品。

暂无评论

中国电信发布千亿参数大语言模型“星辰语义”

中国电信斥资 30 亿成立人工智能科技新公司

中国电信发布全新网络大模型“启明”

热门AI工具

AI快讯

历史AI快讯回顾

智源研究院发布全球首个万亿参数单体稠密模型Tele-FLM-1T

快讯中提到的AI工具

AI招聘官争议：标榜公平，反成最大“歧视者”，求职者如何应对？

美国参议院通过法案，严厉打击深度伪造色情制品。

暂无评论

中国电信发布千亿参数大语言模型“星辰语义”

中国电信斥资 30 亿成立人工智能科技新公司

中国电信发布全新网络大模型“启明”

热门AI工具

AI快讯

标签云

历史AI快讯回顾