

合肥综合性国家科学中心人工智能研究院与中国科学技术大学合作,推出了名为TeleAI的开源项目,其中包含Tele-FLM大语言模型。该项目近期发布了520亿参数的FLM-2-52B-Instruct模型,以及基于万亿级别tokens训练的基础大模型Tele-FLM-1T,并提供了相关的模型权重。
FLM-2-52B-Instruct模型是Tele-FLM-52B指令微调模型,它使用了高质量的指令数据集进行训练,旨在提升模型在中文任务上的性能。通过实验评估,该模型在常识推理方面表现出色。研究人员使用了100个指令微调数据集进行训练,并选择了其中3个数据集进行了额外的增强。此外,还使用了拒绝采样技术。在训练过程中,研究人员调整了batch size、学习率以及epoch等参数,并通过AlignBench进行评估。结果表明,FLM-2-52B-Instruct在中文常识推理方面,有90%的概率能够达到甚至超过GPT-4的水平。
Tele-FLM-1T是一个拥有千亿级别tokens训练的基座大模型,可用于各种下游任务。该模型基于GPT架构的decoder-only Transformer构建,并在此基础上进行了改进,包括优化了Input和Output嵌入、引入了RoPE旋转位置编码、RMSNorm和SwiGLU等技术。同时,该模型还采用了分组查询注意力和多头注意力机制,旨在提高训练效率。研究人员还对训练过程中的超参数进行了调整。
FLM-2-52B-Instruct模型下载地址:
https://huggingface.co/CofeAI/FLM-2-52B-Instruct-2407
Tele-FLM-1T模型下载地址:
https://huggingface.co/CofeAI/Tele-FLM-1T
52B +1T 模型论文地址:
https://arxiv.org/abs/2407.02783
52B指令模型论文地址:
https://arxiv.org/abs/2404.16645
快讯中提到的AI工具

OpenAI 发布的最新一代语言模型