DeepSeek的MLA实现,轻松迁移任意大模型! 复旦大学自然语言处理实验室的博士后研究员纪焘是本文的第一作者,他的研究领域包括大模型高效推理和多模态大模型。近期发表的代表作包括首个NoPE外推HeadScale、注意力分块外推LongHeads及多视觉专家大模型MouSi,他在ACL、ICLR、EMNLP等顶级会议和期刊上发表论文超过20篇。 作... +5 智能之星2个月前