对话系统

共 1 篇文章

Moonlight-16B-A3B

Moonlight-16B-A3B是Moonshot AI开发的一款创新型Mixture-of-Expert(MoE)模型,拥有160亿总参数和30亿激活参数。使用优化后的Muon优化器进行训练,计算效率为传统AdamW的两倍。在英语语言理解(MMLU)和代码生成(HumanEval)等任务中表现出...
AI工具箱9个月前
Moonlight-16B-A3B