月之暗面三位巨星罕见发声:460万美元打假内幕大曝光,竟还调侃OpenAI!

6天前发布AI之家
2 0 0
摘要:

11月12日,月之暗面核心团队在Reddit上举行问答活动,联合创始人杨植麟回应了关于Kimi K2 Thinking模型的训练成本、性能及推理问题。他指出460万美元的训练成本并非官方数据,且团队正在开发K2的视觉-语言版本。尽管Kimi K2的推理时间较长,杨植麟表示未来会优化token效率。团队还讨论了开源的安全风险,强调开放安全技术的重要性。Kimi系列模型的技术创新和开源策略受到关注,团队对未来的信心和探索精神展现了中国AI的创新能力。

月之暗面三位巨星罕见发声:460万美元打假内幕大曝光,竟还调侃OpenAI!的封面图

11月12日,PTAG报道,月之暗面核心团队在社交平台Reddit上举办了一场问答活动,联合创始人兼CEO杨植麟等人在Kimi K2 Thinking模型发布后,积极回应了关于模型训练成本、性能评分与实际体验差距等热门话题。关于Kimi K2 Thinking模型的训练成本,尽管网络上流传为460万美元的说法,杨植麟表示这并非官方数据,因为训练成本的量化非常复杂,其中大量费用用于研究与实验。同时,他透露月之暗面正在研究K2的视觉-语言(VL)版本,这无疑展示了团队的前瞻性和创新精神。

在活动中,许多海外网友提出了尖锐的问题,例如Kimi K2 Thinking的推理长度较长以及榜单成绩与实际体验之间的矛盾。对此,杨植麟解释称,目前模型的优先考虑是绝对性能,而token效率会在后续版本中逐步改进。他信心满满地指出,随着模型通用能力的提升,这些问题都会得到解决。

值得一提的是,月之暗面在10月底开源了混合线性注意力架构Kimi Linear,首次在多种场景中超越全注意力机制,吸引了众多开发者的关注。杨植麟表示,Kimi Linear的KDA混合线性注意力模块可能会在未来的K3模型中以某种形式出现,这表明团队在技术上的持续探索与创新。

当网友询问K3的发布时间时,杨植麟幽默地回应,“在Sam价值万亿美元的数据中心建成之前。”这不仅展现了团队的轻松氛围,也反映了他们对未来的信心。对于AI浏览器的开发计划,周昕宇明确表示,创造更好的模型并不需要再包裹一层新的Chromium壳,这种直言不讳的风格为团队赢得了不少赞誉。

在谈到开源可能带来的安全风险时,杨植麟表示,开放安全对齐技术栈将有助于更多研究者在微调开源模型时保持安全性,同时他强调建立机制以确保后续工作遵循安全协议的重要性。他进一步补充道:“我们拥抱开源,因为我们相信对AGI(通用人工智能)的追求,应该带来团结,而不是分裂。”这一观点传达出团队对AI未来发展的积极态度。

在问答中,杨植麟与团队成员围绕Kimi系列模型的架构创新、训练细节、开源策略及未来规划与网友进行了深入交流。Kimi K2 Thinking模型作为最新发布的开源推理模型,自然成为了焦点。有网友表示,自己对Kimi K2 Thinking与GPT-5 Thinking的对比测试中,前者的正确率更高,但推理时间较长。对此,杨植麟表示,他们正在积极优化token的使用效率,当前版本将绝对性能放在首位,而token效率会在未来的版本中逐步提升。

针对Kimi K2 Thinking是否经过专门训练以在HLE基准测试中取得优秀成绩的质疑,杨植麟回应称,Kimi K2 Thinking在提升智能体推理能力上取得了一定进展,正在努力提升其通用能力,以便更好地应用于实际场景。

有网友好奇为何K2 Thinking能够在一次推理中保持较长的思维链,而GPT-5却无法做到。杨植麟解释道,推理时间取决于API吞吐,而推理token的数量则与模型的训练方式有关。他们在训练Kimi K2 Thinking时,倾向于使用更多的思考token以获得最佳效果。

关于Kimi K2 Thinking作为纯文本模型的选择,杨植麟表示,获得正确的视觉-语言数据和训练需要时间,因此月之暗面选择了先发布文本模型。Kimi K2的直白风格在AI界中独树一帜,受到不少网友的认可,吴育昕对此表示,这种写作风格是模型后训练数据和评估的重要组成部分。

谈及KDA,杨植麟指出,混合注意力在长输入和长输出任务上超越全注意力一直困难,KDA在各维度上展示了性能提升,特别是在长思维链的强化学习场景中,保持了高效性。周昕宇进一步解释了KDA的对比优势,称其在预训练和强化学习阶段均优于采用RoPE的完整MLA,不仅基准得分更高,还更快、更经济,使他们能够更高效地训练、部署并服务更多用户。

随着对Kimi系列模型的关注度上升,月之暗面团队显然在不断推动技术的进步与应用。针对网友对模型服务和开源的提问,杨植麟表示,Kimi在许多公司的测试中已成为主要模型,但由于一些企业的顾虑,可能会转向使用本土模型。他强调,开源有望消除部分顾虑,促进信任的建立。

在上下文长度的讨论中,杨植麟表示,月之暗面会在未来版本中增加上下文长度。对于用户希望提升上下文窗口到100万个token的建议,周昕宇回应,虽然之前尝试过,但服务成本过高,未来会重新评估这一可能性。

总体来看,月之暗面在Reddit的公开问答不仅回应了全球开发者对Kimi技术细节的浓厚兴趣,也反映出对中国AI创新能力的认可与期待。团队的积极态度和不断探索的精神,必将推动AI技术的进一步发展与应用,带来更多可能性。

© 版权声明:
本文地址:https://aidh.net/kuaixun/tto4dbun

暂无评论

none
暂无评论...