PyTorch 知名专家 Horace He 突然宣布,加入 Thinking Machines。

“在 Meta,离职时发布一张工牌照片是一种传统。遗憾的是,我无法找到我的正式工牌,因此只能用临时工牌作为替代。”
在经过四年在 Meta 从事 PyTorch 的工作后,Horace He 决定尝试新的职业发展方向,探索更广阔的领域。
在他最近的博客文章中,他阐述了他离开 PyTorch 和加入 Thinking Machines 的两个主要原因:
- 留在 PyTorch 四年的原因是什么?
- Thinking Machines 对他如此吸引的原因是什么?

完整文章链接:https://www.thonking.ai/p/why-pytorch-is-an-amazing-place-to
前 OpenAI 首席技术官、Thinking Machines 创始人 Mira Murati 第一时间发文表示,她非常激动能与 Horace 一同共事。

斯坦福 AI 实验室的教授指出,“Horace He 的离职对 Meta 来说是一个重大损失。”

PyTorch 的创始人 Soumith Chintala 也对此给予了高度评价:
“你对 PyTorch 做出的贡献,以及对 AI 领域的间接影响,将永远被低估,甚至在几年后可能会被历史抹去(这在历史上屡见不鲜)。”
“因此,我想郑重地说:你的离开对 PyTorch 项目是巨大的损失。如果没有你,PyTorch 在转向编译模式以及在生成式 AI 爆发中保持竞争力将变得无比艰难。”

那么,这位杰出的专家为何选择离开而加盟 Thinking Machines 呢?
OpenAI 与硅谷巨头们争相邀请
坦率地说,这个决定并不容易下口。
在 PyTorch 工作了近四年后,我决定离开这个团队,加入 Thinking Machines 担任创始团队工程师。
在这里,我想特别强调我所做出的选择——“加入 Thinking Machines 担任创始团队工程师”,而非“离开 PyTorch”。因为我一直(也将继续)享受在 PyTorch 的工作,并且我非常乐意再待上四年。
过去几年来,当我与人交谈时,几乎每个人对我依旧在 PyTorch 工作表示惊讶。
这并不是自夸,但也绝不是机会匮乏 —— 我曾接到来自 OpenAI、Anthropic 的职位邀请,还受到了来自 xAI、SSI、Adept、Inflection 等公司的创始工程师招聘以及其他多家知名初创公司的职位邀请。
回顾这些机会,许多本可以带来更丰富的回报,但我从未后悔留在 PyTorch。
接下来的内容,我将分享我在 PyTorch 工作这四年间的体验及其背后的原因,以及促使我加入 Thinking Machines 的动因。

在 PyTorch 的四年:快乐满满
与 PyTorch的缘分
我认为,称自己为 AI 的“忠实信徒”是相当贴切的。
自从高中时目睹 AlphaGo 比赛,并阅读了 WaitButWhy 关于 AI 的文章(尽管十年后再看未必经得起推敲),我便深信 AI 将是我一生中最重要的技术之一。
基于此,自2016年进入大学以来,我所从事的大部分工作都是围绕 AI 展开。
我选修了机器学习课程,创建了一个本科生机器学习研究社团,发表了论文,甚至我的未婚妻也是在共同进行机器学习研究时结识的。

然而,单纯从事机器学习研究让我感到几分不满。
首先,尽管我发表了论文等成果,但在当时我也对研究的意义持有疑虑。
研究中一个令人沮丧的现实是,追溯历史,99%的论文最终不会成为推动 AI 进步的主流方向。
从悲观的角度看,任何花时间研究 n-gram 模型的博士生几乎可以说是在浪费时间,因为他们的研究成果最终都将被遗忘于历史的尘埃中。
虽然不在主流方向上的论文也可能具备一定的价值(例如,指出现有方法的局限,或者为新方法提供可超越的基准),但这种疑虑始终萦绕我的心头。
其次,我始终未能很好地适应机器学习中那种“实验驱动”的工作模式 —— 我的工作风格起伏不定,有时深度思考,有时则集中进行编码。
而要成为一名优秀的机器学习实验者,需要极强的自律性 —— 这个过程是循环的:提出假设 => 运行实验 => 获取实验结果 => 提出新的假设,同时通常需要协调管理多个实验阶段。
在机器学习研究中,研究者还需面对物理资源的限制(例如 GPU ),因此要成为优秀的研究者,必须有效利用 GPU 资源进行实验。
总体而言,我最终愈发倾向于“系统”领域。
orch 结缘的故事。
### **PyTorch 对行业的影响力**
随着该领域(以及资金)在过去十年间的爆炸式增长,人们很容易忽视 PyTorch 究竟产生了多么深远的影响。
或许,追踪资金流向最直观的指标莫过于英伟达的股价,其主要受服务器 GPU 销售增长的驱动。
我个人认为,至少 75% 的这些 GPU 都在运行某种形式的 PyTorch 代码,这一推测是合理的。
这着实令人难以置信。英伟达市值增长约 3 万亿美元,而 PyTorch 在这一成就中功不可没。

不仅如此,在整个机器学习社区中,PyTorch 依然是通用的“行话”。
Papers With Code 追踪的研究论文中有 59% 使用 PyTorch(另有 29% 不使用任何机器学习框架),Hugging Face 平台上绝大多数模型(超过 90%?)都构建在 PyTorch 之上,最受欢迎的推理服务器如 vllm 和 sglang 也都是基于 PyTorch 开发的。
即便在顶尖 AI 实验室中,几乎所有使用 GPU 的公司都在使用 PyTorch。OpenAI、Mistral、Deepseek 和 Meta 主要使用 PyTorch(和 GPU)。Anthropic 也主要在 GPU 上使用 PyTorch,而 xAI(虽然在 GPU 训练上使用 Jax)也通过 sglang 使用 PyTorch 进行推理!
高中时期,我最担心的事情之一就是花费十年时间投入某个项目,最终却发现我浪费了大好时光去完善一个无人问津的东西。
而在 PyTorch 工作的最大幸运之一,便是我确信自己绝不会做这样的无用功。
### **PyTorch 对我的影响**
我的整个职业生涯(到目前为止)都在 PyTorch 度过,因此,除了 PyTorch 的整体影响外,我想聊聊我为何如此享受这里的日常工作。
* **目标共识**
创业公司最棒的事情之一是“目标共识”。由于你的大部分薪酬都与股票升值挂钩,因此“我的同事大获成功”和“我们所有人都大获成功”实为一体。
而在大型科技公司,人们的薪酬主要与个人绩效评分(和晋升)挂钩。因此,如果你开始研究一种方法,而其他人提出了一种不同的、非常成功的方法(并取代了你的方法),你的绩效评分很可能会下滑,晋升机会也会随之渺茫。
然而在 PyTorch,项目中的许多人都怀有共同的使命感——他们真心在乎 PyTorch 的整体成功及其对机器学习生态系统的影响。
我当然不会说团队中 100% 的人都是如此,但这一比例已经足够高(尤其是在资深人士中),这让工作体验变得更加愉快。
* **真正致力于开源**
Soumith(和其他领导层)在 PyTorch 营造重视开源的文化氛围方面做得非常出色。
还有许多其他项目也恰好是开源的,但你通常只能通过优先考虑内部项目来获得晋升和影响力。
PyTorch 则不然,我可以说我在这里的全部时间主要专注于开源影响力,而且我在评级和晋升方面都很成功。(当然,也有其他主要关注内部影响的同事同样非常成功)。
在其他方面,重视开源也会让整个项目更加健康。
* **不可操控的影响力**
在大型科技公司中,我不太喜欢的一种现象是我称之为“规划导向的采用模式”。这是指两位经理 / 主管 / 副总裁聚在一起,同意应该使用 X 项目(可能会淘汰 Y 项目),然后项目的采用被列入几个团队的规划路线中。
虽然这当然有其优势(在某些情况下甚至是完全必要的),但我发现以这种方式采用的项目往往差强人意。
此外,这些项目的成功常常是一种虚假繁荣——只要有某位副总裁赞助项目,它们就会继续存在,但最终人们会厌倦它,副总裁会在内部博弈中失势,或者副总裁只是改变了主意。基本上,在规划导向的开发中,最重要的环节是说服一些“关键决策者”采用你的项目。
er也表达了类似的看法。身为首席技术官,获取真实反馈的难度可想而知,因为与之交谈的每一个人都知道你可以直接影响他们的晋升与奖金。
而开源领域则提供了令人耳目一新且不可操控的真实反馈。

- 富有挑战性的技术任务
很多工程师对于无法解决有趣技术问题感到担忧,而在PyTorch中,这方面的挑战绝对不乏其例。
某些项目实现了用于机器学习的Python字节码解释器JIT(如TorchDynamo);另一些则专注于提升矩阵乘法的性能,达到光速标准;更有项目需要频繁深入研究PTX文档,或探讨符号形状推理(如sympy、z3等)等,挑战着工程师的技术能力。
在这个领域中仍有众多问题待解。大家可以思考一下加入PyTorch团队的可能性。

为何加入Thinking Machines,这四个理由或许足够
在我阐述了我为何钟情于在PyTorch工作的原因后,接下来我想探讨一下为何选择加入Thinking Machines。
更重要的是,是什么最终促使我接受这个机会?

我渴望与之共事的卓越团队
毋庸置疑,企业的成功仰赖于优质的人才。Thinking Machines的团队确实具备这样的优秀人才。
例如,包括发布“研究预览版”的研究人员John Schulman、Barrett Zoph、Luke Metz,曾在Meta、OpenAI及Character.AI等公司领导预训练工作的专家,还有在OpenAI/Mistral负责多模态项目的人才,当然还有极卓越的基础设施工程师。
此外,前OpenAI首席技术官(曾短暂担任CEO)的Mira Murati也是团队的重要一员。
然而,可能比团队的实力更令我印象深刻的是团队的友善氛围。
一个非凡且不对称的机会
作为创业公司的核心工程师,一种不公正的优势便是机会成本的不对称性。
例如,假如我作为创始工程师加入Thinking Machines,若在一年后发现我的判断失误而转投另一实验室,我的职业角色可能并不会发生太大变化!
我仍可加入一家已成立的公司,且职位可能与目前相当相似。
然而,如果我现在拒绝这个机会而一年后再考虑加入Thinking Machines,我的角色将会截然不同。
不仅仅是薪酬的变化,更为重要的是,我对于公司文化和方向的影响力将大为减少。一家公司的文化和发展方向主要由创始团队所定义,而这正是我在OpenAI或Anthropic无法获得的机会。
一种与我产生深刻共鸣的积极AI愿景
然而,Thinking Machines在追求积极AI成果的方法上,尤其是研究与产品的协同设计及开放科学,与我的理念不谋而合。
正如我之前提到的,早在高中时期我便坚信AI将是我们生活中最重要的技术。然而,这并不意味着其必然会带来最大的正面效应。

总体而言,我自认为是一个技术乐观主义者。
我的观点在于,过去一千年来人类生活的显著改善,主要得益于技术创新的推动。
在许多方面,AI可被视为历史上最具技术加速主义特质的技术——具有解决我们面临的几乎所有其他技术挑战的潜力。
因此,AI的潜在积极影响值得我们去追求。
当然,负面后果也并非不可能,而由于AI的潜在影响,所引发的不良后果相比其他技术显得更为严重。
总体来看,我将AI的潜在不良后果划分为几大类:
- 滥用:恶意利用AI实施不当行为
- 错位:善用AI的良性目的却导致AI自身犯错
- 社会影响:人在好的意愿下使用AI,AI表现也良好,却最终导致不良结果(这是我最为担忧的情况)
我如此认为的原因在于,社会普遍对滥用与错位现象具有强烈的“免疫反应”。当面临潜在有害技术时,社会会采取明确的应对措施——例如,通过对GPU进行监管或通过立法来强化安全监督,以应对因不当行为而引发的危机。
,尽管我理解其背后的理由——我对那些故弄玄虚且模棱两可的言论感到厌倦。
此外,AI 知识的意识形态和地理集中性似乎并不理想。随着 AI 专业知识越来越受到重视,绝大多数相关的秘密被集中在旧金山周边 50 英里范围内,这无疑导致了权力的不平衡及文化的单一化。
如果我们希望使 AI 的发展与人类的价值观保持一致,那么难道所有相关人才都应当聚集在旧金山吗?
### 为什么我被 Thinking Machines 的使命所吸引
Thinking Machines 的使命在广义上吸引我的主要原因有两个。
#### 1. 专注于产品与广泛的 AI 扩散
在我看来,社会向 AI 系统过渡的平稳程度是维持社会稳定性的一个重要方面。人们对我们所取得成果的过程感受,与结果同样重要。
例如,ChatGPT 并未让许多机器学习研究人员感到惊讶——他们已经见过 GPT-3 和其提示词所能做的,现在的 ChatGPT 只是一个更便捷的功能。然而,ChatGPT 确实让更多的普通人感到震撼。这是社会首次意识到最先进的大语言模型具备的多种能力,随之而来的震惊感也日趋明显。随着时间的推移,ChatGPT 在社会更广泛的层面上逐渐被接受,类似于“享乐适应”,人们对新事物的兴奋感会逐步减弱。
尽管如此,仍有许多工作待开展。即便在当今,第一次接触 ChatGPT 的普通人与那些已将 AI 深度整合至其工作流程中的人之间依旧存在显著差距。
我坚信,构建那些能协助人们合作而非完全自主的 AI 智能体产品蕴含着巨大的潜力。我想出一个有趣的方式,即“最大化劳动力而非资本的价值”。
#### 2. 开放科学与系统
如前所述,AI 系统构建知识的高度保密显然对社会发展并无益处。这不仅引发了一部分人对 AI 实验室的不满,还使得社会在这些系统基础上进行创新与发展变得更为艰难。
例如,Deepseek 最近发布的论文和代码帮助更广泛的社区更好地理解未来何种技术将具有实用价值(例如在线强化学习)。
就我个人而言,这也是我参与 PyTorch 项目的一个重要动机。优质的开源系统有助于整个生态系统的发展,使更多人能够参与到 AI 系统的构建之中。
我要强调的是,尽管开放科学与系统无疑是一个理想目标,现实中也需考虑经济因素。
在我看来,这正体现了专注于产品开发的价值所在。诸如 Meta 或谷歌等大型公司无需对其使用的具体技术保持高度保密——绝大多数核心系统与方法早已为社区广泛了解。相反,如果你的产品仅为一个输入 token 和输出 token 的 API 接口,那么你唯一的竞争优势便在于模型的具体能力。
公司文化和习惯同样至关重要。这些 AI 实验室内部可开源的内容众多,却因默认闭源的做法而未能做到这一点,改变这一现状需要论证为什么某些内容应当保持闭源。
相比之下,PyTorch 采取了截然不同的策略。我们的所有代码均为开源,路线图公之于众,一些设计会议亦向公众开放。因此,若希望某项内容为闭源,则需提供充分理由。
正如奥尔特曼所言,他认为 OpenAI 应该开源更多内容。然而,目前这并非最高优先级。
### 关于积极 AI 结果的总体思考
总体而言,我认为 Thinking Machines 关于广泛 AI 扩散及合作开放科学的使命,构成了一个极具说服力的策略,能够有效应对人工智能带来的社会影响问题。
当然,其他必要的方法(例如政策制定)同样重要,但 Thinking Machines 的使命与我个人的价值观高度契合,同时也是我认为可以贡献力量的领域。data-vmark="c57f">我能够从一开始就参与并对这家具有巨大成长潜力的公司的方向与文化发表看法。
- 我所追求的使命独特且引人注目,尤其是产品对开放科学的专注,预示着能够带来更为卓越的 AI 发展成果。
- 此外,从情感角度来看,开放科学和系统的理念使我得以继续进行在 PyTorch 工作时最热爱的活动——与他人讨论 AI 系统,并通过开源代码产生深远影响。
我之前遇到的机会几乎没有同时满足这些条件中的两个,更不用说全部四个。
在考虑这一机会时,我清楚地意识到,若连这样的机会都无法让我离开 PyTorch,那么我可能会永远留在那里。
尽管做出这个决定异常艰难,但我对此感到无比期待,希望能在 Thinking Machines 打造出一些令人兴奋的项目!
参考资料:
- https://x.com/cHHillee/status/1896973303241400704
- https://www.thonking.ai/p/why-pytorch-is-an-amazing-place-to
本文来自微信公众号:新智元(ID:AI_era),原标题《PyTorch 灵魂人物出走,被 Ilya 奥特曼抢破头!放弃大厂 offer,却选择了 ChatGPT 之母》