特斯拉Cortex AI超算集群亮相：配备5万块Nvidia H100 GPU

11个月前发布AI俱乐部

据报道，特斯拉正在扩大其在美国得克萨斯州奥斯汀的超级工厂的人工智能计算基础设施，这一举措将显著提升Cortex AI训练集群的性能。据悉，该集群是“Giga Texas”工厂的一部分，目前已拥有130个包含英伟达芯片的机架，预计到2026年将增至500个机架。

Cortex AI训练集群旨在处理超过70,000个AI训练工作负载。目前，该设施使用的计算单元包括16个计算节点，每个节点配置8个GPU。如果升级到16-20个节点，则总共将拥有约2,000个GPU，性能将提升约3%。

在7月初的一次电话会议上，特斯拉宣布其Cortex AI集群将配备“50,000个Nvidia H100 GPU，外加20,000个自研的Dojo芯片”。这意味着，特斯拉可能会在Cortex中部署多达50,000个Dojo AI训练芯片，从而减少对Nvidia GPU的依赖。

Cortex AI训练集群的目标是实现“通用人工智能”。预计在2024年初，该集群将支持特斯拉的高级驾驶辅助系统（FSD），并有望加速特斯拉自动驾驶出租车“Cybertaxi”的研发进程。此外，该集群还将用于支持Optimus人形机器人的AI训练，预计Optimus将于2025年开始有限生产，以满足特斯拉的内部需求。

Cortex AI训练集群的性能提升离不开基础设施供应商的支持。在6月份，特斯拉披露了其与基础设施供应商的合作关系，包括Supermicro提供的直接液冷解决方案。这些液冷解决方案能够支持超过500kW的机架功率，确保高性能计算环境的稳定运行。

Cortex AI训练集群代表了特斯拉在人工智能领域的持续投入。与此同时，特斯拉也在积极探索其他的AI计算解决方案，例如xAI计划部署超过100,000个Nvidia H100 GPU。为了优化计算性能，特斯拉还采用了具有100,000个节点的大规模RDMA（远程直接内存访问）网络架构，并依赖于Supermicro的计算基础设施。