

在2024年的AWS re:Invent大会上,亚马逊云服务(AWS)宣布推出基于Trainium2芯片的Amazon Elastic Compute Cloud(EC2)实例,旨在降低训练成本。据称,这些实例在训练深度学习模型时,相比于同类的GPU加速EC2实例,能够实现30-40%的成本节约。AWS机器学习部门的副总裁表示:“我们致力于为客户提供基于Trainium2构建的Amazon EC2 Trn2实例。”
为了支持Trn2实例,AWS推出了Trn2 Ultra Servers,它们采用了互联技术,可以共同运行单个Trainium3 AI加速器。Trn2实例配备了16个Trainium2加速器,能够提供高达20.8petaflops的算力,适合用于训练大型语言模型(LLM)。
Trn2UltraServers通过将多个Trn2实例连接在一起,形成一个单一的计算单元,从而提供高达83.2petaflops的综合算力,显著提升了大规模工作负载的处理能力。UltraServers最多可以集成64个Trainium2加速器,从而扩展了在模型训练和推理中实现高性能的潜力。AWS方面称:“Trainium2实例和Trn2UltraServers的推出,旨在助力客户以更低的成本实现卓越的AI性能。”
AWS还与Anthropic展开合作,共同开发代号为Project Rainier的新一代AI模型训练基础设施,该项目将采用Trainium2加速器。Anthropic计划利用这些资源,进一步开发和优化其旗舰AI助手Claude,并借助Trainium2的强大性能来加速其发展。
与此同时,Databricks和Hugging Face等公司也纷纷与AWS合作,以期利用Trainium的经济效益来推动其人工智能应用的发展和创新。Databricks已着手利用Trainium2在Mosaic AI模型上进行训练,而Hugging Face则致力于利用Trainium2为客户提供AI模型构建和部署服务。
包括Adobe、Poolside在内的诸多公司,均已开始体验Trainium2所带来的益处。例如,Adobe正在使用Trainium2来加速其Firefly生成式AI模型的开发,从而缩短内容创建周期,并提升整体效率。“Poolside已观察到,使用Trainium2后,训练成本降低了高达40%”,该公司相关负责人透露。“得益于Trainium2,我们得以在更短的时间内,以更低的成本构建新一代AI应用。”
展望未来,AWS还计划推出Trainium3加速器,该加速器的性能预计将比前代产品提升3倍。基于Trainium3的UltraServers计划于2025年面市,届时有望在算力方面超越Trn2UltraServers。
为了简化Trainium的使用流程,AWS发布了Neuron SDK,这是一个全面的软件开发工具包,旨在帮助开发者更轻松地在Trainium加速器上构建和部署AI应用。该SDK支持JAX和PyTorch等主流框架,方便开发者利用现有代码库,并在Trainium上实现卓越的性能。
总而言之,Trn2实例目前已在美国东部(弗吉尼亚北部)区域可用,旨在为用户提供经济高效的AI算力。UltraServers预计不久后也将推出。
要点:
✨ AWS的Trainium2实例与同类GPU实例相比,训练成本降低30-40%。
💡 Trn2UltraServers通过互联技术实现更强的算力,适用于大规模AI模型训练。
🚀 AWS与Anthropic合作,利用Trainium加速AI模型开发,共同推动AI创新。