亚马逊通过深度学习助力“宝藏团队”业务发展

在亚马逊,有一支专注于搜索的团队正在运用深度学习技术,助力公司不同团队从海量数据中提取智能。这支团队名为M5搜索团队,致力于构建大型模型以支持亚马逊的机器学习(ML)应用程序。得益于亚马逊云科技的服务,M5搜索团队能够开展涵盖数百亿参数的大规模深度学习实验。该团队利用多种亚马逊云科技服务,构建、训练并部署多模态的大型机器学习模型。现如今,M5搜索团队通过整合数据,简化了大型模型的创建过程,各个亚马逊团队能够利用这些模型,引入深度学习的强大能力到他们的机器学习应用中。

深度学习赋能亚马逊各团队

作为一家拥有逾160万员工的跨国科技企业,亚马逊由多个不同的团队组成,这些团队在业务重心和优先事项上各有侧重。其中,亚马逊搜索团队致力于开发提升终端用户在亚马逊网站体验的产品和服务。亚马逊搜索应用科学及工程负责人Belinda Zeng指出:“亚马逊搜索在不同产品之间架起了桥梁,能够实现协同效应,推动业务增长。为了阐释丰富的数据集信息,我们开发了预训练模型,以利用深度学习增强亚马逊的搜索功能。”

M5搜索团队负责亚马逊的发现式学习策略,构建多模态的大型模型,支持多种语言、多种实体和多种任务的处理。该团队的工作性质在很大程度上是实验性的,需具备快速扩展实验及迅速转入生产阶段的能力,同时训练数千个模型,每个模型的参数数量均超过2亿,并在亚马逊云科技平台高效扩展基础设施。要达成这些目标并非易事,因此,M5搜索团队采用Amazon EC2作为其基础设施解决方案,该服务能够为几乎所有工作负载提供安全且可调整的计算能力。亚马逊搜索首席工程师Rejith Joseph表示:“我们选择Amazon EC2是因为它提供了海量最新的硬件资源,这些资源获取非常便利。”此外,M5搜索团队需要存储许多大型数据集,每个数据集的规模达数百TB。为满足存储需求,他们借助Amazon S3,这一对象存储服务以其行业领先的可扩展性、数据可用性、安全性和高性能著称。

每月扩展数千个训练任务

自2020年第四季度起,M5搜索团队便开始利用亚马逊云科技服务构建、训练和部署机器学习模型。截至2022年,团队借助多种亚马逊云科技服务,每月扩展至数千个训练任务,这些任务涉及多个GPU集群上的PB级数据。除了利用Amazon S3进行数据存储外,M5搜索团队还运用了Amazon FSx,这一云端文件系统具备丰富的功能与卓越的性能,能够轻松启动、运行和扩展。该团队还使用了全托管的批处理服务Amazon Batch,从而在任意规模上高效执行批处理计算任务。亚马逊搜索工程经理Roshan Makhijani表示:“通过广泛运用Amazon FSx、Amazon EC2与Amazon Batch等服务,我们显著提升了实验速度。在亚马逊云科技平台进行构建的灵活性使我们能够在不到三天的时间里扩展至新区域,只需确保新区域的硬件可用。”

自始至终,M5搜索团队与亚马逊云科技产品团队紧密合作,解决公司内的一些复杂问题。例如,数据密集型训练作业需要极大的计算资源,而跨区域计算则是接触这些资源的有效方式,但以前并没有成熟解决方案能够灵活实现跨区域计算。Belinda Zeng表示:“我们与亚马逊云科技紧密协作,开发出新功能,实现了跨区域计算,成功克服了这一挑战。”此外,随着团队数据需求的不断增长,该需求也逐渐对Amazon FSx施加了压力。通过与亚马逊云科技的合作,M5搜索团队能够解决所有性能问题,并为持续扩展奠定了基础。正因如此,M5搜索团队现有能力在一到两周内完成机器学习基础设施的扩展。

团队还开发了一种基于C++库的定制解决方案,以实现跨流媒体的数据处理,即在一个区域储存数据的同时,在另一个区域进行流式传输,而不会影响训练作业的速度。Makhijani表示:“借助Amazon S3,我们获得了所需的高吞吐量流媒体解决方案。”M5搜索团队通过选择最优的GPU、CPU以及亚马逊云科技自行设计的高性能机器学习推理芯片Amazon Inferentia,在机器学习推理过程中有效控制成本并提升性能。Joseph补充道:“不同模型在不同硬件上的吞吐量不同,硬件选型可帮助我们扩展模型架构并对多种类型的硬件进行优化,同时兼顾成本控制。”此外,团队还在EC2 UltraClusters中部署了Amazon EC2 P4d实例,这类实例由高性能计算、网络和云存储资源组成,以实现最佳的计算与通信吞吐量。

技上应用开源深度学习框架PyTorch,以简化机器学习模型的开发过程并将其部署至生产环境。具体而言,团队试验了多种PyTorch相关库,包括分布式数据并行和Amazon S3插件,以及PyTorch Profiler与完全分片数据并行等工具,以实现分布式训练。如今,亚马逊的各个部门都可以广泛利用深度学习技术。以M5搜索团队为例,他们开发了一种机器学习模型,能够有效地纠正客户在搜索时所犯的拼写错误,从而提升客户的搜索体验。Zeng表示:“机器学习的应用使得系统能够准确理解客户的真实意图,并提供多样化的相关推荐列表,这得益于我们预训练模型中丰富而详细的信息。”

持续提升效率

目前,亚马逊搜索已经具备大规模构建机器学习模型的技术能力。下一步,团队计划持续优化其全球集群,以提升生产力和使用效率。此外,团队将利用新的Amazon EC2实例来匹配不同的模型,以支持训练与推理的需求。M5搜索团队将继续与亚马逊云科技合作,优化基础设施的弹性,提升生产力,并降低训练大型模型的前期成本。Joseph表示:“通过依托亚马逊云科技不断提升效率,我们能够激发深度学习和人工智能的无限潜力,最终惠及我们的客户。”

文章中提到的AI工具

PyTorch
PyTorch

深度学习领域的强大资源平台

© 版权声明

相关AI热点

暂无评论

none
暂无评论...