

深入探究人工智能模型,特别是基于Transformer架构的模型,揭示了人工智能在处理复杂任务时所面临的显著的内存限制挑战,以及对高效计算能力的需求。例如,OpenAI的GPT-3模型拥有1750亿个参数,需要大量的GPU算力支持。为解决这些难题,研究人员致力于开发能够降低大型模型训练过程中的内存占用和计算负担的技术。
本文将深入探讨一种新兴的内存优化技术。
大型AI模型的训练过程由于其庞大的参数量,往往需要消耗大量的计算资源和内存空间。这促使研究者不断探索降低显存消耗和计算复杂性的方法。GPU的内存容量限制了可以同时训练的模型大小,因此,迫切需要一种能够在保证模型性能的同时,有效降低内存需求的方案。例如,GaLore通过调整模型参数的秩来实现显著的内存节省,并且在不损失过多性能的前提下加快训练速度。该方法还能够应用于移动LTE设备上的人工智能模型,降低部署成本。因此,探索高效的显存优化和加速技术,对于推动人工智能的广泛应用至关重要。
CoMERA方法:一种通过自适应张量优化实现计算和内存高效训练的方法。
为了应对这些挑战,学术界和工业界的研究人员,包括Alexa AI和Meta的工程师们,共同开发了一种名为CoMERA(通过秩自适应张量优化实现计算和内存高效训练)的新型训练方法。该方法旨在降低训练过程中的内存占用,同时保持模型的性能。相对于传统的训练技术,CoMERA能够在减少内存使用的前提下,实现可观的加速效果。值得注意的是,CoMERA可以无缝集成到现有的训练流程中,从而优化内存使用和计算效率。通过减少激活内存和显著减少GPU的内存需求,可以在更广泛的硬件上实现更快的模型训练。该技术已经被整合到CUDA环境中,便于进一步优化GPU资源的管理,从而简化深度学习模型的开发流程。
CoMERA的核心在于通过调整张量的秩,从而实现模型训练过程中的内存优化。该方法可以显著减少用于存储激活函数的内存,从而提升训练效率。更具体地说,CoMERA允许在不牺牲模型准确性的前提下,利用更小的批量大小进行训练。
关键性能指标:
内存占用:显著降低训练过程中的内存需求。
训练效率:在降低内存占用的同时,保持甚至提升训练速度。
在一个典型的Transformer模型中,CoMERA在显著降低内存需求的同时,仅损失了43%的训练效率;而在激活内存方面,效率提升了361%。此外,相较于GaLore方法,该方法能够将显存需求降低9%,同时将模型训练速度提升2-3倍。
进一步量化CoMERA方法的性能提升:
在自然语言处理的MNLI基准测试中,CoMERA使得Transformer模型能够以更小的显存(从256MB减少到3.2MB)进行训练,从而提升了效率。在处理大规模DLRM推荐系统模型时,CoMERA将显存占用降低了99%,并且保证了7%的训练速度提升。该方法在应用于CodeBERT(一种用于代码理解的大型语言模型)时,实现了4.23倍的训练速度提升,同时减少了2倍的内存占用。这些结果突显了该方法在不同场景下的适应性和有效性。
CoMERA方法的潜在优势:
总而言之,CoMERA在保证计算性能的同时显著降低了内存需求,实现了双赢局面,使得训练大规模Transformer和深度学习模型成为可能。
通过减少模型训练过程中的内存占用和计算负担,CoMERA有望推动人工智能技术的发展,并促进边缘计算的创新。
快讯中提到的AI工具

致力于创造对全人类有益的安全 AGI