
去年,DeepMind与瑞士等离子体中心合作,成功运用人工智能对托卡马克内部的核聚变等离子体进行控制。最近,DeepMind发布的新研究成果表明,其在等离子体形状模拟的精确度方面取得了65%的提升,同时将学习新任务所需的训练时间减少至原来的三分之一或更短。

DeepMind的研究已成功将等离子体形状的模拟精度提高65%。
从人工智能机器人AlphaGo与围棋世界冠军李世石的对战,到人工智能程序AlphaFold在蛋白质折叠预测上的突破,再到去年利用AI控制核聚变并入选《自然》杂志,谷歌旗下的人工智能公司DeepMind已在多个关键领域应用其人工智能算法,对世界产生了深远影响。
在7月26日的声明中,DeepMind透露,已与瑞士等离子体中心合作,成功运用人工智能控制托卡马克内部的核聚变等离子体。“自此以来,我们的实验将等离子体形状的模拟精度提升了65%。”相关研究成果已于7月21日在预印本网站ArXiv上发布,论文标题为《面向托卡马克磁控制的实用强化学习》。
托卡马克是一种依靠磁约束实现受控核聚变的环形容器,中央设有一个环形真空室,外圈则缠绕着电磁线圈。通电后,托卡马克内部会生成庞大的螺旋磁场,将等离子体加热至极高温度,以实现核聚变反应。
反馈控制在托卡马克装置的运行中至关重要,控制系统通过主动管理磁线圈来抑制细长等离子体的不稳定性;此外,精确控制等离子体的电流、位置和形状,使得热排和能量管理成为可能。传统的等离子体精确控制方法依赖于对等离子体电流、形状和位置的连续闭合,但因等离子体的形状和位置无法直接测量,必须依靠磁测量进行间接的实时估计。虽然这种系统在广泛放电中已实现成功稳定,但其设计具有一定的挑战性且耗时。
近年来,强化学习逐渐成为构建实时控制系统的有效范式,并在包括等离子体磁控制领域在内的众多应用中表现出良好的效果。然而,与传统的磁约束反馈控制方法相比,强化学习仍存在明显不足。
在本次研究中,研究团队专注于提高策略的准确性和整体训练速度,从而解决强化学习方法在控制等离子体特性时面临的主要挑战。这些改进包括提升控制精度、减少稳态误差以及显著缩短学习新任务所需的时间。模拟结果表明,研究实现了等离子体形状精度提高65%的成就,同时极大减小了等离子体电流的长期偏差,学习新任务的训练时间也减少了三倍甚至更多。
研究团队指出,尽管这些成果显著降低了强化学习控制器的局限性,但在改进的空间仍然广阔。未来的研究不仅需提升模拟性能,还必须在硬件层面上与实际等离子放电的性能水平相匹配,目前模拟与硬件之间的精度差距几乎主导了所有剩余的改进潜力。此外,依然存在许多机会可进一步减少训练时间。