
AI在可控核聚变领域取得新的突破!DeepMind最新研究运用强化学习算法,将等离子体形状的精确度提升了65%,为“人造太阳”的精准放电提供了清晰的指引。
可控核聚变的实现,指日可待。
经过三年的秘密研发,DeepMind去年宣布首次成功利用AI控制“托卡马克”内部的等离子体。这一重要成果发表在《Nature》期刊上。
一年后的今天,谷歌的AI团队在此领域取得了新的进展。
其最近的实验模拟中,成功提高了等离子体形状的精确度达65%。

DeepMind团队基于之前的研究,针对智能体的架构与训练流程进行了算法上的优化。
研究表明,在提高等离子体形状精确度的同时,电流的稳态误差也得到了降低。
令人振奋的是,学习新任务所需的训练时间也减少了三倍以上。
论文链接:https://arxiv.org/pdf/2307.11546.pdf
从“星际争霸”AI击败人类,到AlphaGo与李世石的对弈,再到AI在蛋白质折叠预测中的应用,DeepMind已在多个能够改变世界的领域深入探索人工智能算法。
此次DeepMind的最新实验模拟成果,为强化学习在实现精准放电方面树立了新的标杆。
这一里程碑式的进展象征着“人造太阳”的可控放电向人类获取终极能源的未来迈出了坚实的一步。

强化学习解析核聚变的奥秘
一旦人类成功掌握可控核聚变技术,将会迎来无限清洁能源的时代。
反馈控制在“托卡马克装置”的正常运行中至关重要。
控制系统会主动调整磁线圈,从而管理离子体的延展性不稳定性,防止潜在的破坏性垂直事件的发生。
如果人类能够实现对等离子体电流、位置和形状的精确控制,则还可能优化热释放和能量管理。
科学界始终在研究等离子体配置的变化如何影响这些相关变量,因此需要一个能够应对新配置及快速变化环境的高效系统。
传统上,等离子体的精确控制是通过不断形成的电流、形状和位置的闭环反馈来实现的。

在这种控制模式中,设计者事先计算出一系列前馈线圈电流,并为每个受控变量建立反馈回路。由于等离子体的形状无法直接测量,因此必须通过对磁场的实时评估进行间接推算。
尤其在等离子体形状的测量上,通常需要借助平衡重构代码进行实时估估算。
虽然现有系统成功实现了广泛的放电稳定,但其设计复杂、耗时,特别是在处理新型等离子体场景时更为显著。
值得注意的是,强化学习(RL)正逐渐成为构建实时控制系统的新范式。
2022年,DeepMind发布的一项研究在《Nature》中表明,RL设计的系统能有效实现“托卡马克磁控制”的关键功能。

该工作的核心在于,强化学习智能体通过与FGE托卡马克模拟器的互动,学习控制托卡马克配置的变量(TCV)。
智能体所学习的控制策略最终被整合入TCV控制系统,通过对TCV磁场数据的观察,向所有19个磁控线圈输出控制指令。
研究还展示了RL智能体在各种条件下的控制能力,包括对高度拉伸等离子体的管理以及“雪花”配置的调控。
此外,研究团队还展示了在真空室中同时使用两个独立等离子体来稳定“液滴”配置的新方法。

在AI控制下生成的多种不同等离子几何形状。
然而,RL方法在作为控制托卡马克等离子体的有效解决方案方面仍存在诸多限制。
在最新的研究中,DeepMind团队专注于解决三个主要挑战:
- 确定一个既可学习又能激励精确控制器性能的标量奖励函数
- 跟踪控制过程中的稳态误差
- 缩短训练时间
为此,团队提出了一种“奖励塑形”的方法,以提高控制精度。
通过向智能体提供明确的误差信号并集成这些信号来改善稳态误差问题,从而缩小传统控制器与强化学习控制器之间的精度差距。
此外,通过运用片段划分和迁移学习策略,解决了生成控制策略所需的训练时间问题。
研究团队在复杂的放电案例中采用多个启动方式,使得训练时间显著缩短。
研究还表明,当新情景与先前情景接近时,利用现有控制策略进行热启动训练是一种非常有效的方法。
总而言之,这些技术显著缩短了训练时间,提高了精确度,推动了强化学习在等离子体控制中的应用进展。
强化学习控制等离子体
在最新论文中,研究团队采用与《Nature》中相同的基本实验。
如,等离子体电阻率、归一化等离子体压力、等离子体轴安全系数)经过简化处理,使其在一个事件内保持恒定,但在两个事件之间随机采样。
研究人员随即利用最大后验优化(MPO)算法制定控制策略。
MPO依赖于两个神经网络结构:一个是用于输出当前策略的actor网络,另一个是用来近似该策略预期累积奖励的critic网络。
在与1000份FGE环境的交互过程中,智能体收集了所观察到的结果、采取的行动以及所获得的奖励。
每一步获得的奖励是根据等离子体状态与参考值中的目标值接近程度来进行评估,同时还包括避免不良等离子体状态的额外因素。
在最优控制框架与强化学习之间的直接转换中,为每个需要最小化的误差项设置对应的奖励分量,每个分量均被映射为一个标量值。
最终,这些值被合并为一个标量奖励值。
根据观察、行动与奖励的记录序列,智能体通过在正则化损失函数上进行梯度下降,交替更新策略与critic网络。更新后的actor网络参数将应用于未来的环境交互。
为适应等离子体放电,actor网络的设计限制为一个能够以10kHz频率运行的小型架构,而critic网络则只在训练阶段使用,以便充分学习环境动态。
针对实用的强化学习控制器研究,研究人员深入探讨了智能体的具体训练流程。
首先,他们讨论了通过奖励塑形来提高控制精度,其次介绍了通过积分观测来减少稳态误差的策略,以及利用“事件分段”(episode chunking)来改善现实训练时间的方案。最后,他们探讨了迁移学习在提升训练效率方面的潜力。
奖励塑形(Reward Shaping)
传统控制算法采用多种方法来最小化主动测量(或估计)的数量误差,而强化学习(RL)算法的目标则是最大化一个广义的奖励信号。
在训练过程中,这种奖励最大化的目标推动了智能体行为的演变,但在实际部署时并不计算奖励值。
在经典控制算法中,通过显式调整控制增益(例如,修改响应性或干扰抑制)及调整多输入多输出(MIMO)系统的权衡权重,可以有效提升控制器性能。
相比之下,在强化学习中,奖励函数对于学习的控制器行为至关重要。
因此,奖励函数的设计需要仔细构思,以引导控制器执行期望的行为。
本节中,研究人员探讨了调整奖励设计的方法,以促使训练得到的智能体表现出理想行为。
研究表明,通过对奖励函数的设计进行调整,能够迅速适应智能体的行为并权衡不同目标之间的关系。
此外,研究人员证实,塑形奖励函数对于形成准确的强化学习控制策略是不可或缺的。
更进一步,他们展示了在使用更新后的奖励函数继续训练时,智能体可以有效适应新的控制目标。
奖励设计概述
研究人员在之前研究的基础上,对为磁控设计的奖励函数进行了修改。
他们采用加权的SmoothMax函数来整合多个奖励组件的值。
在某些情况下,一个单独的奖励组件由多个相关的误差量构成,例如在多个控制点处的形状误差。
研究人员通过SmoothMax函数将这些误差组合为一个单一的标量奖励。
SmoothMax函数的定义如下:
众多传递给SmoothMax函数的单独组件的构建方式与经典控制器相似(如,保持等离子体电流接近期望值)。
然而,奖励组件的构建并不限于基于从传感器测量获取的数据,这为构建过程提供了额外的灵活性。
奖励组件亦可以是多模态的,例如鼓励智能体避免状态空间中不理想或建模不佳的区域。
研究人员利用SoftPlus函数获得标量奖励组件:

理论上,多个参数的选择应当近似等效,因为它们是对奖励的单调调整,不应显著影响最优策略。
然而,在实践中,研究者依赖于梯度下降法(gradient descent),而没有访问一个完美的全局优化器(global optimizer)。
在面对随机回报时,研究人员需在全局空间中进行探索。
rong>
在研究人员的初步实验中,考察了三种训练策略,旨在通过调整任务「shape_70166」中形状误差奖励部分的超参数,以期最小化形状误差。
1. 基准线:采用先前研究中设定的默认奖励参数——good = 0.005,bad = 0.05。
此参考值形成一个相对宽松的奖励函数,该设置使得奖励信号集中于较高的误差值,而且对较小误差同样提供指导信号,从而刺激提升形状控制的准确性。
2. 窄化奖励:将参数更新为good = 0和bad = 0.025。
这些参数生成了更为严格的奖励函数,奖励信号则集中在较低的误差值,甚至对小误差也给予引导性反馈,促进控制过程中的准确性提升。
3. 奖励调度(reward schedule):在训练过程中逐步调整good与bad的值以实现更为尖锐的峰值,即good = 0,bad从0.1逐渐减少至0.025,总计进行了600万次策略更新。
该调度在训练初期提供较宽的奖励区域,旨在帮助探索,随着训练进展逐渐收紧奖励函数,以推动准确性的提升。
在奖励函数演变过程中,历史数据未被重标记,但过时的数据最终会从学习智能体的回放缓冲区中消失。
以下的实验结果展示在图中,这项研究证明用于训练的奖励选择对训练智能体的最终表现具有显著影响。
通过对形状误差的关注,研究人员发现采用高度严格的静态奖励函数——窄化奖励,对最终智能体的性能具有最显著的影响。
在此简单任务中,更加精确的奖励函数为控制器提供了强烈的准确性驱动力。尽管如前所述,此类尖锐的奖励信号可能对策略发现造成影响,但本任务的目标是保持交接位置,探索并非此任务的主要挑战。由于几乎无需探索就能找到高奖励状态,因此智能体可以专注于满足严格的奖励信号。
另外,任务的简单性意味着在奖励组件之间进行准确控制时几乎不存在权衡取舍。
复杂任务的奖励塑形
研究人员随后转向测试「snowflake_to_perfect」任务,由于涉及时变目标及更多关注指标,该任务训练成本更高,奖励调整更加复杂。同时,他们试图通过奖励塑形提高X点位置的准确性。
以下是针对X点位置准确性的奖励塑形方法:
1. 基准线:采用Degrave等人之前研究使用的默认参数进行训练,其数值为good = 0.005,bad = 0.05。
2. X点微调(X-Point Fine Tuned):首先使用默认参数进行训练,随后进入第二阶段训练,使用更为严格的奖励,突出X点位置的准确性,即good = 0,bad = 0.025。
3. 窄化X点奖励(Narrow X-Point Reward):训练伊始便采用更为严格的奖励函数设置,good = 0,bad = 0.025。
4. 额外训练:在不对奖励函数进行更新的情况下开展额外训练,此措施使研究人员能够分辨更多训练与奖励函数改变所带来的影响。
研究人员对上述四种不同训练配置的性能进行了比较,结果已总结于下表中。

积分器(integrator)反馈
积分误差的近似可通过递归神经网络进行计算,然而,这种方式容易对仿真动态过度拟合。在本研究中,研究人员采用了更为简便的解决方案:并未让策略学习积分误差,而是手动计算并将其附加于前馈策略所观察到的观测集。
他们特别关注减少等离子体电流的稳态误差,以前的训练策略显现出明显的偏差,该误差很容易被计算得出。
与传统方法略有不同,研究人员向网络提供了时间的平均等离子体电流误差,定义如下:
研究人员在「shape_70166」任务中评估纳入平均误差信号的好处。在此任务中,等离子体电流和形状的参考值是恒定的,环境初始化后实际值接近期望参考值。因此,智能体的主要目标是控制稳态误差。
下图显示了使用积分器反馈训练与未使用积分器反馈训练的策略在模拟中的等离子体电流误差轨迹,每种情况下进行了三次随机运行。
7B12 CPU核心进行运算,每个典型的模拟步骤大约需时2秒,执行随机动作。
因此,生成一个包含10,000个步骤的完整实验集(episode)大约需要5小时的时间。
这意味着在最理想的情况下,即智能体在首次尝试之前已掌握最佳策略,完成训练所需的时间仍然约为5小时(以获取高质量结果为目标)。
实际上,强化学习智能体需要进行探索,以找到最佳策略,因此根据任务的复杂性,训练时间可能从几天到几周不等。
此外,研究人员的任务结构要求智能体按顺序学习相对独立的技能。例如,在“展示_x点”(showcase_xpoint)任务中,智能体必须首先使等离子体变形,接着调整其垂直位置,随后改变流动方向,最后恢复其初始形状(见图1)。研究人员发现该任务的学习过程分为两个明显的阶段(见图2a)。


初期阶段,智能体学习如何操作有限的等离子体,掌握延展、移动及保持等离子体的技巧,这一过程对应的奖励曲线从0逐渐上升至约80。
在这一阶段,智能体尝试(但未成功)产生转向形状,最终只能获得一个具有非活动X点的圆形LCFS,如图b所示。
当奖励值维持在此水平时,智能体最终成功地将等离子体转向,此时奖励值突增至接近1。
应用分块(chunking)技术于“展示_x点”任务,并通过使用两个或三个块(见图1)可显著缩短训练时间,见图2中的结果。


采用两个块的设置(橙色曲线)比基准线(蓝色曲线)表现更快。使用三个块的设置(3_chunks和3_chunks_eq_weights)不仅加速了训练进程,而且学习曲线更加平滑。
智能体在约10小时内便能达到接近满分的96分,而基准线则需要40小时。
在这里,研究人员尝试了两种不同的三块配置:参与者(actor)被平均分为相同大小的组(3_chunks_eq_weights);与每个其他块相比,整个实验集使用三倍数量的参与者。这两种设置均取得了相似的效果。
迁移学习
在减少训练时间的过程中,自然会产生一个问题:是否可以重用之前放电时训练的模型,即智能体在初始任务中积累的知识能在多大程度上有效迁移至相关的目标任务上。
研究人员对迁移学习表现进行了两种形式的考察:
1. 零样本(Zero-shot):研究人员在目标任务上运行在初始任务上学习得到的策略,无需进行任何额外的数据收集或策略参数更新。
2. 微调(Fine tuning):研究人员使用在初始任务中学习到的模型权重来初始化策略和值函数,再在新的目标任务中通过与环境的互动进行训练,并以目标任务作为奖励。这要求在两个任务中使用相同的架构(actor和critic网络)。
在这两种情况下,研究人员使用在“展示_x点”任务上训练的智能体参数作为迁移的初始参数。
在第一个实验中,研究人员分析了当参考等离子体电流被调整至新的参考水平时迁移学习的效果。
具体而言,研究人员选择了三种变化,其中目标从基准线的-150kA调整至-160kA,然后-170kA,最后为-100kA(特别是在图1中,调整参考电流发生在初始交接水平和最终降温水平之外的所有时间片)。
研究人员测试了在“展示_x点”任务上训练的策略,首先在目标任务上未进行任何额外训练,然后再允许在目标任务上进行新的训练。
零样本结果的奖励和误差如表所示,在较小的变化情况下,智能体执行良好,但在较大的变化,尤其是更显著变化时,智能体的表现不佳。

微调的结果如图a、b、c所示,微调的智能体在所有情况下均较从头开始训练的智能体更快收敛至近乎最优的策略,尽管在50单位的最大变化情况下,二者之间的差异较小。

第二个实验探讨了等离子体目标位置的变化。
具体而言,研究人员沿z轴方向将目标形状分别下移2厘米、10厘米和20厘米。对于该实验,研究人员观察到以下结果:
1. 零样本(Zero-shot):结果如表所示。
明对于2厘米的平移,迁移学习效果显著;对于10厘米平移,三个不同种子中有两个种子的效果较为有效。然而,对于较大的20厘米平移,迁移学习似乎对性能产生了不利影响。
总的来说,研究结果表明,迁移学习在当前形式下具有一定的效用,但也存在局限性。
正如预期的那样,目标任务与初始任务之间的差异越大,迁移学习的性能就越低,尤其是在零样本学习的情况下。
不过,值得注意的是,在实际运行硬件实验之前,通过模拟进行零样本评估的成本相对较低(以CPU小时为单位)。
研究人员还发现,某些类型的任务变化比其他任务更容易进行迁移学习。在他们的实验中,相对较大的等离子体电流变化似乎比大的位置变化更适合于迁移学习,这在考虑到任务的相对复杂性时是可以理解的。
未来的研究需要进一步探索哪些任务更适合于迁移学习,以及如何扩展有效迁移的范围,包括零样本学习和微调学习。
**TCV上的托卡马克放电实验**
前文仅关注使用FGE模拟器进行仿真、训练和评估控制策略。
考虑到托卡马克建模的复杂性和挑战性,必须认识到仿真中性能的提升并不一定等同于实际放电中的性能提升。
虽然更优异的仿真结果对于实际托卡马克的改进可能是必要条件,但往往并非充分条件。
如果没有额外的工作来明确缩小仿真与实际之间的差距,模型不匹配误差可能会成为一个主要问题。
对于使用强化学习获得的策略,已知其会过度拟合不完美的模拟器,这种情况尤为明显。
因此,研究人员在TCV托卡马克上对上述一些仿真改进进行了测试。
通过这种方式,研究人员可以评估当前工作的优势和局限性,并为后续改进提供方向。
**等离子体形状精度的奖励塑造**
研究人员考察了奖励塑造在两种不同配置和目标上所带来的精度改进:减少形状稳定任务中的LCFS误差,以及提高“snowflake_to_perfect”任务配置中的X点精度。
研究人员将模拟结果与TCV上的实验结果以及Degrave等人(2022)的可比实验进行了比较。与先前的研究类似,研究人员通过将演员网络(由JAX图定义)创建为共享库对象来部署控制策略,其中命令的动作是输出高斯分布的均值。
研究人员首先测试了一个控制策略,该策略通过奖励塑造部分中讨论的奖励塑造方法来减少shape_70166稳定任务中的LCFS误差。
对于这个稳定任务,研究人员使用了TCV的标准击穿过程和初始等离子体控制器。在0.45秒时,控制权移交给学习的控制策略,该策略随后在1秒的持续时间内维持固定的等离子体电流和形状。
放电后,研究人员使用LIUQE代码计算重构的平衡态。在1秒的放电过程中,研究人员以每个0.1毫秒的时间间隔计算等离子体形状的误差。研究人员比较了三个实验的精度,分别从模拟放电和TCV放电中测量形状误差:
(a) 一种在本研究之前已经存在的基线RL控制器(“Previous”);(b) 一种使用本研究中更新的训练基础设施的更新的基线代理(“Updated”);(c) 一种使用奖励塑造训练的代理,如奖励塑造部分描述的Fixed Reward。
这些运行的结果如下表所示。
**X点位置精度的奖励塑造**
接下来,研究人员将比较奖励塑造对更为复杂的“snowflake”配置的影响,如下图所示。

该策略的训练奖励经过塑造,以提高X点控制的准确性。
与稳定实验类似,等离子体是通过标准的TCV程序创建和初始控制的,在0.45秒时将控制权移交给强化学习控制器。
在这个实验中,RL训练的策略成功地建立了一个两个X点距离为34厘米的“snowflake”。
然后,该策略成功地将两个X点带到了目标距离6.7厘米的位置,接近于建立一个所谓的“完美snowflake”。
然而,在1.0278秒(即交接后的0.5778秒),等离子体因垂直不稳定性而发生破裂。
ing」方法能够有效地缩短训练时间,尤其是在TCV放电过程中检测到可能出现的「不连续性」。
研究人员实施了一项实验,使用三个块在展示配置下进行训练,其重建的平衡态时间轨迹如下面的图所示。

实验结果表明,训练过程按照预期进行,且未因「episode chunking」的使用而产生显著伪影。
这一发现证实了这种训练加速方法不会导致质量的损失。
自20世纪50年代以来,众多科学家一直致力于探索和攻克可控核聚变这一重要课题。
DeepMind的最新研究表明,通过强化学习算法显著提高了对等离子体的控制精度,并大幅缩短了新任务的训练时间。
这为未来可控核聚变的「精准放电」及能量管理奠定了基础。
在助力人类获取可持续清洁能源、改变未来能源布局方面,DeepMind再一次点亮了一盏明灯。
参考资料:
https://arxiv.org/abs/2307.11546
https://twitter.com/GoogleDeepMind/status/1684217852289601541