Google子会社のDeepMindとEPFL(スイス連邦工科大学ローザンヌ校) Swiss Plasma Centerの研究者らが、核融合研究で使用するトカマク(tokamak)デバイスの制御アルゴリズムを生成する深層強化学習(RL)AIを開発した。このシステムは、シミュレータとのインタラクションを通じて制御ポリシを学習することで、実際のデバイスの制御への適用において、新たなプラズマ配位(plasma configuration)の実現を可能にしている。
システムと一連の実験については、Natureに掲載された論文に解説されている。チームはシミュレーション環境を使用して、RLとアクタ-クリティック(actor-critic)モデルの組み合わせにより、トカマクデバイスの磁気コイルを制御するフィードフォワード・ニューラルネットワークをトレーニングした。コントローラの目的は、デバイスに格納された高エネルギプラズマの形状を維持することにある。一般的なトカマクコントローラは、設計に専門的なエンジニアリング作業を必要とするが、このAIシステムは、一連の希望するプラズマ特性を与えるだけで、コントローラを自動生成することができる。DeepMindによると:
このシステムは、核融合科学を加速し、新たな配位を探求し、今後のトカマク開発を支援する可能性を秘めた、プラズマコントローラ設計の新たな方向性への期待を持たせてくれます。
核融合反応は、安価でクリーンなエネルギ源としての可能性を秘めている。反応を制御する方法を模索する科学者らは、多くの場合において、プラズマを含む可変磁場を生成する磁気コイルに囲まれた大規模なトロイダル装置である、トカマクに含まれるプラズマを研究対象とする。トカマク内のプラズマは不安定なため、コイル制御システムの設計は複雑なプロセスであると同時に、求めるプラズマ配位が変わる度に繰り返し行う必要がある。
画像出典: https://www.nature.com/articles/s41586-021-04301-9/figures/1
トカマクコントローラ設計にAIを採用するにあたって、DeepMindチームは、3ステップから構成されるプロセスを立案した。まず最初に、電流、位置、伸長(elongation)といった、プラズマのさまざまな特性に関する目標値を設定する。これらの目標値は報酬関数(reward function)に変換され、RLトレーニングで使用される。RLアルゴリズムはトカマクシミュレーション環境とインタラクションを行い、報酬関数に対して最適な制御ポリシを見付けようとする。
シミュレーション環境は通常のRL環境よりも動作が大幅に遅いので、DeepMindは、MPO(maximum a posteriori policy optimization)と呼ばれるアクタ-クリティックアルゴリズムを使用して、コントローラのポリシを最適化した。このスキームでは、クリティックがアクタのアクションに対する将来的報酬の予測を学習し、アクタがこの予測を使ってポリシを選択する。最終的にアクタは、物理的なトカマクデバイスを制御するためにリアルタイム動作する必要があるため、軽量なフィードフォワードネットワークが使用された。一方のクリティックにはそのような制約はないので、大規模なリカレントニューラルネットワーク(RNN)を使用することで、トカマクの複雑な時間ベースのダイナミクスのモデル化を可能にした。
トレーニングされたアクタモデルはその後、物理的なトカマクをコントロールするための実行形式にコンパイルされた。研究者らが典型的なプラズマ実験を一通り実施する中で、生成されたコントローラは、所定の電流、形状、位置の値を通じてプラズマを誘導した。その結果、すべての実験において、要求値を許容範囲内で維持することができたのだ。さらにコントローラは、新たなプラズマ配位の管理にも成功した。DeepMindチームによると、これらの結果は既存の制御アプローチでの実現も"おそらく可能"だが、そのようなコントローラの設計やチューニングには"多大な労力"を要するものと予想される。
研究チームのメンバで、DeepMindの科学者であるDavid Pfau氏は、開発に関するいくつかの質問にTwitter上で返答している。コントローラ設計の時間と費用の削減が主なメリットか、という質問に対して、Pfau氏は次のように応答した。
その考え方でよいと思います。新たな配位を試す毎に、制御エンジニアの作業をすべて最初からやり直す必要がなくなりますから、より多くのことを、より簡単に試すことができるのです。
DeepMindは、同社のトカマクコントローラRLトレーニングコードの一部をオープンソースとして公開しており、GitHubから入手可能である。