Google Brainの研究者は最近、AI強化学習向けのスケーラブルで効率的なDeep-RL(SEED RL)アルゴリズムをオープンソース化した。SEED RLは、複数のRLベンチマークで最先端の結果をより低コストで、以前のシステムより最大で80倍高速に実現する分散型アーキテクチャである。
チームは、SEED RLアーキテクチャの説明といくつかの実験結果を、2020年の学習表現に関する国際会議(ICLR)で採択された論文で公開した。この取り組みは、ニューラルネットワーク推論をGPUまたはTPUハードウェアアクセラレータを利用できる中央の学習サーバに移動することにより、既存の分散型強化学習システムのいくつかの欠点に対処するものである。DeepMind Lab環境のベンチマークでは、SEED RLは64のCloud TPUコアを使用して毎秒240万フレームのフレームレートを達成した。これは、以前の最先端システムより80倍速いレートである。この取り組みをまとめたブログ投稿で、主執筆者のLasse Espeholt氏は述べている。
SEED RLと示した結果は、強化学習が、アクセラレータを利用するという点で、ディープラーニングの残りの領域に再び追いついたことを示しています。
強化学習(RL)は、ゲームでの動きを選択するような、アクションを決定する必要があるシステムを作成するために使用されるAIの派生である。これは、例えば、テキストを英語からフランス語に翻訳するNLPシステムような、入力データを単純に変換する他のシステムとは対照的なものである。RLシステムには、トレーニングの入力として手書きのデータセットを必要としないという利点がある。代わりに、学習システムは、たとえば数百または数千のゲームをプレイすることによって、ターゲット環境と直接インタラクションを行う。Deep RLシステムにはニューラルネットワークが組み込まれており、多くの場合、Starcraftや碁などの幅広いゲームで最もうまい人間のプレイヤーを倒すことができる。
他のディープラーニングシステムと同様に、deep-RL AIはトレーニングに費用と時間がかかる可能性がある。現在の最先端の取り組みでは、システムを集中型の学習器と複数のアクターに分解することで、プロセスを高速化している。すべてのアクターと学習器は同じニューラルネットワークのコピーを持っている。アクターは環境とインタラクションを行う。ゲームをプレイするAIの場合、アクターはゲームの状態を検知し、アクターのニューラルネットワークによって選択された次のアクションを実行することによってゲームをプレイする。アクターは、経験(ゲームから感知したデータ、選択したアクション、アクションの結果)を学習器に送信し、共有ニューラルネットワークのパラメーターを更新する。アクターは定期的に学習器の最新バージョンからネットワークのコピーを更新する。アクターが環境とインタラクションを行う速度はフレームレートと呼ばれ、システムをどれだけ迅速にトレーニングできるかを示す良い指標となる。
このアーキテクチャにはいくつかの欠点がある。特に、アクターでニューラルネットワークのコピーを維持すると、通信のボトルネックが発生するし、ネットワークの推論にアクターのCPUを使用することは、計算処理のボトルネックになる。SEED RLアーキテクチャは、ネットワークトレーニングと推論の両方に集中型の学習器を使用する。これにより、ニューラルネットワークパラメーターをアクターに送信する必要がなくなり、学習器はGPUやTPUなどのハードウェアアクセラレーターを使用して、学習と推論の両方のパフォーマンスを向上させることができる。アクターは推論にリソースを使用する必要がなくなるため、問題の環境をより高いフレームレートで実行できる。このシステムは、Google Research Football環境、Arcade Learning Environment、Arcade Learning Environment, and DeepMind Lab環境でベンチマークされた。DeepMind Lab環境では、SEED RLは64クラウドTPUコアで毎秒240万フレームのフレームレート、80倍のスピードアップを実現し、一方でコストを4分の1に削減した。このシステムは、Google Research Football環境でこれまで未解決のタスク(「ハード」)を解くことができた。
Google Brainは、GoogleフェローのJeff Dean氏とスタンフォード大学の教授であるAndrew Ng氏との間でGoogle Xの共同研究として設立された。2013年、ディープラーニングのパイオニアであるGeoff Hinton氏がチームに加わった。Google Brainの研究の多くは自然言語処理(NLP)と認知作業に関するものであった。RLはDeepMindが注目していたものであり、2014年にGoogleが買収したRLスタートアップである。DeepMindは、最も碁がうまい人間のプレイヤーのうちの1人を倒したAlphaGo AIを開発した。
SEED RLのソースコードはGitHubで入手できる。