GoogleのDeepMindの研究者はAgent57と呼ばれる強化学習(RL)システムを作成した。Agent57は、Arcade学習環境で57のAtari 2600ゲームすべてで人間のベンチマークを上回った。Agent57は、パッケージの中で最も難しいゲームでさえ、人間よりも優れた結果を出した最初のシステムである。
研究者たちは、arXivで発表された論文でシステムと一連の実験について説明した。Agent57は、Never Give Up(NGU)アルゴリズムに関するDeepMindによる以前のRLの取り組みに基づいて構築されている。基礎となるアーキテクチャは、トレーニングプロセス全体でさまざまなポリシーに優先順位を付ける適応メカニズムを使って、探索から活用までの一連のポリシーをエンコードするニューラルネットワークを構成する。トレーニングの安定性を高めることにより、長期的なクレジット割り当ての問題に対処するよう改善された。これらの改善により、Agent57はすべてのゲームでス、コアについてNGUよりも高い中央値を達成した。さらに、Agent57は、以前のAIシステムではまったくプレイできなかったゲームで人間のスコアを上回った。
DeepMindの研究の多くは碁などの古くからあるボードゲームやビデオゲームなどのゲームをプレイするためのAIにフォーカスを当てている。しかし、チームによれば、彼らの目標は「幅広い課題に対して優れた結果を出すシステムの開発の足がかりとしてゲームを使用する」ことである。研究者は一連のAtari 2600ゲームをRLパフォーマンスの良いベンチマークと見なしている。その理由は、各ゲームは実用的な課題を表すのに十分興味深く、ゲームパッケージ全体に一般的な課題を示すのに十分な多様性が含まれているためである。長年の研究といくつかのゲームで人間レベルのパフォーマンスを達成した最初のシステムであるDeep Q-Networksのいくつかの改善にもかかわらず、「深層強化学習エージェントはすべて、MontezumaのRevenge、Pitfall、Solaris、Skiingの4つのゲームで一貫してスコアを獲得できなかった 」。これらのゲームで成功するには、システムがRLの2つの困難な問題を解決する必要がある。それは、探索・活用問題と長期的なクレジット割り当て問題である。
探索・活用のトレードオフは、エージェントがすでに学習した戦略の選択と新しい戦略の探索の間でバランスを取る必要があるということである。PitfallやMontezuma's Revengeなどのゲームでは、報酬を得る前に、エージェントがゲームの「世界」を探索する必要がある。Agent57の前身であるNGUは、新しいゲームの状態を検出することで生成される内在する報酬を使用した。次に、探索・活用に関する一連のポリシーを学習する。Agent57は、トレーニング中に探索・活用のトレードオフを調整するマルチアームバンディットメタコントローラーを使用して、これに改良を加えた。
長期的なクレジット割り当ての問題は、エージェントが行うアクションに対する報酬が遅れると発生する。たとえば、ゲームSkiingでは、ゲームの終了までスコアがないため、システムは最初に行われたアクションの効果を簡単に学習できない。NGUに対するAgent57の改善点は、エージェントのニューラルネットワークを2つの部分に分割することである。1つはアクションに対して内在する報酬を予測することを学習し、もう1つは外来性の報酬を予測することである。研究者たちは、これがトレーニングの安定性を「大幅に」高めたことを発見した。
DeepMindチームは、Agent57のパフォーマンスを、NGU、Recurrent Replay Distributed DQN(R2D2)、MuZeroなどの他のいくつかのシステムと比較した。 MuZeroはスイート全体で最高の平均スコアと中央値スコアを持っているが、「恐ろしいほどに」に一部のゲームをプレイすることができず、それらのゲームではランダムポリシーと同等のスコアとなっている。Agent57は、最もハードな20%のゲームで最高のスコアを獲得し、すべてのゲームで人間のパフォーマンスを超える唯一のシステムである。
Agent57に関するHacker Newsのディスカッションで、1人のユーザーが述べた。
この全体的な進化は、人々が特定の問題を「解決」するために複雑さを増し続ける1980年代のエキスパートシステムにますます見えています。RLでは、エレガントなシンプルなDQNから始めましたが、新しいアルゴリズムはバンドエイドのごちゃ混ぜのように見えます。NGUは、そのままでは非常に複雑で、さまざまなパッチのその場その場のミックスのように見えます。NGUで、ことわざのkitchen sink(なんでもかんでも)を完成させるために、私たちはメタコントローラー、さらにはバンディットさえも投入しています。
DeepMindは2010年にスタートアップとして立ち上げられ、2014年にGoogleに買収された。DeepMindは、2016年に人間でもっとも上手い碁のプレイヤーの1人を打ち負かしたAlphaGo AIを開発した。