DeepMindのAgent57はすべてのAtari 2600ゲームで人間よりも優れた結果を出している

原文(投稿日：2020/05/05)へのリンク

GoogleのDeepMindの研究者はAgent57と呼ばれる強化学習（RL）システムを作成した。Agent57は、Arcade学習環境で57のAtari 2600ゲームすべてで人間のベンチマークを上回った。Agent57は、パッケージの中で最も難しいゲームでさえ、人間よりも優れた結果を出した最初のシステムである。

研究者たちは、arXivで発表された論文でシステムと一連の実験について説明した。Agent57は、Never Give Up（NGU）アルゴリズムに関するDeepMindによる以前のRLの取り組みに基づいて構築されている。基礎となるアーキテクチャは、トレーニングプロセス全体でさまざまなポリシーに優先順位を付ける適応メカニズムを使って、探索から活用までの一連のポリシーをエンコードするニューラルネットワークを構成する。トレーニングの安定性を高めることにより、長期的なクレジット割り当ての問題に対処するよう改善された。これらの改善により、Agent57はすべてのゲームでス、コアについてNGUよりも高い中央値を達成した。さらに、Agent57は、以前のAIシステムではまったくプレイできなかったゲームで人間のスコアを上回った。

DeepMindの研究の多くは碁などの古くからあるボードゲームやビデオゲームなどのゲームをプレイするためのAIにフォーカスを当てている。しかし、チームによれば、彼らの目標は「幅広い課題に対して優れた結果を出すシステムの開発の足がかりとしてゲームを使用する」ことである。研究者は一連のAtari 2600ゲームをRLパフォーマンスの良いベンチマークと見なしている。その理由は、各ゲームは実用的な課題を表すのに十分興味深く、ゲームパッケージ全体に一般的な課題を示すのに十分な多様性が含まれているためである。長年の研究といくつかのゲームで人間レベルのパフォーマンスを達成した最初のシステムであるDeep Q-Networksのいくつかの改善にもかかわらず、「深層強化学習エージェントはすべて、MontezumaのRevenge、Pitfall、Solaris、Skiingの4つのゲームで一貫してスコアを獲得できなかった」。これらのゲームで成功するには、システムがRLの2つの困難な問題を解決する必要がある。それは、探索・活用問題と長期的なクレジット割り当て問題である。

探索・活用のトレードオフは、エージェントがすでに学習した戦略の選択と新しい戦略の探索の間でバランスを取る必要があるということである。PitfallやMontezuma's Revengeなどのゲームでは、報酬を得る前に、エージェントがゲームの「世界」を探索する必要がある。Agent57の前身であるNGUは、新しいゲームの状態を検出することで生成される内在する報酬を使用した。次に、探索・活用に関する一連のポリシーを学習する。Agent57は、トレーニング中に探索・活用のトレードオフを調整するマルチアームバンディットメタコントローラーを使用して、これに改良を加えた。

長期的なクレジット割り当ての問題は、エージェントが行うアクションに対する報酬が遅れると発生する。たとえば、ゲームSkiingでは、ゲームの終了までスコアがないため、システムは最初に行われたアクションの効果を簡単に学習できない。NGUに対するAgent57の改善点は、エージェントのニューラルネットワークを2つの部分に分割することである。1つはアクションに対して内在する報酬を予測することを学習し、もう1つは外来性の報酬を予測することである。研究者たちは、これがトレーニングの安定性を「大幅に」高めたことを発見した。

DeepMindチームは、Agent57のパフォーマンスを、NGU、Recurrent Replay Distributed DQN（R2D2）、MuZeroなどの他のいくつかのシステムと比較した。 MuZeroはスイート全体で最高の平均スコアと中央値スコアを持っているが、「恐ろしいほどに」に一部のゲームをプレイすることができず、それらのゲームではランダムポリシーと同等のスコアとなっている。Agent57は、最もハードな20％のゲームで最高のスコアを獲得し、すべてのゲームで人間のパフォーマンスを超える唯一のシステムである。

Agent57に関するHacker Newsのディスカッションで、1人のユーザーが述べた。

この全体的な進化は、人々が特定の問題を「解決」するために複雑さを増し続ける1980年代のエキスパートシステムにますます見えています。RLでは、エレガントなシンプルなDQNから始めましたが、新しいアルゴリズムはバンドエイドのごちゃ混ぜのように見えます。NGUは、そのままでは非常に複雑で、さまざまなパッチのその場その場のミックスのように見えます。NGUで、ことわざのkitchen sink（なんでもかんでも）を完成させるために、私たちはメタコントローラー、さらにはバンディットさえも投入しています。

DeepMindは2010年にスタートアップとして立ち上げられ、2014年にGoogleに買収された。DeepMindは、2016年に人間でもっとも上手い碁のプレイヤーの1人を打ち負かしたAlphaGo AIを開発した。

InfoQのすべての体験をアンロックして、そのメリットを最大限に活用しましょう

アカウントをお持ちでない方

Topics

Spring BootによるAPIバックエンド構築実践ガイド第2版

アーキテクチュラル・インテリジェンス – 次のAI

AIトレンドがソフトウェアチームに変革をもたらす

創造的活動：スタッフ・プラスは、「科学」というよりもむしろ「芸術」である

プラットフォーム・エンジニアリングによる開発者エクスペリエンス向上

役に立つリンク集

地域を選ぶ

この記事に星をつける

このコンテンツのトピックは AIと機械学習、データエンジニアリングです。

関連記事:

関連記事

関連スポンサーコンテンツ

特集コンテンツ一覧

もう一つのRust書き換え：OpenAIのCodex CLIをネイティブ化、NodeとTypeScriptをRustで再構築

マイクロソフトCTO、Rust Nation UKでRustの成功と課題、Rustへのコミットメントについて語る

Meta社、Rustで構築された高性能なPython型チェッカー「PyreFly」をオープンソース化

Instagram、新ランキングフレームワークで通知疲れを軽減し、エンゲージメントを向上

Uber、CacheFrontの改善で毎秒1億5000万回の読み取りを達成

Mezzalira氏のQCon London講演：「マイクロフロントエンド～設計から企業メリットと社内実装まで～」

ソフトウェアエンジニアがスタッフプラスの役割に成長する方法

スペースシャトルとOrion MPCVのソフトウェアをNASAがどのようにテストしているか

デザイナーのサポート(置換えではない)にFigmaはどうAIを使うのか

Discord、単一GPUワークフローから共有RayクラスターへのMLプラットフォーム拡張

Transformers v5、よりモジュール化され相互運用性の高いコアを導入

OpenAI、GPT-5.1モデルを発表。より高速で会話的に

Helm、6年ぶりの大型リリースでKubernetesパッケージ管理を改善

AWS、ECS Express Modeを発表。コンテナ化アプリケーションの展開を簡素化

Groupe SNCF、Talos OSとKubernetesでインフラを近代化

QCon London

QCon AI Boston

QCon San Francisco