GoogleのSEED RLが強化学習を80倍スピードアップ

原文(投稿日：2020/04/07)へのリンク

Google Brainの研究者は最近、AI強化学習向けのスケーラブルで効率的なDeep-RL（SEED RL）アルゴリズムをオープンソース化した。SEED RLは、複数のRLベンチマークで最先端の結果をより低コストで、以前のシステムより最大で80倍高速に実現する分散型アーキテクチャである。

チームは、SEED RLアーキテクチャの説明といくつかの実験結果を、2020年の学習表現に関する国際会議（ICLR）で採択された論文で公開した。この取り組みは、ニューラルネットワーク推論をGPUまたはTPUハードウェアアクセラレータを利用できる中央の学習サーバに移動することにより、既存の分散型強化学習システムのいくつかの欠点に対処するものである。DeepMind Lab環境のベンチマークでは、SEED RLは64のCloud TPUコアを使用して毎秒240万フレームのフレームレートを達成した。これは、以前の最先端システムより80倍速いレートである。この取り組みをまとめたブログ投稿で、主執筆者のLasse Espeholt氏は述べている。

SEED RLと示した結果は、強化学習が、アクセラレータを利用するという点で、ディープラーニングの残りの領域に再び追いついたことを示しています。

強化学習（RL）は、ゲームでの動きを選択するような、アクションを決定する必要があるシステムを作成するために使用されるAIの派生である。これは、例えば、テキストを英語からフランス語に翻訳するNLPシステムような、入力データを単純に変換する他のシステムとは対照的なものである。RLシステムには、トレーニングの入力として手書きのデータセットを必要としないという利点がある。代わりに、学習システムは、たとえば数百または数千のゲームをプレイすることによって、ターゲット環境と直接インタラクションを行う。Deep RLシステムにはニューラルネットワークが組み込まれており、多くの場合、Starcraftや碁などの幅広いゲームで最もうまい人間のプレイヤーを倒すことができる。

他のディープラーニングシステムと同様に、deep-RL AIはトレーニングに費用と時間がかかる可能性がある。現在の最先端の取り組みでは、システムを集中型の学習器と複数のアクターに分解することで、プロセスを高速化している。すべてのアクターと学習器は同じニューラルネットワークのコピーを持っている。アクターは環境とインタラクションを行う。ゲームをプレイするAIの場合、アクターはゲームの状態を検知し、アクターのニューラルネットワークによって選択された次のアクションを実行することによってゲームをプレイする。アクターは、経験（ゲームから感知したデータ、選択したアクション、アクションの結果）を学習器に送信し、共有ニューラルネットワークのパラメーターを更新する。アクターは定期的に学習器の最新バージョンからネットワークのコピーを更新する。アクターが環境とインタラクションを行う速度はフレームレートと呼ばれ、システムをどれだけ迅速にトレーニングできるかを示す良い指標となる。

このアーキテクチャにはいくつかの欠点がある。特に、アクターでニューラルネットワークのコピーを維持すると、通信のボトルネックが発生するし、ネットワークの推論にアクターのCPUを使用することは、計算処理のボトルネックになる。SEED RLアーキテクチャは、ネットワークトレーニングと推論の両方に集中型の学習器を使用する。これにより、ニューラルネットワークパラメーターをアクターに送信する必要がなくなり、学習器はGPUやTPUなどのハードウェアアクセラレーターを使用して、学習と推論の両方のパフォーマンスを向上させることができる。アクターは推論にリソースを使用する必要がなくなるため、問題の環境をより高いフレームレートで実行できる。このシステムは、Google Research Football環境、Arcade Learning Environment、Arcade Learning Environment, and DeepMind Lab環境でベンチマークされた。DeepMind Lab環境では、SEED RLは64クラウドTPUコアで毎秒240万フレームのフレームレート、80倍のスピードアップを実現し、一方でコストを4分の1に削減した。このシステムは、Google Research Football環境でこれまで未解決のタスク（「ハード」）を解くことができた。

Google Brainは、GoogleフェローのJeff Dean氏とスタンフォード大学の教授であるAndrew Ng氏との間でGoogle Xの共同研究として設立された。2013年、ディープラーニングのパイオニアであるGeoff Hinton氏がチームに加わった。Google Brainの研究の多くは自然言語処理（NLP）と認知作業に関するものであった。RLはDeepMindが注目していたものであり、2014年にGoogleが買収したRLスタートアップである。DeepMindは、最も碁がうまい人間のプレイヤーのうちの1人を倒したAlphaGo AIを開発した。

SEED RLのソースコードはGitHubで入手できる。

InfoQのすべての体験をアンロックして、そのメリットを最大限に活用しましょう

アカウントをお持ちでない方

Topics

Spring BootによるAPIバックエンド構築実践ガイド第2版

アーキテクチュラル・インテリジェンス – 次のAI

AIトレンドがソフトウェアチームに変革をもたらす

創造的活動：スタッフ・プラスは、「科学」というよりもむしろ「芸術」である

プラットフォーム・エンジニアリングによる開発者エクスペリエンス向上

役に立つリンク集

地域を選ぶ

この記事に星をつける

このコンテンツのトピックは AIと機械学習、データエンジニアリングです。

関連記事:

関連記事

関連スポンサーコンテンツ

特集コンテンツ一覧

もう一つのRust書き換え：OpenAIのCodex CLIをネイティブ化、NodeとTypeScriptをRustで再構築

マイクロソフトCTO、Rust Nation UKでRustの成功と課題、Rustへのコミットメントについて語る

Meta社、Rustで構築された高性能なPython型チェッカー「PyreFly」をオープンソース化

Instagram、新ランキングフレームワークで通知疲れを軽減し、エンゲージメントを向上

Uber、CacheFrontの改善で毎秒1億5000万回の読み取りを達成

Mezzalira氏のQCon London講演：「マイクロフロントエンド～設計から企業メリットと社内実装まで～」

ソフトウェアエンジニアがスタッフプラスの役割に成長する方法

スペースシャトルとOrion MPCVのソフトウェアをNASAがどのようにテストしているか

デザイナーのサポート(置換えではない)にFigmaはどうAIを使うのか

Discord、単一GPUワークフローから共有RayクラスターへのMLプラットフォーム拡張

Transformers v5、よりモジュール化され相互運用性の高いコアを導入

OpenAI、GPT-5.1モデルを発表。より高速で会話的に

Helm、6年ぶりの大型リリースでKubernetesパッケージ管理を改善

AWS、ECS Express Modeを発表。コンテナ化アプリケーションの展開を簡素化

Groupe SNCF、Talos OSとKubernetesでインフラを近代化

QCon London

QCon AI Boston

QCon San Francisco