アレン人工知能研究所(AI2)は、2022年版のAI2-THOR再配置チャレンジを発表した。このチャレンジでは、参加者に対して、仮想ルームでオブジェクトを移動させることができる自律エージェントを設計することが要求される。このチャレンジでは、新しいデータセットや、最新リリースのAI2-THORシミュレーションプラットフォームを使った、より高速なトレーニングなど、いくつかの改善がなされている。
このチャレンジは次回のコンピュータービジョンとパターン認識に関する会議(CVPR)で、Embodied AIの研究に関するワークショップの一環として開催される。課題は2つのフェーズで構成される。最初の「ウォークスルー」では、自律エージェントがその環境内を移動し、オブジェクトの状態を観察する。2番目の「アンシャッフル」では、環境内のオブジェクトがランダムに再配置され、エージェントは変更されたオブジェクトを識別して、元の状態に戻さなければならない。AI2チームは次のように述べている。
このタスクの仕様、評価プロトコル、[このチャレンジでの]幅広い議論が、Embodied AIの健全な発展と、複雑な物理環境において、ますます長期的な目標を認識、実行、達成するインテリジェントシステム創造のサポートになることを願っています。
何人かのAI専門家は、真のAIは物理的な世界と相互作用する身体性を有するマシンによってのみ達成できると主張している。そして、AI2の研究者は、静的なデータセットによるトレーニングから学んだ表現よりも「世界との相互作用を通じて学習した表現の方が強力である」と主張している。そのような研究のほとんどは、今活用できる物理ベースのコンピューターゲームエンジンと高品質の画像レンダリングを利用して、シミュレートされた環境と相互作用する仮想エージェントに焦点を当てている。
AI2-THORは、Unity3Dゲームエンジン上に構築されたEmbodied AIの研究のためのフレームワークの1つである。AI2-THORでは、キッチンや寝室などの数百の部屋タイプと、数千の実用的なオブジェクトに基づいてシミュレートされた環境が提供される。AI2-THORの最新リリースには、GPUのクラスタを使ってエージェントをトレーニングできる「ヘッドレス」モードが含まれている。それによってトレーニング時間を大幅に短縮できる。AI2の研究者が行った実験では、パフォーマンスはクラスターのサイズに比例することが示されている。あるケースでは、トレーニング時間は4GPUでは3.5日だったが、32GPUでは10時間に短縮された。
この再配置チャレンジは「Embodied AIの研究を整理し、加速する」ための動機付けとして2020年に最初に発表された。チャレンジの最新バージョンには「簡単なエピソードと難しいエピソードの一定のバランス」を持たせるためのデータセットの更新があった。参加者は、そのデータセットでトレーニングしたエージェントモデルを評価し、メトリックをコンペのリーダーボードに送信する。AI2は、チャレンジコードに含まれているAllenAct学習フレームワークを使って、チャレンジのいくつかのベースラインモデルもトレーニングした。
AI2-THOR再配置チャレンジに加えて、CVPR Embodied AIワークショップには、AI2-THORフレームワークに基づく3つのチャレンジを含む、12のチャレンジがある。Meta AIのHabitatフレームワークに基づく4つのチャレンジと、NVIDIAのIsaac Simとスタンフォード大学のiGibsonにそれぞれ2つのチャレンジがある。このワークショップには、InfoQが昨年取り上げたMIT ThreeDWorld Transport Challengeも含まれている。ワークショップの主催者には、AI2、Meta、Google、Intel、NVIDIA、スタンフォード大学、ジョージア工科大学など、さまざまな大学や企業の研究者がいる。
Twitterのスレッドで、AI2リサーチマネージャーのRoozbeh Mottaghi氏は次のように述べている。
驚いたことに、優れている方法は、CLIPエンコーダーを使う単純なモデルです。マップや深度画像などを使う他の方法よりも優れています。さらなる革新を楽しみにしています。
AI2-THORコード、そして、再配置チャレンジ用のコードといくつかの事前トレーニング済みベースラインモデルは、GitHubから入手できる。