Googleの研究チームはこのほど、ビデオゲーム「Doom」をシミュレートできる生成AIモデル「GameNGen」に関する論文を発表した。GameNGenは、毎秒20フレーム(FPS)でゲームをシミュレートでき、人間による評価では、実際のゲームよりも好まれる頻度がわずかに低かった。
GameNGen(「ゲームエンジン」と発音する)は、オープンソースのStable Diffusion v1.4テキスト画像モデルをベースにしている。Googleはこのモデルを改良し、テキスト入力から画像を生成する代わりに、前のフレームとアクション入力(キーの押下やマウスのクリックなど)からゲームプレイのフレームを生成するようにした。大規模なトレーニングデータを作成するため、Googleは強化学習(RL)で訓練されたゲームプレイエージェントを使用し、対応するアクションとともに約900Mフレームを収集した。トレーニング後、このモデルは、プレイヤーの体力やアイテムなど、実際のゲームの複雑な状態をシミュレートし、維持できるようになった。GoogleはGameNGenを評価するため、人間の審査員にシミュレートされたゲームのビデオクリップと実際のゲームのクリップを並べて比較させた。審査員は40%の確率でシミュレートされたゲームのクリップを好んだ。Googleによれば
多くの重要な疑問が残っているが、このパラダイムが重要な利点をもたらすことを期待している。例えば、この新しいパラダイムの下でのビデオゲームの開発プロセスは、よりコストがかからず、よりアクセスしやすいものになるかもしれない。これにより、ゲームはテキストによる説明や例となる画像を通じて、開発および編集できるようになる。このビジョンのごく一部、つまり既存のゲームに修正や斬新な動作を加えることは、短期的には実現可能かもしれない。例えば、コードを記述することなく、フレームを新しいプレイ可能なレベルに変換したり、サンプル画像をもとに新しいキャラクターを作成したりできるようになるかもしれない。この新しいパラダイムの他の利点としては、フレームレートとメモリフットプリントに関する強力な保証が挙げられる。
GameNGenアーキテクチャ、画像ソース:GameNGenプロジェクトWebサイト
GameNGenに関するGoogleの研究論文は、"Doomを実行する奇妙なハードウェア"に特化したIt Runs Doomサブレディット引用している。そのサブレディットのユーザーは、GameNGenに関するディスカッション・スレッドを立ち上げ、あるユーザーはこのように記述している。
ゲームの中にいることを夢見たことはあるか?細部はぼんやりとしていて、あるべき場所にあるべきものがすべてあるわけではないが、一般的にゲームは認識できる。これがそうだ。AIは記憶から起こるべきことを思い出しているが、文字通り、自分がいるゲームについては何も知らない。ゲームのコードが何なのか、次のレベルが何なのかも知らない。Doomのゲームプレイをたくさん見ているため、ただ記憶しているだけなのだ。
Hacker Newsのユーザーもこのモデルについて議論している。あるユーザーはこう指摘している。
どうやら拡散モデルには、私が予想していたよりも多くの原因、結果、順序があるようだ。私の予想はほぼ「ゼロ」だ。Googleはここで、拡散モデルの中核として[Stable Diffusion] 1.4を使っている。これは、オープンなモデルが巨大なクラウド独占企業にとっても有用であることを思い出させてくれる。
同じユーザーは、研究者がGameNGenの開発中に発見した問題についても指摘している。 彼らは当初、モデルがゲームフレームを生成する際に、"エラーの蓄積とサンプル品質の高速劣化 "に悩まされていることに気づいた。これを修正するため、彼らはトレーニングデータにノイズを加え、モデルにノイズレベルの入力を加えた。これにより、モデルは自己回帰出力の「ノイズ除去」を学習できるようになった。
GoogleはGameNGenのコードを公開しなかったが、基礎となるオープンソースStable Diffusionのモデルの重みはHuggingfaceで公開されている。