DeepMindのAlphaStar AI プログラムが最近、StarCraftの2人のトッププロプレイヤーに5-0で勝利した。
DeepMindチームはStarCraft II-をプレイするAlphaStarと呼ばれるAIプログラムについて書いている。AIプログラムは2人のハイランクのプロプレイヤーと対戦し、双方に5-0で勝利した。研究者は2009年からStarCraft用のAIを開発しているが、年に1度の対人試合では”最強のボット[でさえも]現在では人間のアマチュアレベルである”。
AIプログラムにリアルタイムストラテジ(RTS)ゲームを教えるのは、いくつかの理由により困難である。まず、チェスや碁のような古典的なストラテジゲームと違い、プレイヤーはゲーム全体を見渡すことが一切できない。アクションの効果が出るまで長い時間が掛かり、プレイヤーはターンごとにひとつのアクションを起こすのではなく、リアルタイムに、継続的にアクションを取らなければならない。また、ゲームのアクションスペースがはるかに広い:明確に定義された合法なセットを作る一握りの”ピース”ではなく、StarCraftゲームにはグルーピングや階層して管理できる何十もの建物やユニットがある。
2017年、DeepMindはStarCraftの生みの親であるBlizzard Entertainmentとのパートナーシップについてブログ記事を公開した。ゲームをプレイするAIの開発におけるものだ。DeepMindはBlizzardのStarCraft II API周りのPythonラッパーであるPySCを、研究努力の一部としてオープンソース化した。
AlphaStarは、その振る舞いをコントロールするのにディープ・ニューラル・ネットワークを利用している;ネットワークへのインプットはゲームインターフェースからのデータであり、アウトプットはゲームへのコマンドである。技術の詳細は明かされていないものの、ブログ記事には、ネットワークは”Transformerからユニット(関係深層強化学習に似たもの)で構成されており、ディープLSTMコア、ポインターネットワークを備えた自己回帰ポリシーヘッド、および集中[sic]ベースラインを組み合わせたもの”と書かれている。
ネットワークは初め、公開された人間同士の対戦サンプルによる教師あり学習を使って訓練された。その後、このネットワークのコピーまたはエージェントを使って、マルチ・エージェント”リーグ”が作られた。互いに対戦し、強化学習(RL)の技術を使って競技に磨きを掛けていった。そのうち、エージェントは停止となり、RL改善のための新しいコピーがリーグに追加された。この方法で、システムは新しい戦略を探れる。戦略を未修正で学習したエージェントをキープすることで、以前に学習した戦略を”思い出す”と同時に、古いもののコピーによる新しいエージェントを訓練するのだ。リーグを訓練するため、DeepMindは14日間Google's v3 TPUsで稼働する分散システムを建てた。1エージェントにつき、16 TPUを使う。最後のエージェントは、リーグにおけるエージェントの”最も効果的な戦略ミックス”で構成された試合で利用された。
DeepMindは論文審査のある専門誌で全容を説明する準備している。