エージェントとして知られているGatoは、DeepMindsの汎用的なAI(ジェネラリストAI)である。人間が実行できるさまざまなタスクを実行できるが、1つのタスクの専門家としてのニッチな領域を切り開くことない。Gatoは、ビデオゲームのプレイ、画像のキャプション、実世界のロボットアームの制御など、600を超えるさまざまなタスクを実行できる。Gatoはマルチモーダル、マルチタスク、マルチエンボディメントのジェネラリストポリシーである。
DeepMindは、人工知能の進歩に取り組んでいる最も有名なAI企業の1つである。いくつかのプログラムで、機械学習、エンジニアリング、シミュレーション、コンピューターインフラストラクチャの新しいアイデアと改善を提供することを目的として活動している。この注目に値するオールインワンの機械学習キットは、最近、世界のテクノロジーマーケットで人気を得ている。
DeepMindによると、Gatoは多くのデータセットでトレーニングされている。このデータセットには、さまざまな自然言語と画像のデータセットに加えて、シミュレートされた環境と実際の環境の両方でのエージェントの経験が含まれている。
Gatoは、すべてのAIシステムと同様に、例えば、数十億の単語、実世界とシミュレートされた環境からの画像、ボタンの押下、トルクの連結などを、トークンの形式で学習する。このトークンは、Gatoが理解できる方法でデータを表すものであり、これにより、システムはさまざまなタスクを実行できる。
Gatoのアーキテクチャは、現在使用されている多くのAIシステムとそれほど変わらない。それがTransformerであるという意味においては、OpenAIのGPT-3に似ている。Transformerは、複雑な推論タスク、テキストの要約表示、音楽の作成、写真内の対象の分類、タンパク質配列の分析に対するアーキテクチャの選択肢となる。
さらに注目すべきこととして、Gatoのパラメーター数は、GPT-3などのシングルタスクシステムよりも桁違いに少なくなっている。パラメータは、トレーニングデータから学習したシステムコンポーネントである。トレーニングデータには基本的に、テキスト生成などの問題を解決するためのシステムの能力が記述されている。GPT-3では1,700億を超えるが、Gatoではわずか12億である。
GPT-3とGatoのどちらも、偏見、人種差別、ひどい言葉遣いなどの弱点や欠点を結果から取り除くために強力なフィルターが必要となる。一方、AGIは、インテリジェントロボットが人間と同じように知的活動を理解、学習、実行できるようにするものとして知られている。
コグニティブコンピューティング機能により、人間の心を分析し、複雑な問題を解決することができる。これらのテクノロジー企業はどちらも、主要なAGIの課題に取り組んでいる。例えば、感覚知覚、運動スキル、問題解決、人間と同等レベルの創造性などの人間中心の能力の学習に関する課題がある。また、実用手順がない、普遍性が低い、ビジネスとの整合性、AGIの方向性といった課題もある。