Facebookは、Anticipative Video Transformer(AVT)と呼ばれる最新の機械学習プロセスを発表した。視覚的な解釈を用いて将来のアクションを予測できる。AVTは、ビデオでのアクション予測のためのエンドツーエンドのアテンションベースのモデルとして機能する。
新しいモデルは、Transformerアーキテクチャ、特に自然言語処理のための最近技術をベースとしている。また、自動運転車から拡張現実に至るまでのアプリケーション向けの画像モデリングをベースとしている。
AVTは、特にARとメタバースの見込み効果を示すために、アクティビティを分析している。Facebookは、プログラムが相互に通信するためのAPIを介して、メタバースアプリが他のプラットフォームやハードウェア間で機能できるようにすることを計画している。
将来の活動を予測することはAIにとって難しい問題だ。将来の活動のマルチモーダル分布を予測することと、以前のアクションのコースをモデル化することの両方を必要とするためである。
AVTはアテンションベースであるため、全シーケンスを並行して処理できる。一方でリカレントニューラルネットワークベースのアプローチでは、シーケンスを順番に処理する必要があるため、過去が考慮されないことがよくある。AVTは損失関数も備えており、これはモデルが、ビデオのシーケンシャルな性質をキャプチャするように促すものだ。そうでないと、非ローカルネットワークなどのアテンションベースのアーキテクチャによってロストが発生してしまう。
AVTは2つの部分で構成される。ビデオのフレームで動作するアテンションベースのバックボーン(AVT-b)と、バックボーンによって抽出された特徴で動作するアテンションベースのヘッドアーキテクチャ(AVT-h)である。
AVT-bバックボーンは、ビジョントランスフォーマー(VIT)アーキテクチャをベースとしている。フレームを重複のないパッチに分割し、フィードフォワードネットワークに埋め込み、特別な分類トークンを追加し、マルチヘッドセルフアテンションの複数のレイヤーを適用する。ヘッドアーキテクチャはフレームごとの機能を採用しており、因果関係アテンションと共に別のトランスフォーマーアーキテクチャを適用する。これは、現在および前のフレームからのみ機能を評価することを意味する。これにより、モデルは、どのような個々のフレームの表現を生成するときでも、過去の特徴のみに依存させることができる。
AVTは、ARアクションコーチとして、またはミスを犯す前に人々に警告する人工知能アシスタントとして使うことができる。さらに、AVTは、自己教師あり学習、アクションスキーマと境界の発見、さらにはアクションの時系列のモデリングを必要とするタスクでの汎用的なアクション認識など、予想を超えるタスクに役立つ可能性がある。