BT

最新技術を追い求めるデベロッパのための情報コミュニティ

寄稿

Topics

地域を選ぶ

InfoQ ホームページ ニュース Facebookがコンピュータビジョンモデル”Multiscale Vision Transformers”をオープンソースとして公開

Facebookがコンピュータビジョンモデル”Multiscale Vision Transformers”をオープンソースとして公開

原文(投稿日:2021/09/21)へのリンク

Facebook AI Reserch(FAIR)は先頃、Transformerアーキテクチャに基づくコンピュータビジョン用ディープラーニングモデルであるMultiscale Vision Transformer(MViT)を、オープンソースとして公開した。MViTは、内部にいくつかの解像度低減(resolution-reduction)ステージを備えることにより、他のTransformerビジョンモデルをパフォーマンスで凌駕すると同時に、必要な計算能力の低減を実現しており、いくつかのベンチマークにおいては精度の最高値を更新している。

FAIRチームはブログ記事で、そのモデルと実験について説明している。MViTは、標準的なTransformerアテンションスキームを修正して、視覚的な解像度を下げると同時に特徴表現、すなわちチャネルディメンションを向上するプーリング機構を取り入れている。Transformerをベースとする他のコンピュータビジョン(CV)モデルとは対照的に、事前学習を必要とせず、パラメータ数も少ない。これにより、推論時に必要な計算能力も少なくて済む。FAIRは一連の実験を行って、MViTがKineticsAtomic Visual Actions(AVA)、CharadesSomething-Somethingといった一般的な動画理解データセットにおいて、従来のモデルを凌駕するパフォーマンスを示してみせた。研究者らによると、

さらなる開発が必要ではありますが、MViTが実現した進歩は、人間の行動を詳細に認識する能力を大きく向上させる可能性があります。ロボットや自動運転といった、現実的なAIアプリケーションにおいて、これは極めて重要なコンポーネントとなります。さらに、動画認識アーキテクチャにおけるイノベーションは、堅牢で安全、かつ人間中心のAIに不可欠なコンポーネントでもあるのです。

ディープラーニングCVモデルは、その大部分がConvolutional Neural Network(CNN、畳み込みニューラルネットワーク)アーキテクチャに基づいている。動物の視覚野構造にヒントを得たCNNは、チャネルディメンションの増大と画像入力の空間的ディメンションの低減を両立させるための隠れ層(hidden layer)をいくつか持っている。これらの層の出力はフィーチャマップ(feature map)と呼ばれる。ビデオ処理モデルの多くは、入力として複数のイメージフレームを含む、時間-ディメンションにおいて拡張されたCNNをベースとする。自然言語処理(NLP)における昨今のTransformerアーキテクチャの成功を受けて、GoogleのVision Transformer(ViT)など、多くの研究者たちがTranformerの画像処理への適用を模索している。しかしながら、CNNとは違って、これらTransformerベースのアーキテクチャは内部のフィーチャマップの解像度を変更しないため、結果的に非常に多くのパラメータと巨大なデータセットを使用した、大掛かりな事前学習の必要なモデルになっている。

MViTの重要な点は、Transformerのアテンション機構と、CNNベースのモデルの複数解像度フィーチャマップを組み合わせたことだ。MViTではこれを、Transformerアテンションブロックのシーケンスの後にスケールステージを導入することで実現した。スケールステージは、アテンションの前にプーリング処理を適用する、Multi-head Pooling Attention (MHPA) と呼ばれる組み合わせ処理によって、入力の空間ディメンションを4倍縮小する。MHPAからのアウトプットは、マルチレイヤパーセプション(MLP)レイヤによって、2倍のチャネルディメンションにアップサンプリングされる。これら2つのオペレーションを組み合わせることによって、"ステージ間の計算複雑性がほぼ維持される"のである。

研究チームはさまざまなサイズのMViTをトレーニングして、それらのベンチマーク上のパフォーマンスを、"既製の"ViTモデルを基準として比較した。その結果、小規模なMViTモデルについては、Kinetic-400ベータセットにおいて基準モデルを7.5パーセント上回りながら、必要とするFLOPは5.5倍少なかった。Kinetics 600データセットでは、大規模なMViTモデルが、83.4パーセントという精度の新記録を、基準モデルに対して8.4倍少ないパラメータと56.0倍少ないFLOPsで達成している。さらにチームは、Kinetisデータセットで事前学習したモデルをAVA、Charades、Something-Somethingで評価することによる、転移学習についても調査している。これらすべてのシナリオにおいて、MViTは従来モデルを凌駕する。最後にチームは、単純な単一入力フレームを使用することで、MViTが画像認識システムとしても機能することを示している。この場合にもMViTは、他のTransformerモデルよりも少ないパラメータとFLOPで、より高いパフォーマンスを発揮する。

MViTの論文に関するTwitter上の議論では、AI研究者のŁukasz Borchmann氏が、自身が昨年公開したPyramidionという同様のモデルについて言及している

Pyramidionでは、トレーニング可能なプールはレイヤ間に配置されていたため、エンコーディングプロセス内において段階的なボトルネックとなっていました ... MViTの方法であれば、よりよい結果と複雑性が得られると思います。

MViTのコードと事前学習済モデルが、FAIRのPySlowFast画像理解(video-understanding)コードベースの一部として公開されている。

この記事に星をつける

おすすめ度
スタイル

BT