BT

最新技術を追い求めるデベロッパのための情報コミュニティ

寄稿

Topics

地域を選ぶ

InfoQ ホームページ ニュース 少ないパラメータでTransformerの性能を凌駕するGoogleのGated Multi-Layer Perceptron

少ないパラメータでTransformerの性能を凌駕するGoogleのGated Multi-Layer Perceptron

原文(投稿日:2021/10/19)へのリンク

Google Brain所属の研究者らが、基本的なMLP(multi-layer perceptron、多層パーセプトロン)のみを含むディープラーニングモデルをGated Multi-Layer Perceptron(gMLP)として発表した。Transformerモデルよりも少ないパラメータを使用して、自然言語処理(NLP)タスクではパフォーマンスで凌駕し、コンピュータビジョン(CV)タスクでも同等の精度を実現している。

モデルと実験に関しては、arXivで公開された論文に説明されている。Transformerのセルフアテンション(self-attention)機構の必要性を調査するため、研究チームは、ゲーティングと組み合わせた基本的なMLPレイヤのみを使用してgMLPを設計し、画像と言語に関するタスクのパフォーマンスを従来のTransformerによる実装と比較した。その結果、画像分類タスクImageNetでは、Vision Transformers(ViT)の81.8に匹敵する81.6という精度を、より少ないパラメータとFLOPsで達成した。NLPタスクに関しては、事前トレーニングのパープレキシティ(perplexity)においてBERTを越えるとともに、SQuADベンチマークでも、BERTの81.8に対して85.4というF1スコアを、BERTよりも少ないパラメータで実現している。

Googleの研究者たちが2017年に初めて発表したTransformerアーキテクチャは、OpenAIのGPT-3を筆頭に、NLPディープラーニングモデルのトップデザインになっている。視覚的なタスクでも優れた成果を上げ始めており、特にGoogleのViTは先頃、ImegaeNetベンチマークの新記録を達成している。Transformerの大きな特徴は、シーケンス要素間にある空間的相互作用を学習する、マルチヘッドのセルフアテンション機構にあるが、研究者たちは現在、そのメカニズムがTransformerのハイパフォーマンスに必要なのかという疑問を持っている。

完全に接続されたレイヤないしパーセプトロンによる単純な構成を持ったMLPが最初に開発されたのは1958年のことであり、ニューラルネットワークでは"古典的"形式と見なされている。gMLPの中核となるイノベーションは、シーケンス要素間の相互作用を捕捉するSpatial Gating Unit(SGU)である。これはTranformerのアテンションと同じ役割を果たすのだが、要素の位置に関するエンコーディングを必要とはしない。代わりに入力の要素毎の乗算を、同じ入力の線形投影を使って実行するのだ。トレーニングの安定性のためには、ゲートのウェイトを1に初期化して、ゲートを事実上パススルーにしておく必要がある、ということを研究者たちは発見した。このウェイトがトレーニングの過程において更新されることで、シーケンス要素間の空間的相互作用を学習するのだ。

一連の実験の中でチームは、さまざまなサイズのgMLPをトレーニングし、CVおよびNLPベンチマークを使って、それらのパフォーマンスを、同じようなサイズのTranformerベースのモデルと比較した。ImageNetベンチマークではViTの他、最近公開されたMLPベースのCVモデルのいくつかとパフォーマンス比較を行った。ViTもMLPモデルも、最先端の畳み込みニューラルネットワーク(CNN)モデルのパフォーマンスには及ばないが、gMLPのパフォーマンスはTransformerに匹敵すると同時に、すべてのMLPモデルを凌駕している。NLPのパフォーマンスでは、BERTを始めとするMLPベースの言語モデルを比較の対象とした。その結果、十分にスケーリングされたgMLPモデルのパフォーマンスはBERTと同等だったが、"若干のセルフアテンション"を追加することにより、すべてのタスクにおいて、より少ないパラメータでBERTのパフォーマンスを上回ることに成功した。

最近では、さまざまな組織の研究者たちが、画像や言語を扱うMLPベースモデルの研究に取り組んでいる。今年始めには、Google Brainの別チームが、MLPレイヤを使ってイメージパッチの特徴を"ミックス"することで空間関係を学習するCVモデルのMLP-Mixerをオープンソースとして公開した。Facebook AI Researchは、ViTにヒントを得てセルフアテンションを単純なMLPレイヤに置き換えたビジョンモデルのResidual Multi-Layer Perceptrons(ResMLP)アーキテクチャを新たに開発した。学術界では、オックスフォード大学の研究者たちが同様のモデルをオープンソースとして公開した他、清華大学のチームも、CNNレイヤをMLPレイヤに再パラメータ化することで推論を高速化したRepMLPをオープンソースで提供している。

Redditでの議論では、あるユーザが、gMLPのトレーニングの安定性向上に向けたGooleの活動に対して、次のようにコメントしている。

論文では、特にトレーニングの開始時における安定性と、その向上のためにチームが使用した方法に関して、多くの意見が述べられています。安定性/堅牢静をモデルの性能指数に含めることに、何か有用性があるのでしょうか?

GoogleはgMLPのコードをリリースしていないが、論文の読者の一部が自身の実装をオープンソースとして公開している。

この記事に星をつける

おすすめ度
スタイル

BT