Googleの研究者たちが新たに、BigBirdと呼ばれるディープラーニングモデルを開発した。Transformerニューラルネットワークで、これまでよりも最大8倍長いシーケンスを処理することができる。このモデルをベースとしたネットワークが、自然言語処理(NLP)およびゲノミクス処理において、新たに最高のパフォーマンスレベルを達成した。
このモデルと一連の試験については、arXivに発表された論文に説明されている。BigBirdは、Transformerニューラルネットワークの複雑性を軽減し、従来よりも長いシーケンスを使ったトレーニングや推論を可能にする、新しいセルフアテンション(self-attention)モデルである。シーケンス長を最大8倍にまで増加することにより、質問応答やドキュメント要約など、いくつかのNLPタスクにおいて、最高峰のパフォーマンスを新たに実現している。さらに同チームは、BigBirdを使用して、ゲノムシーケンス表現におけるTransformerモデルのアプリケーションを新たに開発することで、従来モデルよりも精度を5パーセント向上することに成功した。
Transformerはシーケンス学習、とりわけNLPの分野では、最も多く選択されるニューラルネットワークアーキテクチャになった。その理由は、再帰型ニューラルネットワークアーキテクチャ(RNN)に対するアドバンテージの存在だ。中でも、シーケンス内の以前の項目を"記憶"可能にするセルフアテンションメカニズムは、シーケンス全体の並列動作を可能にすることで、トレーニングや推論の高速化に寄与している。一方でセルフアテンションは、シーケンス内の各項目が他のすべての項目とリンク(あるいは"attend")する可能性があるため、その演算およびメモリの計算量は、処理される可能性のある最大シーケンス長をnとした場合、O(n^2)となる。このため、現在のハードウェアで処理可能なシーケンス長は、512項目程度が実用上の制限となっている。
BigBirdは、O(n)の計算量を持つ新しいセルフアテンションスキームにより、最大で4,096項目のシーケンス長を可能にする。各項目が他のすべての項目にリンクする代わりに、BigBirdでは、3つの小さなアテンション機構を組み合わせて用いている。最初はランダムアテンションで、ランダムに選択された少数の項目に対して各項目がリンクする。第2のウィンドウアテンションでは、シーケンス内の前後にある一定数の項目に対してリンクする。最後のグローバルアテンションは、他の全項目中、一定のシーケンス距離にある項目をリンクする。
チームが行ったNLP試験では、アテンション機構をBigBirdに置き換えたBERTベースのモデルアーキテクチャを使用して、RoBERTAや、同じくO(n)の計算量を持つ最新のアテンションモデルであるLongformerとパフォーマンスの比較を行った。その結果、BigBirdモデルはNatural Questions、HotpotQA-distractor、TriviaQA-wiki、WikiHopという4つの質問応答データセットで他の2モデルを上回る成績を上げた。いくつかのドキュメント分類データセットを使ったRoBERTAとの比較も行われた。BigBirdは、RoBERTAをパフォーマンスで上回ったのみならず、Arxivデータセットでは、F1スコアで92.31パーセントという、それまでの87.96パーセントというレコードを越える新たな最高スコアをマークしたのだ。NLPタスクと同時に、チームは、BigBirdのシーケンス能力の高さが、ゲノミクスアプリケーションのモデル構築にも使用できることを示してみせている。"プロモータ領域予測(promoter region prediction)"と"クロマチンプロファイル予測(chromatin-profile prediction)"という2つのゲノム分類タスクにおいて、BigBirdは、いくつかのベースラインモデルを凌駕した。前者のタスクでは99.9パーセントの正確性を達成し、過去最高であったモデルを5パーセント上回った。
BigBirdの開発者のひとりであるPhilip Pham氏が、論文に関するHacker Newsでの議論に参加している。その中で氏は、論文中の試験では4,096のシーケンス長を使用しているが、モデルはもっと長く、最大16Kのシーケンスを処理することができる、と述べている。また、GPT-3と比較した質問には、次のように返答している。
BigBirdのようなものが、GPT-3を補完するのではないかと思っています。GPT-3は現在でも2048トークンに制限されているからです。もっと多くのコンテキストを使えば、より長く、より一貫したストーリを生成できるのではないか、と考えているのです。
論文で使用されたモデルのソースコードは、まだGoogleからリリースされていないが、使用したBERTのコードは、RoBERTAやLongformerのコードと同じく、GitHubから入手することができる。