Facebook AI Research(FAIR)は、入力中の記憶すべきアイテムを学習することによって、AIのメモリおよび計算能力に関する要件を低減するディープラーニング技術のExpire-Spanを、オープンソースとして公開した。FAIRによれば、Expire-Spanを併用したTransformerは、数万アイテムのシーケンスにまでスケールアップ可能であると同時に、パフォーマンス面においても従来のモデルよりも向上している。
FAIRの研究チームは、次回のInternational Conference on Machine Learning(ICML)で発表する論文の中で、この技術といくつかの実験結果について解説している。Expire-Spanは、シーケンシャルAIモデルに対して、関連のないイベントを"忘れる"ことを可能にする。Transformerのようなセルフアテンション(self-attention)モデルと組み合わせることで、必要なメモリ容量を削減し、より長いシーケンスの処理を可能にする。自然言語処理(NLP)など多くのタスクにおいて、これは、パフォーマンスを改善するための重要なポイントになる。Expire-Spanを使って、同チームは、従来のモデルよりも1桁多い最大128kのシーケンスを処理可能なモデルをトレーニングすることにより、精度と効率性の向上を実現した。論文の共同執筆者である研究者のAngela Fan、Sainbayar Sukhbaatar両氏は、FAIRのブログに、次のような記事を書いている。
より人間らしいAIシステムに向けた研究の次のステップとして、私たちは現在、さまざまなタイプの記憶をニューラルネットワークに組み込む方法を研究しています。長期的には、現在のシステムよりもはるかに高速な学習能力を備えることで、さらに人間の記憶に近いAIシステムが実現できると思います。Expire-Spanは、そのような未来的なAIを活用したイノベーションに向かう、重要かつ素晴らしい前進であると、私たちは考えています。
画像認識や言語翻訳といった一部の一般的なAIアプリケーションは、データシーケンス内で次のアイテムを予測可能な、シーケンス学習としてモデル化することができる。そのようなシーケンス学習、特に自然言語処理(NLP)のドメインにおいて、Transformerニューラルネットワークアーキテクチャは一般的な選択肢になっている。例えば、OpenAIのGPT-3の"T"は"Transformer"の意味である。Transformerはセルフアテンション機構を備えており、シーケンスの前のアイテムを"記憶"することができる。一方、セルフアテンションでは、シーケンス内のすべてのアイテムが他のすべてのアイテムとリンクする可能性があることから、その計算およびメモリ複雑性は、処理可能なシーケンスの長さをnとすると、\(O(n^2)\)に達する。このため、GPUのメモリ制限により、実用的なシーケンス長は1,024程度に制限されているのだ。
何人かの研究者が、シーケンス長の最大値を拡張するためのアテンション機構の修正を提案している。2019年にOpenAIは、アテンションの複雑性を\(O(n \sqrt{n})\)に低減するSparse Transformersを発表した。Googleは昨年、複雑性をさらに\(O(n)\)まで低減可能なPerformerをオープンソースとして公開している。その他の技術としては、Googleの子会社であるDeepMindが2019年に開発したCompressive Transformer、同じく2019年、Expire-SpanのSukhbaatar氏の率いるFAIRチームによって公開されたAdaptive Spanなどがある。
Tranformerは非表示の状態あるいは"メモリ"のシーケンスを保持しており、各タイムステップにおけるモデルの出力は、これらメモリの組み合わせから計算される。Expire-Spanは、各メモリの生存時間(time-to-live、TTL)を計算することで動作する。トレーニングのロスはTTLの長いものにペナルティを課すことで更新される。結果としてモデルには、関連するメモリのみが残るようになる。長いシーケンスにおける過剰適合を回避するため、メモリはトレーニング中、ランダムに短縮化される。
Expire-Spanのパフォーマンスを評価するため、チームは、3つの基本的なTransformerモデル -- Tranformer-XL、Compressive Transformer、Adaptive-Span -- を選択して、モデルの正確性とGPUメモリ、トレーニング速度を比較した。それぞれのモデルでは、いくつかの強化学習(RL)とNLPタスクを実施した。その結果、Expire-Spanは、ほとんどの試験で基本モデルのパフォーマンスを凌駕した — 例えばシーケンスコピーのタスクでは、Transformer-XLが2kのシーケンス長で26.7パーセントの正確性に留まっていたのに対して、Expire-Spanはシーケンス長128kまでスケールし、51.2パーセントの正確性を達成した。
Expire-SpanのコードはGitHubで公開されている。