先日、Meta社、南カリフォルニア大学、カーネギーメロン大学、カリフォルニア大学サンディエゴ校の研究者が、無制限の文脈長を持つ大規模言語モデル(LLM)であるMEGALODONのオープンソース化を発表した。MEGALODONは線形複雑度を持ち、様々なベンチマークにおいて同サイズのLlama 2モデルを凌駕している。
MEGALODONは、多くのLLMの基礎となっているTransformerニューラルアーキテクチャのいくつかの欠点に対処するために設計されている。標準的なマルチヘッドアテンションの代わりに、MEGALODONはチャンク単位のアテンションを用いる。また、研究チームは訓練中にシーケンスベースの並列性を導入し、ロングコンテキストの訓練におけるスケーラビリティを向上させた。WinoGrandeやMMLUなどの標準的なLLMベンチマークで評価したところ、MEGALODONは、同じ量のパラメータ、訓練データ、訓練計算バジェットでLlama 2モデルを上回った。研究者たちは次のように話している。
MEGALODONは、トレーニングの難易度とダウンストリームベンチマークの両方で目覚ましい改善を達成しました。重要なのは、ロングコンテキストのモデリングに関する実験結果で、MEGALODONが無制限の長さのシーケンスをモデリングできることを示しています。異なるデータモダリティにわたる小規模/中規模ベンチマークでの追加実験により、MEGALODONのロバストな改善が示され、大規模なマルチモダリティ事前訓練にMEGALODONを適用する今後の研究の方向性の可能性が示されました。
Transformerアーキテクチャは、ほとんどの生成AIモデルの標準となっているが、Transformerにはいくつかの欠点がある。特に、その自己アテンションメカニズムは、計算とストレージの両方において2次的な複雑さを持ち、モデルの入力コンテキストの長さを制限する。最近では、標準的な自己アテンションモデルに対する代替案がいくつか開発されており、Mambaのようなstructured state space models(SSM)もその1つである。InfoQが最近取り上げたもう1つの方式は、RWKVプロジェクトのアテンションフリーであるTransformerモデルで、入力コンテキストの長さに上限がない。
MEGALODONは、研究チームの以前のモデルであるMEGA(ゲーテッド・アテンションを持つ指数移動平均)をベースに、いくつかの新しい機能を加えたものである。まず、MEGAがアテンションメカニズムの中で「古典的な」指数移動平均(EMA)を使うのに対し、MEGALODONは複雑なEMA(CEMA)を計算する。数学的には、CEMAコンポーネントによって、MEGALODONは "対角状態行列を持つ単純化された状態空間モデル"と等価になる。
研究チームは、Llama2-7Bが使用したのと同じ2兆トークンデータセットを使用して、70億パラメータモデルMEGALODON-7Bをトレーニングした。また同じハイパートレーニングパラメータを使用した。研究チームは、MEGALODON-7Bの方が計算効率が高いことを確認した。Llamaモデルを32000のコンテキスト長にスケールアップした場合、MEGALODON-7Bの方が「著しく」高速であった。
研究チームは、標準的なLLMベンチマークでMEGALODON-7Bを評価したほか、SCROLLSロングコンテクスト質問応答ベンチマークでも性能をテストし、32000コンテクスト長の修正Llama 2モデルを含むいくつかのベースラインモデルと結果を比較した。MEGALODONはNarrativeQAサブタスクですべてのベースラインモデルを上回り、すべてのタスクでLlama 2と「競合する」結果を達成した。
Hacker NewsでのMEGALODONに関する議論の中で、あるユーザーは、他の非Transformerモデルのパフォーマンスが低い傾向があることを考えると、このモデルが再現率タスクでどの程度のパフォーマンスを示したのか疑問に思った。別のユーザーはこう答えている。
参考までに、この件に関するRWKVのウェブサイトには、確かに再現率に関しては悪いと書いてあるが、大半のタスクに関しては、内容の前に質問をするだけで、タスクをうまく処理できると書いてある。
MEGALODONのコードはGitHubで公開されている。