先日、Meta社が、トークンよりも抽象度の高い作業処理用に設計された言語モデルである Large Concept Model (LCM)をオープンソース化した。従来の言語モデルと異なり、LCMは言語やモダリティに依存しない文埋め込み空間を使用しており、多言語を用いた要約タスクでは同サイズのLlama 3.1モデルを上回る性能を発揮している。
LLMの大部分は自己回帰型の予測処理を実行しており、トークン埋め込み空間でテキストマッピングを行い、シーケンス上の後続トークンを予測することでテキストを生成する。一方で、LCMは文レベルでの予測処理を行う。LCMは、事前学習済みのSONAR文埋め込みモデルを使用しており、200言語のテキストと76言語の音声データの両方をサポートしている。
Meta社はLCMを開発し、抽象的で体系だった推論を行う人間の能力をより忠実に再現することに成功した。この開発により、LCMの長文コンテンツ処理性能も向上している。XLSumベンチマークにおけるゼロショットテストでは、7B パラメータのLCMがLlama-3.1-8Bを上回る性能を示している。同社は、以下のように発表している。
弊社では、本論文に掲載されたLCMモデルと実験成果は、科学におけるダイバーシティの高まりと現行のLLMにおけるベストプラクティスからの脱却であるとみなしています。現在主流となっているLLMと同等の性能水準に到達するには、まだ道半ばです。もちろん、コアアーキテクチャのさらなる更新も必要でしょう。さらに、慎重なデータの選択やキュレーション、広範なアブレーション、最適化された多様なインストラクションベースのファインチューニング、そして最終的には70B以上のパラメータを搭載したモデルへのスケーリングが必要となるでしょう。
LCMアーキテクチャは、SONAR埋め込み空間と、音声とテキスト両方の両方を用いたSONARエンコーダとデコーダを基に構成されている。LCMは、シーケンスの後続アイテムの予測に"standard decoder-only Transformer"アーキテクチャを使用している。SONARを使用する利点の1つに、出力シーケンスを再生成せずに、サポートされている任意の言語またはモダリティにデコードできる点がある。また、言語のサブセットを用いたファインチューニングも可能で、他の言語を使用したタスクでも優れたゼロショット性能を発揮している。
Meta社は、長文要約と要約展開タスクでいくつかの実験と評価を行い、7BパラメータのLCMとGemma-7B、Llama-3.1-8B、Mistral-7Bを含む同サイズのベースラインモデルとで性能を比較した。これらのタスクは自動採点が難しいため、同社は類似度採点にはROUGE-L、アトリビューション採点にはSeahorse-Large-Q4といった複数の異なるメトリクスを使用したところ、LCMは、出力における重複量を測定する文法性メトリクスで他のモデルを上回る性能を示した。
Hacker NewsのLCMに関する議論では、何人かの読者は懐疑的な見方を示している。ある読者は、"苦い教訓を学び損ねたようだ"と述べている。一方で、Ozonetel Systems社のチーフイノベーションオフィサー、Chaitanya Chokkareddy氏は、自社でも同様の研究を行っているとコメントしている。
今回の研究で示されているものは、我々が"shape of stories(ストーリーの形)"と呼んでいるものに関する研究といくつか似通った点があります。それは、異なる"概念"の探求がどのようになされるか、2D空間ではっきりと視覚的に確認することができる点です。"shape of stories(ストーリーの形)"をセマンティックチャンキングに利用した場合、"概念"に基づくチャンク化処理がどのように行われるかは複数の記事で詳細に報告されています。現段階では、我々は、こうしたチャンクを用いて、後続単語の予測器の代わる後続チャンクの予測器を訓練できないかを検討中です。本論文では、文を概念を示すとして論じていますが、我々は、概念は文よりも"セマンティックチャンク"(意味の塊)であらわすのが、より適していると考えています。
LCMの実装と実験コードは、GitHubで公開中である。