この程、多くの大規模言語モデル(LLM)がクローズドソースとオープンソースの両方で利用可能になり、更にマルチモーダルLLM(MLLM)として知られる複合モデルの作成につながっている。しかし、最先端のマルチモーダルLLMを設計するための原則と教訓を抽出した、Apple社の研究者は、そのようなLLMを作るためにどのようなデザインの選択がなされたかを明らかにするものはほとんどない、あるいは皆無だと述べる。
マルチモーダル大規模言語モデルは、大規模言語モデルと視覚基盤モデルを1つのモデルに統合することで構築される。Apple社の研究者によれば、MMLMは「基盤モデルの次のフロンティアとして台頭しつつある」もので、画像とテキストの入力を消費して、基盤モデルを上回る方法でテキストデータを生成することを目的としている。
Apple社の研究者たちは、MLLMの作成につながるプロセスの2つの側面、すなわちモデル・アーキテクチャの決定と事前学習データの選択に注目した。
最初の側面では、画像の解像度、ビジュアルエンコーダーの損失と容量、ビジュアルエンコーダーの事前学習データの3つが最も重要な設計要素であることがわかった。逆に、視覚データをどのようにLLMに送り込むかに関するアーキテクチャ上の決定は、結果として得られるモデルの性能には影響しないようだ。
事前学習に関して、研究者たちは3つの異なるアプローチ(画像キャプション、インターリーブされた画像-テキスト、テキストのみのデータ)を、フューショット、ゼロショット、テキストのみのコンテキストで分析した。ゼロショット・モデルは、オブジェクトや概念を認識・分類するために訓練される。フューショットの訓練では、代わりに、非常に少数のラベル付き例のみを含む訓練に基づいて正確な予測を行うことができるモデルに焦点が当てられる。
その結果、インターリーブとテキストのみの学習データが、フューショットモデルとテキストのみのモデルの性能にとって鍵となっており、画像キャプションデータがゼロショットモデルにとって鍵となることがわかった。
その結果を証明するために、研究者たちはMM1と名付けられたモデルファミリーを構築し、Emu2、Flamingo、IDEFICSなどの、現在の最先端モデルを凌駕した。ベンチマークは、モデルが画像の説明的なキャプションを提供するキャプション付けと、モデルが画像に関する質問に答え、その内容の理解を助ける視覚的質問応答で行われた。
大規模なマルチモーダル事前学習により、MM1は、文脈内予測、複数画像、思考連鎖推論などの魅力的な特性を享受しています。MM1はまた、命令チューニング後の強力なフューショット学習能力を可能にします。これらの強力な結果は、MLLM構築のための提示されたレシピが、設計原理をスケールで競争力のあるモデルに変換することを示しています。
研究チームが論文で説明しているように、MM1でこのレベルの性能を得るために、研究チームはさまざまな画像エンコーダーとそれらをLLMに接続する方法、さまざまな種類のデータと重みの設定方法、ハイパーパラメーターを含むMLLMの学習方法について調査した。その結果、画像の解像度、モデルサイズ、学習データの構成などの重要性が明らかになった。この結果は、コミュニティが複数のアーキテクチャやデータ戦略にわたってより強力なモデルを構築するための強固な基盤となることを期待している。