NVIDIA研究者はLLaMA-Mesh、大規模言語モデル(LLM)を拡張し、統一されたテキストベース・フレームワークで3Dメッシュデータの生成と解釈を行う画期的なアプローチを発表した。LLaMA-Meshは3Dメッシュをプレーンテキストとしてトークン化し、空間情報とテキスト情報のシームレスな統合を可能にする。
LLaMA-Meshのコア・イノベーションは3Dメッシュデータをトークン化するアプローチにある。3Dメッシュの頂点座標と面定義をプレーンテキストで表現することで、既存のLLMが語彙を拡張することなくこの情報を処理できるようになった。この方法はテキストと3Dモダリティを統合し、モデルが3Dメッシュを生成すると同時に会話形式でそれらを理解することを可能にする。出典:NVIDIAブログ
研究チームはLLaMA-Meshを訓練するための教師ありファインチューニング(SFT)データセットを作成した。このデータセットはモデルに以下を可能とする:
- テキスト記述から3Dメッシュを生成する。
- テキストと3Dメッシュの交互出力を組み合わせる。
- 既存の3Dメッシュ構造を解釈し、推論する。
LLaMA-Meshは、メッシュ生成の品質においてこのタスク専用に設計されたモデルに匹敵するレベルを達成しつつ、テキスト生成能力も維持している。そのフレームワークはデザイン、建築、その他空間推論を必要とする分野での実用的なアプリケーションをサポートする。
その将来性にも関わらず、一部ユーザーはこのアプローチを改善できる領域を指摘している。ソフトウェアエンジニア András Csányi氏はツイッターでこう記述した:
ふむふむ、これは良さそうですね。しかしこれを使うには予測可能なコマンド言語が必要です。私が提供したディテールをランダムに除外するLLMとの戦いはじつに面倒です。
Redditのスレッド では、このアプローチがAIの空間推論能力を向上させる可能性があると認識されている。Redditユーザー DocWafflez氏は3次元空間の理解がAGIにとって極めて重要だと指摘している。
別のユーザーは、潜在的なアプリケーションをハイライトした:
これを推論の一部として統合することもできます。例えば、特定の空間推論に関する質問(LLMが通常苦手とするもの)に対して、シーンを簡略化した3D形式で表現し、シーン内のエージェントの動作をコード化し、結果を観察し、スクリーンショットを撮影し、視覚分析を使用してより正確な出力を生成することができます。
LLaMA-Meshのデモ がHugging Faceで公開されており、計算資源の制約から4096トークンの制限内でその能力を示している。この制限によりメッシュ生成が不完全になる可能性があるが、完全なモデルは最大8kトークンをサポートし、機能拡張のためにローカルで実行することもできる。
この研究は自然言語処理と空間データ理解のギャップを埋める重要なステップを示している。研究者らはLLaMA-MeshをGitHubで公開しており、さらなる探求のためにツールやドキュメントも提供している。