BT

最新技術を追い求めるデベロッパのための情報コミュニティ

寄稿

Topics

地域を選ぶ

InfoQ ホームページ ニュース マイクロソフト、130億パラメータの言語・視覚チャットボット「LLaVA」をオープンソース化

マイクロソフト、130億パラメータの言語・視覚チャットボット「LLaVA」をオープンソース化

マイクロソフトウィスコンシン大学マディソン校コロンビア大学の研究者は、Large Language and Vision Assistant(LLaVA)をオープンソースで公開した。LLaVAは、CLIP画像エンコーダーとLLaMA言語デコーダーをベースにしており、指示実行データセットでファインチューニングされ、ScienceQAベンチマークで最先端の精度を達成している。

研究チームは、GPT-4を用いて、画像の内容に関する人間のユーザーとAIアシスタントとの仮想会話を含む指示実行データセットを生成。このデータセットを使って、2つの基盤モデルからなるLLaVAモデルのファインチューニングを行った。LLaVAモデルは、視覚のCLIPと言語のLLaMAの2つの基盤モデルに、これらを結びつけるネットワーク層を追加したものだ。また、実験ではGPT-4を使って、LLaVAの出力を1~10段階で評価し、LLaVAの反応を検証した。ScienceQAのトレーニングデータセットでさらにファインチューニングを行ったところ、LLaVAは92.53%の精度を達成し、ベンチマークとしては新記録となった。

研究者は以下のように述べている。

本稿では、言語専用のGPT-4を用いた視覚的な命令チューニングの有効性を実証した。言語-画像指示実行データを作成する自動パイプラインを提示し、それに基づいて、視覚タスクを完了する人間の意図に追従するマルチモーダルモデルであるLLaVAを訓練しました。このモデルは、マルチモーダルなチャットデータに対してファインチューニングを行うことで、優れたビジュアルチャット体験を実現するのです。

大規模言語モデル(LLM)を指示実行型データセットでファインチューニングする手法は、ChatGPTで実証されたように性能の向上につながり、研究者はこの手法を小規模LLMで試すことを促している。InfoQは先日、GPT-3の175Bのパラメータに対し、7Bのパラメータしか持たないが、多くのタスクでGPT-3を凌駕できるLLaMAについて報告した。AIアシスタントの開発では、GPT-4Visual ChatGPTのリリースに見られるように、次のステップとして画像データを扱う機能が追加されている。

LLaVAチームの目標は、視覚的な命令チューニングでモデルをエンドツーエンドで訓練することだ。そのため、研究者たちはまずCOCOデータセットから抽出した画像を使用した。画像にはキャプションやオブジェクトのバウンディングボックスが付与されているため、このデータをテキストのみのGPT-4に与え、さらにGPT-4に、人とアシスタントとの会話を想像する質問、画像内容の詳細に関する質問、画像内容に関する推論を求める質問などの指示実行データを出力するよう求めるプロンプトを与えた。生成されたデータセットには、全体で158Kのサンプルが含まれている。

LLaVA Architecture

LLaVAアーキテクチャ。画像ソース: https://arxiv.org/abs/2304.08485

LLaVAのアーキテクチャは、CLIP基盤モデルの後に、画像を単語埋め込み空間に変換する投影行列層で構成されている。テキスト入力も同じ空間に変換される。画像と単語は、LLaMAデコーダーに渡され、出力を生成する。まず、事前学習プロセスでプロジェクトマトリックスを学習し、ファインチューニングプロセスで投影層とLLaMAデコーダーの重みを更新する(CLIPの重みは凍結される)。

LLaVAの共同研究者であるChunyuan Li氏は、Twitterでこの研究についてのいくつかの質問に答えた。一部のユーザーがLLaMAとMiniGPT-4を比較したところ、LLaMAはGPT-4論文の画像ベースの結果を再現できたが、MiniGPT-4では再現できなかったと指摘した。また次のように語った。

LLaVAは、Visual ChatやGPT-4との類似度、Science QAに関するSoTAの精度、データの反復やモデル設計に関するアブレーション研究など、厳密な定量結果を出しています。一方、Mini GPT-4は定量的な結果に乏しい。最後に、この研究はモデル中心ではなく、データ中心であることを明確にしておく必要があります。モデルの違いが少なくなるにつれ、データの品質が結果に与える影響は大きくなっています。私たちは、マルチモーダルGPT-4を再現するために、次のようなマルチモーダル命令をデータとして公開しました。

LLaVAのソースコードはGitHubで公開されており、プロジェクトサイトではインタラクティブなデモが公開されています。LLaVAのトレーニングデータモデルの重みづけはHuggingfaceで公開されている。このモデルはLLaMAの上にデルタウェイトを使用しており、「研究目的以外では使用しないでください 」と記している。

作者について

この記事に星をつける

おすすめ度
スタイル

BT