BT

最新技術を追い求めるデベロッパのための情報コミュニティ

寄稿

Topics

地域を選ぶ

InfoQ ホームページ ニュース Hugging Faceの大規模言語モデルを用いて複雑なAIタスクを解決するHuggingGPT

Hugging Faceの大規模言語モデルを用いて複雑なAIタスクを解決するHuggingGPT

浙江大学とMicrosoft Research Asiaの研究者による最近の論文では、Hugging Faceのようなコミュニティで利用できる既存のAIモデルを管理するためのコントローラーとして、大規模言語モデル(LLM)の利用が検討されている。

この研究のキーとなる考え方は、異なるドメインで利用可能な既存のAIモデルを活用し、ChatGPTなどのLLMが示す高度な言語理解・生成能力を用いてそれらを接続することだ。

具体的には、ChatGPTを用いて、ユーザーからのリクエストを受けた際のタスクプランニングを行い、Hugging Faceで公開されている機能説明に従ってモデルを選択し、選択したAIモデルで各サブタスクを実行し、実行結果に応じて応答をまとめるというものだ。

研究者によると、このアプローチにより、言語、視覚、音声などの領域で高度なAIタスクを解決することが可能になるという。

ChatGPTとHugging Faceのモデルの接続を確立するために、HuggingGPTはHugging Faceライブラリのモデルに関する説明を使用し、ChatGPTのプロンプトに融合させる。

プロセスの第一段階はタスクの計画で、ChatGPTはユーザーのリクエストを分析し、ライブラリのモデルを使用して解決できるタスクに分解する。第2段階は、計画されたタスクをもっともよく解決できるモデルの選択のことだ。次の論理ステップは、タスクの実行、その結果をChatGPTに返すことだ。最後に、ChatGPTはすべてのモデルの予測値を統合して回答を生成する。

HuggingGPTでは、タスクの計画段階において、タスクの仕様とデモを使用する。タスク仕様には、ID、タスクタイプ(ビデオ、オーディオなど)、依存関係(前提条件となるタスクを定義)、タスク引数の4つのスロットが定義されている。デモではユーザーの要求を一連のタスク仕様に関連付ける。例えば、"In image /exp2.jpg, what is the animal and what is it doing?" というユーザーリクエストは、画像からテキストへの変換、画像分類、オブジェクト検出、そして最後の質問応答タスクという4つのタスクのシーケンスに関連付けられている。

論文を著した6名は、複数のサブタスクを含む単純なタスクと複雑なタスクの両方を含む多くの実験にHuggingGPTを使用したと述べている。

HuggingGPTは、ChatGPTを中心にHugging Face上の数百のモデルを統合し、テキスト分類、物体検出、意味分割、画像生成、質問応答、テキストからスピーチ、テキストからビデオといった24のタスクを実行した。実験結果は、マルチモーダル情報や複雑なAIタスクの処理におけるHuggingGPTの能力を実証している。

各ステージで大きな言語モデルと少なくとも一度は対話する必要があるため、HuggingGPTにはいくつかの制約がある。例えば効率と待ち時間、LLMが受け入れることができるトークンの最大数に関連するコンテキストの長さに関する制限や、LLMが時々指示に従わなかったりLLMが制御するモデルの1つが故障したりすることにより、システムの安定性が低下する、といった制限である。

作者について

この記事に星をつける

おすすめ度
スタイル

BT