BT

最新技術を追い求めるデベロッパのための情報コミュニティ

寄稿

Topics

地域を選ぶ

InfoQ ホームページ ニュース Google、AIのファインチューニング方法であるDistilling Step-by-Stepをオープンソース化

Google、AIのファインチューニング方法であるDistilling Step-by-Stepをオープンソース化

原文リンク(2023-10-24)

ワシントン大学Google Researchのチームは先日、より小さな言語モデルのファインチューニングを行う手法であるDistilling Step-by-Stepをオープンソース化した。Distilling Step-by-Stepは、標準的なファインチューニングよりも少ないトレーニングデータで、700倍のパラメータを持つ数発のプロンプト大規模言語モデル(LLM)を凌駕する小さなモデルを生成できる。

LLMは多くの場合、プロンプトが数回しか表示されない幅広いタスクで優れた性能を発揮するが、メモリと計算の要件が高いため、モデルのホスティングは困難である。より小さなモデルでもファインチューニングすることで良い結果を出せるが、そのためにはタスクに特化したデータセットを手動で作成する必要がある。Distilling Step-by-Stepのキーアイデアは、LLMを使用して、出力ラベルを持つ入力と、出力ラベルが選択された理由の「根拠」の両方を含む、小さなファインチューニングデータセットを自動的に生成することである。ファインチューニングプロセスにより、小型モデル出力ラベルを予測すると同時に、その根拠を生成するように学習をする。GoogleがNLPベンチマークで評価したところ、ファインチューニングされた小型モデルはベンチマークのファインチューニングデータの80%しか必要としないにもかかわらず、540B PaLMモデルを上回った。

我々は、Distilling Step-by-Stepで、タスクに特化した小型モデルを作成するために必要なトレーニングデータセットと、Few-Shotプロンプティング(例を提示することで、タスクを実行するための方法を学習させること)を行ったLLMの性能を達成し、さらにそれを上回るために必要なモデルサイズの両方を削減できることを示しています。全体として、Distilling Step-by-Stepは、モデルサイズと必要な学習データ間のトレードオフに取り組む、リソース効率の良いパラダイムを提示します。

LLMのパラメータ数を増やすことで性能が向上することが研究により示されており、PaLMのような現在の最先端モデルは数千億のパラメータを持つ。しかし、このような大規模なモデルはパラメータをメモリに保持するだけで複数の並列GPUを必要とするため高価であり、推論時に使用するのは困難である。最近の研究により、MetaのLlama 2のような、ほぼ同等の性能を持ちながら必要なパラメータの少ない小型のモデルが作られているが、これらのモデルは依然として大きく、計算量も多い。

あるタスクで優れた性能を発揮する、より小さなモデルを入手する方法のひとつに、タスクに特化したデータセットを使ってより小さな言語モデルをファインチューニングすることが挙げられる。このデータセットは比較的小さいが(数千例程度)、それでも収集にはコストと時間がかかるかもしれない。もうひとつの選択肢は、大規模なモデルを小規模なモデルの教材として使用する、知識の蒸留である。先日InfoQは、Googleが開発したPaLM LLMを使ってトレーニングデータセットを作成し、LLMの10倍に匹敵する性能を持つファインチューニングされたモデルを生成する技術を取り上げた。

Distilling Step-by-Stepは、ファインチューニングデータセットを必要とする代わりに、高性能モデルを作成するための必要なデータ量を削減できる。ソースデータセットは、モデルに答えの根拠を求める思考連鎖プロンプトを介してPaLM LLMに供給される。その結果、元の入力と答え、そして根拠を含む修正されたファインチューニングデータセットが得られる。より小型のターゲットモデルは、元の質問に答え、根拠を生成するという2つのタスクを実行するようにファインチューニングされる。

Googleは、4つのNLPベンチマークを使い、その性能を評価した。同社はDistilling Step-by-Stepを使ってこれらのデータセットを修正し、1B以下のパラメータでT5モデルをファインチューニングした。その結果、データセットのごく一部(場合によっては12.5%)を使用するだけで、ベースラインファインチューニングモデルを上回る性能を発揮できるとわかった。また、770Mパラメータのモデルは、ANLIベンチマークにおいて、700倍の540BパラメータのPaLMを上回った。

X(旧Twitter)でこの研究について議論される中で、AI起業家のOtto von Zastrow氏はこのように記述している。

この結果は非常に素晴らしいものです。私はこれを「蒸留」(既存モデルの入力と出力のペアを元に新たなモデルの学習を行い、既存モデルとよく似たモデルを作成すること)ではなく「合成データ生成」と呼びたいのですが、このサンプル問題ごとにこの合成根拠でオリジナルのLLMを訓練したらどうなるか、とても興味があります。

Distilling Step-by-StepのソースコードとトレーニングデータセットはGitHubで公開されている。Google CloudのVertex AIプラットフォームでは、このアルゴリズムのプライベートプレビューも提供している。

作者について

この記事に星をつける

おすすめ度
スタイル

BT