Microsoft Researchは、27億パラメータのTransformerベースの言語モデルであるPhi-2を発表した。Phi-2はGPT-3.5によって生成された1.4Tトークンの合成データでトレーニングされ、様々なベンチマークでより大規模なモデルを上回る性能を発揮する。
Phi-2は、MicrosoftのPhiモデル群の最新版であり、Webクローラーされたデータセットと合成された「教科書品質」のデータセットを組み合わせてトレーニングする。以前のPhiモデルには1.3Bのパラメータしか含まれていなかったが、コーディングと推論タスクで優れた性能を示した。Phi-2は従来のモデルの2倍の大きさで、96個のA100 GPUのクラスタで2週間トレーニングされている。推論、言語理解、コーディングのベンチマークにおいて70BパラメータのLlama-2モデルを凌駕し、最大25倍の大きさのモデルに匹敵する性能を持つ。Microsoftは以下のように説明している。
コンパクトなサイズのPhi-2は、研究者にとって理想的なプレイグラウンドであり、メカニズム的な解釈可能性の探求、安全性の向上、様々なタスクの微調整実験などにも適しています。我々は、言語モデルの研究開発を促進するために、Azure AI StudioのモデルカタログでPhi-2を利用可能にしました。
InfoQは最近、大規模な言語モデル(LLM)の能力を小規模なモデルで再現する取り組みをいくつか取り上げた。これらの多くは、ChatGPTのようなLLMを使って、より小さなモデルのための合成トレーニングデータセットを生成している。GoogleのDistilling Step-by-Stepメソッドは、教師LLMに、入力と出力ラベルの両方と、出力ラベルが選ばれた理由の「根拠」を含む、小さな微調整データセットを自動的に生成するよう促す。Microsoft ResearchのOrca 2は、合成トレーニングデータセットとPrompt Erasureと呼ばれる新しいテクニックを使用し、10倍のパラメータ数を含むモデルと同等以上のパフォーマンスを達成する。
Phiシリーズのモデルでもっとも革新的なのは、「教科書のような」データの合成データセットである。研究者たちは、データセットやその生成の詳細な情報を公表していないが、Phiモデルに関する過去の技術レポートにはハイレベルな説明が含まれている。データセットの目標のひとつは、"難易度、複雑さ、スタイル "の異なる「概念、スキル、シナリオ」の範囲をカバーする「多様で繰り返しのない」例を生成することだった。Phi-1.5のために、チームは言語理解問題の生成例として20,000の異なるトピックを選択した。
Microsoft ResearchでML基盤チームを率いるSebastien Bubeck氏は、Phi-2を微調整する追加作業について以下のようにX(旧Twitter)へ投稿している。
phi-2は更なる微調整のための良いベースである。我々は100万個の数学演習(phi-1のCodeExercisesと同様)で[微調整]し、最近のフランスの全国的な数学試験でテストした(phi-2のトレーニング終了後に公開)。結果は励みになる!自分のデータを試してみよう...。
PredeloのAI責任者であるMark Tenenholtz氏も、phi-2について、"知識の蒸留は本当に機能する "と投稿している。Phi-2 に関する Hacker News のディスカッションでとあるユーザーは、モデルのトレーニングにかかる計算コストはおそらく3万ドル程度、つまり "車より安い "と指摘した。また、別のユーザーもこう指摘している。
このモデルはGPT-4で生成されたデータでトレーニングされていることに注意してください。現在のAPI価格でデータを生成するのは、おそらく桁違いにコストが高くなる。これらの論文の要点は、トレーニングデータの質が重要だということだ。私はこれらの企業が重みよりもトレーニングデータを公開することを望む。
Phi-2モデルのウェイトはHuggingFaceで入手できる。