BT

最新技術を追い求めるデベロッパのための情報コミュニティ

寄稿

Topics

地域を選ぶ

InfoQ ホームページ ニュース MicrosoftのOrca 2 LLM、性能面で10倍大きいモデルを凌駕

MicrosoftのOrca 2 LLM、性能面で10倍大きいモデルを凌駕

原文リンク(2023-12-12)

Microsoft Researchは、Llama 2の微調整版であるOrca 2 LLMを発表した。Orca 2 LLMは、10倍のパラメータを含むモデルと同等かそれ以上の性能を発揮できる。この性能を達成するために、合成トレーニングデータセットとプロンプト消去と呼ばれる新しい技術を使用している。

Orca 2のモデルは教師-生徒のスキームを使用し学習する。より大きく強力なLLMがより小さな生徒LLMの教師として機能し、生徒の性能をより大きなモデルの性能と同等に向上させることを目標としている。Microsoftのトレーニング技術は、小さなモデルに複数の推論テクニックと、与えられたタスクに対してもっとも効果的なテクニックを選択する方法を教授する。これを行うために、教師は特定の推論行動を引き起こす高度なプロンプトを付される。しかし、プロンプト消去と呼ばれるスキームでは、生徒にはタスク要件と望ましい応答のみが与えられ、教師のプロンプトは与えられない。ベンチマークで評価したところ、13BパラメータのOrca 2モデルは、ベースラインの13BパラメータLlama 2を47.54%上回った。7BパラメータのOrca 2は、推論タスクにおいて70BパラメータのLlama 2より「優れているか同等」であった。

ChatGPTのようなLLMは、数ショットのプロンプトで幅広いタスクをこなすことができるが、モデルのホスティングはメモリと計算要件のため困難だ。小規模なモデルでも微調整すれば良い結果を出せるため、多くの研究者が大規模なLLMによって生成された合成データセットを用いて、モデルをトレーニングさせる研究をしている。InfoQは先日、GoogleのDistilling Step-by-Stepを取り上げた。これは、教師LLMに、入力と出力ラベルの両方と、出力ラベルが選ばれた理由の「根拠」を含む、小さな微調整データセットを自動的に生成するよう促すものだ。InfoQは、Stability AIのStable Belugaモデルも取り上げている。このモデルは、MicrosoftのオリジナルであるOrca 1スキームを使って学習されており、教師LLMに "詳細な回答を生成する "よう促す、"Explanation Tuning"を採用している。

Orca 1と同様に、Orca 2の訓練データセットも、詳細なプロンプトが与えられる教師LLMによって生成される。しかし、Microsoftが Cautious Reasoning(慎重な推論) と呼ぶ新しいアプローチでは、トレーニングタスクと"step-by-step "や "explain your answer "といった特定の問題解決ストラテジーを使うよう教師に促すプロンプトをペアにしている。そして、生徒のトレーニング中に、教師のプロンプトは消去され、生徒は正しいストラテジーを選ぶことを学習する。

この手法を評価するために、MicrosoftはOrca 2モデルの性能を、Llama 2、ChatGPT(GPT-3.5)、GPT-4を含むいくつかのベースラインモデルと比較した。ベンチマークタスクには、推論、言語理解、文章完成、要約が含まれた。推論ベンチマークにおいて、13BパラメータのOrca 2モデルは、ChatGPTとGPT-4を除くすべてのベースラインを上回った。また、Orca 2に "慎重な "システムプロンプト("あなたは慎重なアシスタントです。 あなたは注意深く指示に従います。")を与えることで、空のシステムプロンプトに比べて性能が少し向上することも判明した。

あるユーザーは、「"ステップ・バイ・ステップで説明する"などという小細工をする必要はありません。ただ知っているだけです。」と発言している。AI研究者のRudi Ranck氏はこのように述べている。

Orca 2の "プロンプト消去 "のように、プロンプト全体を提示する代わりに、タスクと答えだけをモデルに見せる(答えを生成するために使われるプロンプト全体をフィルターにかける)。これはモデルがより高いレベルで戦略を立てるのに役立つ、素晴らしい論文です。ぜひ最後まで読むことをお勧めしたい。

7B13Bのパラメータを持つOrca 2モデルは、Huggingfaceで入手できる。

作者について

この記事に星をつける

おすすめ度
スタイル

BT