BT

最新技術を追い求めるデベロッパのための情報コミュニティ

寄稿

Topics

地域を選ぶ

InfoQ ホームページ ニュース OpenAIはニューラル言語モデルのスケーリング法則を近似する

OpenAIはニューラル言語モデルのスケーリング法則を近似する

原文(投稿日:2020/04/23)へのリンク

2020年1月、独立した研究組織 OpenAI は、完全に接続されたネットワークで過去にのみ行われた大規模な計算作業において、さまざまなアーキテクチャ、サイズ、計算能力、およびデータセットサイズを持つニューラル言語モデルの精度の傾向を経験的に特定した。自然言語処理は、Google翻訳から文法チェッカまですべてで使用されるサブフィールドだ。ただし、最先端のモデルには、大量のデータ、モデルの複雑さ、および計算能力が必要である。著者らは、モデルのスケールに関係する3つの重要な要素は、モデルパラメータの数 (N)、データセットのサイズ (D)、および計算能力の量 (C) であり、深さと幅はトレーニングに強く影響しないことを発見した。サイズ。次に、パフォーマンスは、3つのスケールファクターのそれぞれとべき乗則の関係を示す。最後に、過剰適合はさまざまなモデルで発生する。ND を個別に増やすと、パフォーマンスペナルティは N0.74 / D の比率に比例します。係数 N と D は同時に増加する必要がある。

モデルをトレーニングするとき、彼らは、転移学習には一定のペナルティが発生するが、それ以外の場合はトレーニングセットのパフォーマンスとほぼ一致して改善すると判断する。さらに、大きなモデルは小さなモデルよりもサンプル効率が高く、少ない最適化ステップで同様のパフォーマンスを実現する。実際、非常に大きなモデルは、収束する前に最適なパフォーマンスを取得する。

トランスフォーマのテスト損失は、非埋め込みパラメーターの数 ( N )、データセットサイズ ( D )、および最適に割り当てられた計算バジェット (C) によって制限される場合に、べき法則を使用して予測された。最初のスケーリング法則は、パラメータの数が限られているモデルの場合、十分に大きなデータセットに収束するようにトレーニングされていることだ:

2番目のスケーリング法則は、早期打ち切りを伴う限られたデータセットでトレーニングされた大規模モデルの場合だ:

(tokens) 早期打ち切りのある限られたデータセットでトレーニングされたモデルの場合。

3番目のスケーリング法則は、十分に大きいデータセット、最適なサイズのモデル、および十分に小さいバッチサイズを使用すると、計算能力とともにテスト損失が減少することだ。

これらの関係はすべて8桁以上ある。クリティカルバッチサイズは、損失の大きさに反比例する次の式で定義される。

 

それらはバイトペアエンコーディングを使用してトークン化された WebText2 で言語モデルをトレーニングする。それらはハイパーパラメータ nlayer (層の数)、dmodel (残差ストリームの次元)、dff (中間フィードフォワード層の次元)、dattn (アテンション出力の次元)、および nheads (レイヤごとのアテンションヘッドの数) を使用し、1024トークンの512シーケンスのバッチサイズで固定の 2.5x105 ステップのAdamオプティマイザとAdafactorを使用してパラメータ化する。モデルサイズは768から15億のパラメータの範囲だった。データセットのサイズは2200万から230億トークンの範囲だった。深さ、幅、アテンションヘッド、およびフィードフォワード次元はすべて変化した。コンテキストの長さは1024で、ほとんどの実行でバッチサイズは 219 だった。トランスフォーマはLSTMよりわずかに優れた性能を示したが、反復トランスフォーマよりわずかに劣っていた。

この記事に星をつける

おすすめ度
スタイル

BT