BT

最新技術を追い求めるデベロッパのための情報コミュニティ

寄稿

Topics

地域を選ぶ

InfoQ ホームページ ニュース EleutherAIが200億パラメータAI言語モデルのGPT-NeoX-20Bをオープンソース化

EleutherAIが200億パラメータAI言語モデルのGPT-NeoX-20Bをオープンソース化

原文(投稿日:2022/04/05)へのリンク

EleutherAIの研究者はGPT-NeoX-20Bをオープンソース化した。これは、GPT-3に似た200億パラメーターの自然言語処理(NLP)AIモデルである。このモデルは、公開されている825GBのテキストデータでトレーニングされており、同様のサイズのGPT-3モデルに匹敵するパフォーマンスを備えている。

リリースはEleutherAIブログで発表された。GPT-NeoX-20Bは、NVIDIA A100-SXM4-40GB GPUを使って、EleutherAIのオープンソースPileデータセットでトレーニングされた。いくつかの一般的なNLPベンチマークタスクで評価した場合、GPT-NeoX-20Bは、OpenAIのCurieモデルとDaVinciモデル間の線形補間に近い精度を達成した。また、MATHテストデータセットでのワンショットパフォーマンスはGPT-3 175Bのパフォーマンスを上回った。EleutherAIは、GPT-NeoX-20Bがオープンソース化されている利用可能な最大の事前トレーニング済み自己回帰言語モデルであると述べている。また、次のようにも述べている。

このサイズのモデルが利用しやすくなることで、これがAIシステムの安全な使用に向けた研究の助けになり、この方向での取り組みに関心のある人が私たちにコンタクトするきっかけになることを願っています。

OpenAIは、2018年に生成型事前トレーニング済みトランスフォーマー(GPT)に関する初の論文を公開した。2019年に1.5BパラメーターGPT-2モデルをリリースした。2020年に、OpenAIは175BパラメーターモデルのGPT-3を発表した。しかし、トレーニング済みモデルのファイルはリリースされなかった。代わりに、OpenAIは、開発者がWebサービス呼び出しを介してモデルをコードに統合できるようにするためのAPIを提供した。それ以来、GPT-2を超える大きさのモデルがいくつかオープンソース化されている。例えば、Megatron-11BPangu-α-13B、MetaのFairseq 13B、EleutherAIの以前のモデルであるGPT-NeoとGPT-J-6bなどである。GPT-J-6bはInfoQが去年記事にしている。

このオープンソースモデルに加えて、数千億、さらには数兆ものパラメータを持つGPT-3といったさらに大きなモデルがある。ただし、EleutherAIによると、これらは「ほぼ例外なく」APIによって制御されるているか、まったく公開されていない。 EleutherAIがモデルをリリースする動機の1つは、このようなモデルへオープンにアクセスできるようにすることが現場での研究を進めるために必要であるという彼らの信念にある。大きなスケールになるほど興味深くなるためである。

GPT-NeoX-20BのアーキテクチャはGPT-3に似ている。ただし、いくつかの重要な違いがある。まず、GPT-NeoX-20Bでは、トークン位置のエンコードのために、学習済み埋め込みでなくロータリーポジション埋め込みが使われる。また、GPT-NeoX-20Bでは、アテンションレイヤーとフィードフォワードレイヤーが直列ではなく並列に計算され、スループットが15%向上している。最後に、GPT-3ではSparseレイヤーとDenseレイヤーを交互に使われるところ、GPT-NeoX-20BではDenseレイヤーのみが使われる。

GPT-NeoX-20Bは、EleutherAIのカスタムコードベース(GPT-NeoXとも呼ばれる)を使ってトレーニングされている。MegatronとDeepSpeedをベースにしており、PyTorchに実装されている。モデルが大きすぎて単一のGPUに収まらないため、チームはトレーニング中にモデルの並列処理とデータの並列処理を使った。さらに、チームの計算予算の制約によりハイパーパラメータ検索が「扱いにくい」ため、GPT-3の論文で公開されているハイパーパラメータを再利用することを選択した。

研究者は、LAMBADAWinoGrandeHendrycksTestナレッジベンチマークやMATHデータセットなど、NLPベンチマークの「幅広いコレクション」でGPT-NeoX-20Bを評価した。彼らは、そのパフォーマンスを以前のGPT-J-6Bモデル、MetaのFairSeq 13B、およびいくつかの異なるサイズのGPT-3と比較した。チームによると、NLPタスクでのGPT-NeoX-20Bのパフォーマンスは「改善の余地あり」だが、科学計算タスクでのパフォーマンスは「優れている」。

EleutherAIの研究者であるConnor Leahy氏は、Twitterでモデルに関するいくつかの質問に答えた。さまざまなランダム初期化シードを試すことによる影響について尋ねられて、Leahyは次のように答えた。

20B実行を1回実施するに足る計算予算しかなかったため、ランダムシードとは比較しませんでした。ただし、小さいモデルでは、シードに基づく顕著な変動は見られませんでした。[大規模な言語モデル]は同じような損失に収束する傾向があり、[強化学習]ほど不安定ではありません。

GPT-NeoX-20Bコードと事前トレーニング済みモデルの重みはGitHubから入手できる

作者について

この記事に星をつける

おすすめ度
スタイル

特集コンテンツ一覧

BT