BT

最新技術を追い求めるデベロッパのための情報コミュニティ

寄稿

Topics

地域を選ぶ

InfoQ ホームページ ニュース Metaが1750億パラメータAI言語モデルのOPTをオープンソース化

Metaが1750億パラメータAI言語モデルのOPTをオープンソース化

原文(投稿日:2022/06/07)へのリンク

Meta AI Researchは、1750億パラメーターAI言語モデルのOpen Pre-trained Transformer(OPT-175B)をリリースした。このモデルは1800億のトークンを含むデータセットでトレーニングされている。GPT-3と同等のパフォーマンスを示す一方で、必要なカーボンフットプリントはGPT-3トレーニングの7分の1のみである。

このリリースは、Metaの研究者のSusan Zhang氏、Mona Diab氏、Luke Zettlemoyer氏によって書かれたブログ投稿で発表された。AIについてオープンで再現性のある研究を促進するために、Metaはコードとトレーニングされたモデルの重みだけでなく、トレーニングプロセス中に遭遇した課題を文書化した完全な運用ログブックもリリースした。このモデルは非営利ライセンスでリリースされており、「政府、市民社会、学界といった組織に所属する」研究者や業界の研究者が使うことを目的としている。完全な1750億モデルへのアクセスは、申請プロセスを通して許可を得る必要があるが、1億2500万から300億のパラメーター範囲の小さいバージョンは、HuggingFace Transformersライブラリの一部としてダウンロードできる。Zhang氏らは次のように述べている。

再現性のある研究を実施し、共同でこの領域を前進させるために、AIコミュニティの非常に多くがこれらのモデルにアクセスする必要があります。私たちは、OPT-175Bのリリースと小規模なベースラインにより、このようなテクノロジーの倫理的な考慮事項を定義する声の多様性が高まることを望んでいます。

Transformerの深層学習アーキテクチャは、言語モデルのデファクトスタンダードになった。研究者は、モデルとトレーニングデータセットの両方のサイズを大きくすることで、素晴らしい結果を達成した。研究の多くは、GPT-3やPaLMなどの自己回帰型でデコーダーのみのモデルにフォーカスしている。これらのモデルでは、多くの自然言語処理(NLP)ベンチマークで平均的な人間と同じように機能する。EleutherAIなどの一部の研究機関は、トレーニング済みモデルの重みを利用できるようにしているが、ほとんどの商用モデルでは、一般ユーザが完全にアクセスできないか、APIによってゲートがたてられている。アクセスができないことで、研究者は、毒性(Toxicity)やバイアスなど、既知のモデルパフォーマンス問題の領域の原因を分析することが難しくなる。

Metaの研究者は、GPT-3をベースにOPT設計しており、OpenAIの研究論文で概説されているアーキテクチャとハイパーパラメータを使っている。トレーニングデータについては、チームはRoBERTaのトレーニングに使ったデータセットをPileデータセットおよびPushShift.io データセットと連結した。結合されたデータセットがクリーンアップされて重複排除された後、全体として、最終的なコーパスには約1800億のトークンが含まれていた。MetaのFully Sharded Data Parallel(FSDP)ツールとNVIDIAのMegatron-LMフレームワークの組み合わせを使って、トレーニングプロセスにおいて高スループットとエネルギー効率の両方が達成された。

これまでの多くの研究とは異なり、OPTチームはログブックもリリースした。このログブックには、実験的なトレーニングの実行、実行時の例外、オンコールエンジニアの応答に関するメモ、そしてデバッグプレイブックが含まれる。研究者はまた、2か月間のトレーニング中にプロセスに対して行われた調整について訴えている。「かなりの」数のハードウェア障害が発生し、それによって、35回のトレーニングを再実行し、100を超えるホストの再起動が発生した。また、チームはトレーニング中にトレーニングオプティマイザーをAdamWから「バニラSGD」に切り替えたり、元に戻したり、Megatronの新しいバージョンにアップグレードしたりするなど、いくつかコード変更を行った。

Hacker Newsのログブックに関するディスカッションで、あるユーザはプロセスがいかに「ハッキー(アマチュアっぽく不器用)」であるかを指摘した。一方で、別のユーザはその場で調整を行うことは実際には当たり前のことであると述べた。また、別のユーザーは次のように述べている。

大きなトレーニングクラスタ内のGPUで発生するハードウェア/ドライバーの問題が大量にない場合でも、このような巨大なモデルをトレーニングするのがどれほど難しいかがわかります。失敗の多くには、すぐに気づくような原因はありません。さらに、この規模でトレーニングを行っているところはそれほど多くないです。そのため、こういった多くのことを自分たちで見つけ出す必要があると想像しています。

OPTコードログブックはGitHubから入手できる。

作者について

この記事に星をつける

おすすめ度
スタイル

BT