BT

最新技術を追い求めるデベロッパのための情報コミュニティ

寄稿

Topics

地域を選ぶ

InfoQ ホームページ ニュース Googleが20億パラメータのAIビジョンモデルをトレーニング

Googleが20億パラメータのAIビジョンモデルをトレーニング

原文(投稿日:2021/06/22)へのリンク

Google Brainの研究者は、20億個のパラメータを含む深層学習コンピュータビジョン(CV)モデルを発表した。このモデルは30億枚の画像でトレーニングされ、ImageNetで90.45%のトップの精度を達成し、新たに最先端の記録を打ち立てた。

チームは、arXivで公開された論文でモデルと実験について説明した。ViT-G/14と呼ばれるこのモデルは、Googleの最近のVision Transformers(ViT)に関する取り組みをベースとしている。ViT-G/14は、ImageNetImageNet-v2VTAB-1kなど、いくつかのベンチマークで以前の最先端のソリューションを上回った。数ショットの画像認識タスクでは、精度の向上は5パーセントポイント以上であった。研究者はまた、アーキテクチャのスケーリング則を調査するために小さなバージョンのモデルをいくつかトレーニングした。そして、パフォーマンスが自然言語処理(NLP)タスクに使用されるTransformerモデルと同様にべき乗則関数に従うことに気が付いた。

2017年にGoogleの研究者によって最初に説明された、Transformerアーキテクチャは、NLPディープラーニングモデルのための主要な設計になっている。OpenAIのGPT-3は最も有名なものの1つである。昨年、OpenAIはこれらのモデルのスケーリングの法則を説明する論文を発表した。OpenAIは、多くの同様のモデルをさまざまなサイズでトレーニングし、トレーニングデータと計算能力の量を変えることにより、モデルの精度を推定するためのべき乗則関数を決定した。さらに、OpenAIは、大規模なモデルのパフォーマンスが向上するだけでなく、計算効率も向上することを発見した。

NLPモデルとは対照的に、ほとんどの最先端のCV深層学習モデルは畳み込みニューラルネットワーク(CNN)アーキテクチャを使っている。1989年に最初に説明されたアーキテクチャは、2012年にCNNモデルがImageNetチャレンジに勝利した後、優位となった。NLPスペースでのTransformerの最近の成功により、研究者はビジョンタスクでのパフォーマンスの調査を開始した。たとえば、OpenAIは最近、GPT-3に基づく画像生成システムを開発した。特にGoogleはこの分野で積極的に活動しており、独自のJFT-300Mデータセットを使って、2020年後半に6億パラメータのViTモデルをトレーニングしている。

新しいViT-G/14モデルは、データセットの更新されたバージョンであるJFT-3Bで事前トレーニングされている。JFT-3Bは30億近くの画像を含んでいる。研究チームは、ViTアーキテクチャをいくつか改善した。メモリ使用率を改善して、モデルを単一のTPUv3コアに適合させることができた。ViT-G/14と他の小型モデルのパフォーマンスを評価するために、チームは事前トレーニング済みモデルに対して、数ショットと微調整の両方の転送学習を実行した。チームはその結果を使って、NLPの法則と同様のスケーリングの法則を定めた。

  • 計算、モデル、データをスケールアップさせると、べき乗則関数に従って、精度が向上する
  • 小さいモデルでは精度がボトルネックになる可能性がある
  • 大規模なモデルは、大規模なデータセットよるメリットがある

ImageNetリーダーボードには、現在ViT-G/14のスコアが最初にリスト化されている。次に高いスコアの8つのモデルもGoogleの研究者によって開発された。一方で、10位のモデルはFacebookによって開発された。Twitterでのディスカッションで、ユーザは、GoogleがViT-G/14のコードとモデルの重み付けをリリースする予定があるかどうかを尋ねた。研究チームのメンバーであるLucas Beyer氏は、次のように答えた

重み付けは絶対にありません。それは内部データで訓練されます!コードについては良い質問です。公開されている元のViTコードに非常に近いため、計画していませんでしたが、新しい部品を追加するのはよいアイデアかもしれません。

Googleは、昨年の6億パラメーターViTモデルのコードと重み付けをGitHubでリリースした。

この記事に星をつける

おすすめ度
スタイル

BT