Google Brainは、ディープラーニングのコンピュータービジョンモデルであるBig Transfer(BiT)向けに事前トレーニング済みモデルと微調整コードをリリースした。このモデルは、公開されている一般的な画像データセットで事前にトレーニングされており、わずか数個のサンプルを微調整すると、いくつかのビジョンベンチマークで最先端のパフォーマンスと同等か上回ることができる。
論文の共著者であるLucas Beyer氏とAlexander Kolesnikov氏は、最近のブログ投稿で彼らの仕事の概要を説明した。深層学習ビジョンモデルのパフォーマンスを向上させるために、チームは大規模な事前トレーニングに時間をかけた。そして、モデルサイズ、データセットサイズ、トレーニング期間、正規化戦略、ハイパーパラメータの選択の影響を調査した。この作業の結果、チームはコンポーネントとトレーニングヒューリスティックの「レシピ」を開発した。これによって、ObjectNetデータセットの「前例のないトップ5の精度80.0%」など、さまざまなベンチマークで大きなパフォーマンスを達成した。Beyer氏とKolesnikov氏は述べている。
[Big Transfer]を使用すると、クラスごとにラベル付けされた画像がほんの一握りであっても、誰でも関心のあるタスクで最先端のパフォーマンスを実現できます。
深層学習モデルは、コンピュータービジョン、特に画像内のオブジェクトの認識において大きな進歩を遂げた。この成功の鍵の1つは、大規模なラベル付きデータセットが利用できたことにある。具体的には、画像のコレクションと、それに含まれるオブジェクトの対応するテキストの記述である。これらのデータセットは手動で作成する必要があり、人間の作業員が数千の画像のそれぞれにラベル付けする。たとえば、人気のあるImageNetデータセットには、21,000の異なるオブジェクトクラスを含む1,400万を超えるラベル付き画像が含まれている。ただし、画像は通常一般的なものであり、人、ペット、家庭用品などのありふれた対象物である。特殊なタスク、たとえば産業用ロボット用に同様の規模のデータセットを作成することは、法外に費用がかかったり、時間がかかる可能性がある。
この状況では、AIエンジニアは転移学習を適用することがよくある。これは、大規模な自然言語処理(NLP)モデルで一般的になっている戦略である。まず、ニューラルネットワークを使って、テストデータセットで特定のレベルのパフォーマンスを達成するまで、大規模な汎用データセットで事前トレーニングされる。次に、モデルは、より小さなタスク固有のデータセットで、時にはタスク固有のオブジェクトの1つの例で、微調整される。大規模なNLPモデルは、転送学習を使用して、新しい最先端のパフォーマンスレベルを定期的にセットする。
BiTの場合、Googleの研究者はResNet-v2ニューラルアーキテクチャを使用した。事前トレーニングデータセットサイズの影響を調査するために、チームは、異なるデータセットで事前トレーニングされた3つのモデルのグループに対して同じ実験をした。その3つは、ILSVRC-2012の128万枚の画像で事前トレーニングされたBiT-Sモデル、ImageNet-21kの14,20万枚の画像で事前トレーニングされたBiT-Mモデル、JFT-300Mの3億枚の画像で事前トレーニングされたBiT-Lモデルである。次に、モデルを微調整し、ILSVRC-2012、CIFAR-10/100、Oxford-IIIT Pet、Oxford Flowers-102などのいくつかの一般的なベンチマークで評価した。
チームは、実験から得られたいくつかの発見に言及した。まず、モデルサイズを大きくすることによるメリットは、小さなデータセットでは小さくなり、大きなデータセットで小さなモデルを事前トレーニングすることにはほとんどメリットがなかった。2つ目に、大規模モデルは、バッチ正規化と比較して、グループ正規化を使用した方がパフォーマンスが向上した。最後に、微調整中のコストのかかるハイパーパラメータ検索を回避するために、チームはBiT-HyperRuleと呼ばれるヒューリスティックを開発した。このヒューリスティックでは、「トレーニングスケジュールの長さ、解像度、およびMixUp正則化を使用するかどうか」を除くすべてのハイパーパラメータが固定されている。
Googleは、BiT-SおよびBiT-Mグループから最高のパフォーマンスを発揮する事前トレーニング済みモデルをリリースした。ただし、JFT-300Mデータセットに基づくBiT-Lモデルはリリースされていない。Hacker Newsのコメント投稿者は、JFT-300Mでトレーニングされたモデルはこれまでにリリースされていないと指摘した。あるコメント投稿者は、Facebookがリリースした、さらに大きなデータセットで事前トレーニングされたいくつかのモデルを指摘した。次のように言っている人もいる。
法的/著作権の問題がリリースを妨げるのではないかと思いました。モデルは派生作品であると主張しようとする人が常にいます。JFT-300Mの論文には、公共の再配布をカバーするライセンスがあることについては何も言及されていません。
微調整を残すのみのコードと、リリースされた事前トレーニング済みモデルを使用するためのとチュートリアルは、GitHubで入手できる。