Meta AIは改良された新世代の畳み込みネットワークをリリースした。Image-Net top-1データセットで87.8%の精度の最先端のパフォーマンスを達成し、オブジェクト検出パフォーマンスを評価できるCOCOデータセットでSwin Transformersを上回った。
新しい畳み込みネットワーク(ConvNeXt)では、Resnetモデル(現在の畳み込みの最先端技術)をスタートベースラインとして使用している。新しい設計とトレーニングのアプローチは、Swin Transformersモデルから着想を得ている。重要なことは、Swin Transformersがビジュアルトランスフォーマーと呼ばれる新しいタイプのアーキテクチャを使用した画像分類のための以前の最先端のディープラーニング手法であったということである。
図1 - 出典 2020年代のConvNet
より良いモデルトレーニングのために使われた手法は、データ効率の高い画像トランスフォーマーとSwin Transformersアプローチに基づいており、Resnet-50の精度が76.1%から78.8%に向上した。
精度を上げるための2番目の戦略は、ストライド2のResNet 7*7カーネルをストライド4のカーネル4*4に変更することで、精度が79.4%から79.5%に向上した。
もう1つの重要な改善点は、ResNeXt設計の使用であり、ネットワークパフォーマンスが80.5%になった。
Resnet-50への「最終的な」アップグレードは残差ブロックの再設計であった。これは、Swin Transformブロックにインスピレーションを受けたものである。
この新しいモデルの大きなメリットはスケーラビリティである。つまり、提供されるデータが増えると精度が向上する。さらに、ConvNeXtでは、畳み込みネットワークが画像分類に関して最適化され、より良い結果を達成することが証明されている。
図2 - 出典 2020年代のConvNet
PyTorchでのフレームワークの実装は、GitHubでリリースされた。一旦、Image-Net-1K、Image-Net-22Kでトレーニングされた事前トレーニング済みのモデルの重みがつけられている。Image-Net-1Kのトレーニングには、次のコマンドを使用する。
python run_with_submitit.py --nodes 4 --ngpus 8 \
--model convnext_tiny --drop_path 0.1 \
--batch_size 128 --lr 4e-3 --update_freq 1 \
--model_ema true --model_ema_eval true \
--data_path /path/to/imagenet-1k \
--job_dir /path/to/save_results
コードリリースに加えて、HuggingFaceプラットフォームを使ってWebのデモが開発された。このデモでは、任意の画像を入力すると、ラベルが生成される。
この新しいフレームワークのリリースは、ソーシャルメディア、特にTwitterのLucas Beyerのような最先端の開発者から多くの注目を集めている。
Twitterでも、EfficientNetの共同開発者は、EfficientNetV2でも同様のパフォーマンスを達成できると説明している。