ワシントン大学(UW)、Google Brain、コロンビア大学の研究者チームは、ファインチューニングのための重み空間アンサンブル(WiSE-FT)をオープンソース化した。これは、分布シフト時のロバスト性を向上させるファインチューニングAIモデルのためのアルゴリズムである。いくつかのコンピュータービジョン(CV)ベンチマークでの実験では、WISE-FTの精度が最大6パーセントポイント向上したことが示されている。
当アルゴリズムといくつかの実験が、次のコンピュータビジョンとパターン認識(CVPR)に関する会議で承諾された論文で説明されている。WiSE-FTは、ファインチューニングされたモデルの重みを元のモデルの重みと組み合わせるためのアルゴリズムである。結果として得られるアンサンブルモデルは、分布シフト時(つまり、入力データのパターンがトレーニングデータと異なる場合)により高い精度を示すと共に、分布内のデータに対して高精度を維持している。ImageNetベンチマークデータセットのシフトバージョンを使った一連の実験では、WiSE-FTを使ってファインチューニングされたCLIPベースの画像分類器が、他の強力なモデルよりも優れていた。研究者は次のように述べている。
WiSE-FTは、より洗練されたファインチューニングスキームへの第一歩と見ています。今後の取り組みとして、より信頼性の高いニューラルネットワークを構築するためにゼロショットモデルのロバスト性を活用し続けると予想しています。
ディープラーニングモデルを最初からトレーニングするには、大規模なデータセットとかなりの計算リソースが必要になる。そのため、多くの開発者は、CLIPやGPT-3などの事前トレーニング済みモデルを出発点として使い始めている。これらのモデルは、モデルの重みを更新する必要がないゼロショット/数ショットの設定で使える。一方で、多くの場合、タスク固有のデータセットを使って、追加トレーニングを行い、モデルの重みを更新することでファインチューニングできる。ただし、これにより、分布外のデータではパフォーマンスが低下する一方で、分布内のデータではパフォーマンスが非常に高くなる最終モデルが作成される。分布外のデータとは、データの統計値がトレーニングデータの統計値と一致しないことである。
この分布シフトは実稼働環境で非常に頻繁に発生するため、UWチームは、ファインチューニングされたモデルのロバスト性を向上させる方法を調査した。結果として得られたアルゴリズムでは、「PyTorchの数行で」実装でき、それはオリジナルのモデルとファインチューニングされたモデルの重みの線形補間である。混合係数を使って、最終結果が2つのうちの一方に強い影響を受けるようにすることができる。しかし、研究者は幅広い実験で、中立的な混合によって「最適に近い性能」となると判断した。ロバスト性の利点に加えて、WiSE-FTは、ファインチューニングプロセス中や推論中に追加で計算する必要がない。
アルゴリズムをテストするために、チームはCLIPに基づいて画像分類モデルを構築した。そこに最終的な線形レイヤーを追加して出力を生成した。モデルは、ImageNetデータセットを使ってファインチューニングされ、ImageNetから派生した5つの異なる分布シフトされたデータセット(ImageNet-V2、ImageNet-R、ImageNet Sketch、ObjectNet、ImageNet-A)で評価された。WiSE-FTを使うと、結果のモデルは、リファレンスとなるImageNetテストデータとシフトされたデータセットの両方で、以前のファインチューニングされたCLIP分類器を上回った。
ワシントン大学の博士課程の学生で共著者のGabriel Ilharco氏はTwitterで、その取り組みに関する質問に答えた。ある投稿者は、オリジナルのモデルを含めずに、いくつかのファインチューニングされたモデルのアンサンブルを使用することについて質問した。Ilharco氏は次の通り回答した。
標準モデルを(出力空間で)ロバストモデルとアンサンブルすると、標準モデルのロバスト性を大幅に向上できることがわかりました。2つのロバストでないモデルをアンサンブルしても、効果的なロバスト性は得られません。
WiSE-FTのコードと論文の実験は、GitHubから入手できる。