カーネギーメロン大学(CMU)の近似的に正しいマシンインテリジェンス(ACMI)ラボの研究者が、ランダム割り当て、訓練、追跡(RATT)に関する論文を発表した。ノイズの多いトレーニングデータを使って、深層学習モデルのTrueエラーのリスクの上限を示すアルゴリズムに関しての論文である。RATTを使って、モデルの開発者は、モデルが新しい入力データにどの程度一般化されるかを判断できる。
近く開催される機械学習に関する国際会議(ICML)に提出された論文の中で、研究者はRATTが保証されることを数学的に証明した。そして、自然言語処理 (NLP) とコンピュータービジョン (CV) モデルのいくつかのベンチマークデータセットで実験を行っている。この論文では、訓練されたモデルがランダムにラベル付けされた(またはノイズの多い)データで高い誤差を示し、クリーンなデータで低い誤差が示される場合、そのモデルでは新しい入力データで低い誤差率が保証されることが示されている。そして、トレーニング時の誤差から誤差の上限を計算できることが示されている。著者は次のように述べている。
この取り組みは、観測されたことのないラベル付きデータが利用できない場合でもディープネットの一般化を証明することに対する一つの選択肢を実務者に提供しています。そして、ランダムラベルノイズと一般化の関係に関する理論的な考察を提供しています。
一般化とは、学習したモデルが観測されたことのない入力データに対して正しい出力を生成する能力である。それはつまり、トレーニング中に使用されなかったデータである。大規模な深層学習モデルの一般化能力は、特にトレーニングデータサンプルよりも多くのパラメーターを持つモデルの場合、よく理解されていない。たとえば、これらのモデルは、ランダムな入力データでも低いトレーニング誤差を達成できることを示すことがある。これは、トレーニングデータを本質的に記憶していることを示している。しかし、実際のデータセットでトレーニングすると、実際に目に見えないデータに対して一般化できる。
モデルの一般化能力は、入力母集団全体で計算された平均誤差またはリスクによって測定される。モデルの真のリスクを決定することは、不可能ではないにしても困難な可能性がある。一方で、理論上の上限を計算するための手法がある。しかし、多くの場合、これらの手法は意味のない上限を生成し、モデルがすべての答えを間違えるよりは悪くないと予測する。実際には、ほとんどのモデル開発者は、トレーニングデータの一部を提供し、このテストセットでトレーニング済みモデルを評価して、その一般化能力の推定値を得ることができる。
CMUチームは、最近の研究で、深層学習モデルがクリーンデータとノイズデータの組み合わせでトレーニングされた場合、初期学習現象が現れることが示されていることに注意した。モデルは最初にクリーンデータに適合し、その後ノイズデータを記憶する。次に、研究者は、モデルがクリーンデータとノイズータのこのような組み合わせでトレーニングされ、クリーンデータでの平均トレーニング誤差が低く、ノイズデータの平均トレーニング誤差が高い(約50%)場合、モデルのリスクには、2つのトレーニング誤差平均の関数となる有意な上限があることを証明した。この境界は、クリーンデータでの平均誤差よりもわずかに大きくなるが、それでも比較的低い値である。
証明をさらに検証するために、研究者たちは共通のベンチマークデータセットを使っていくつかの深層学習モデルをトレーニングした。MNISTとCIFAR-10の画像データセットを使って、多層パーセプトロン(MLP)とResNet18モデルをトレーニングした。IMDb感情分析データセットは、長短期記憶(LSTM)をトレーニングし、BERTモデルを微調整するために使われた。トレーニングの前に、チームは、ノイズの多いデータを作成するために、各データセットのごく一部を確保し、そのサンプルに新しいラベルをランダムに割り当てた。モデルは、クリーンデータとノイズデータの両方を使ってトレーニングされ、セットからの誤差を追跡した(故に、RATTと呼ばれる)。チームは、証明から予測された精度の境界を、クリーンデータのみでトレーニングされたモデル上で従来のテストセット評価を使って計算された実際の精度と比較した。予測された境界はテストのパフォーマンスに近かった。たとえば、MNISTデータでのResNet18モデルの予測精度は96.8%であったが、実際の精度は98.8%であった。
Twitteのディスカッションで、1人のユーザが、モデルがノイズデータを記憶しないようにする方法について質問した。ACMIラボのリーダーで共著者のZachary Lipton氏は次のように答えた。
そのモデルが、最終的に完全に記憶するものであっても、このメカニズムが一般化を保証する時点で、そもそも完全に「近い」精度に達します。
一般化は、現在、企業だけでなく学界でも活発な研究分野である。Microsoftは最近、International Conference on Learning Representations(ICLR)で論文を発表した。この論文では、蒸留技法を使って、モデルを同等だが複雑でないモデルに変換する方法を示している。その一般化境界の計算は、より扱いやすいものとなる。2019年、Googleはニューラルネットワークの特性と一般化の関係を研究する論文を発表し、研究で使用したモデルをオープンソース化した。