MIT、延世大学、ブラジリア大学の研究者チームが新しいWebサイトComputer Progressを立ち上げた。1,000を超える深層学習研究論文の計算負荷を分析するものだ。このサイトのデータにより、計算負荷が予想よりも速く増加していることが示されている。アルゴリズムにはまだ改善の余地があることを示している。
主任研究員のNeil Thompson氏がTwitterで発表した。Thompson氏は、MIT-IBM Watson AI LabのKristjan Greenewald氏、延世大学のKeeheon Lee教授、ブラジリア大学のGabriel Manso氏とともに、IEEE Spectrumに掲載された記事で、この取り組みの動機とその結果について詳しく説明した。チームは、arXivからの1,058の深層学習研究論文を分析して、モデルのパフォーマンスを、計算負荷あるいはモデルのトレーニングに必要な計算リソースの量に関連付けるスケーリング式を決定した。理論的には、計算負荷の下限は、パフォーマンスに関する4次多項式となる。ただし、研究者は、現在のアルゴリズムの方がはるかに悪いことを発見した。たとえば、彼らが発見したのは、ImageNet画像分類アルゴリズムは9次多項式としてスケーリングするということだ。これは、エラー率を半分に減らすために計算の500倍を必要とするものである。著者によると、これらのスケーリングのトレンドが示すことは、研究者がより良いアルゴリズムを探す必要があることだ。
経済的および環境的に破滅的な計算スケーリングに直面した場合、私たちは、ディープラーニングの方法を変えていくか、そうでなければ、はるかに遅い進歩の未来に直面することになります。
ディープニューラルネットワークは、多くの場合、パラメータが過剰になっている。つまり、トレーニングデータサイズで予想されるよりも多くのモデルパラメータがある。経験的に、これはモデルのパフォーマンスと一般化を改善することが示されているが、確率的勾配降下法(SGD)や正則化などのトレーニング方法はモデルの過剰適合を防ぐ。研究者はまた、モデルのパフォーマンスまたは精度を向上させるには、トレーニングデータを増やす必要があることを発見した。それに応じてモデルのサイズも大きくなる。パフォーマンスの向上にはトレーニングデータサイズの2次関数的増加が要求され、計算量がモデルパラメータとともに2次関数的に増加すると仮定すると、Thompson氏と彼の同僚は、パフォーマンスの4乗で計算量が増加するという理論上の下限を述べている。
この仮説を検証するために、研究者は、画像認識、オブジェクト検出、質問応答、固有表現抽出、機械翻訳など、コンピュータービジョン(CV)と自然言語処理(NLP)のいくつかの分野に関するディープラーニングの論文をレビューした。論文から、モデルのトレーニングの計算負荷で説明されるモデルの精度メトリックを抽出した。これは、プロセッサ数×計算レート×時間(基本的には浮動小数点演算の総数)として定義される。次に、線形回帰を実施して、モデルのパフォーマンスを計算量の関数として表現した。これらの方程式は、モデルのパフォーマンスが理論によって予測された4次多項式よりもはるかに悪いことを示している。質問応答の7.7次から、オブジェクト検出、固有表現抽出、機械翻訳の「約50」次の多項式まである。
ただし、これらのスケーリングの課題は、アルゴリズムの改善によって解決できる可能性がある。MITチームの調査によると「3年間のアルゴリズムの改善は、10倍の計算能力の向上に相当する」。2020年に、OpenAIは画像認識アルゴリズムについて同様の調査を行った。その調査で「2012年以降、ニューラルネットをImageNet分類で同じパフォーマンスにトレーニングするために必要な計算量が16か月ごとに2分の1に減少している」ことを発見した。最近、Thompson氏と同僚が、コンピューターネットワーキング、信号処理、オペレーティングシステム、暗号化など、113のコンピューターアルゴリズム問題領域の調査を実施した。アルゴリズムの改善によって問題解決のパフォーマンスがどのように向上したかを分析するためだ。彼らは、問題の「約半分」または「アルゴリズムファミリー」は改善していなかったが、14%が「変革的」改善を達成し、30%~43%が「ユーザがムーアの法則から経験したものと同等以上の改善」を達成したことを発見した。
Computer Progressチームは、ディープラーニングの効率を向上させる可能性のあるいくつかの補完的なアプローチも提案した。その多くはInfoQで取り上げられている。光コンピューティングでは、大規模な深層学習モデルに必要な電力消費を削減でき、モデル全体のサイズは、量子化と枝刈りによって対処できる。メタ学習では、モデルトレーニングを完了するために必要なトレーニングサイクルの数を減らす方法が提供されている。
Computer ProgressのWebサイトでは、コンピューティングとパフォーマンスのスケーリングデータと原論文へのリンクを提供している。また、研究者が自身のパフォーマンス結果を提供するよう求めている。