オックスフォード大学の研究者チームは、ニューラルネットワークAIモデルをトレーニングするためのバックプロパゲーション(BP)アルゴリズムの代替として、ゼロダイバージェンス推論学習(Z-IL)と呼ばれるアルゴリズムを開発した。Z-ILは、任意のニューラルネットワークでBPの結果を正確に再現することが示されているが、BPとは異なり、脳機能の既知の原則に違反していない。
このアルゴリズムは、直近のニューラル情報処理システム会議(NeurIPS)で発表された論文に記載されている。Z-ILは、BPと同じようにニューラルネットワークの重みのアップデートを生成する。ただし、BPとは異なり、Z-ILは、「自然な」ニューラルネットワーク(人間の脳など)のいくつかの観察される特性に合致している。例えば、局所的な可塑性や自律的な更新などである。研究者による最近の研究では、Z-ILがすべての利用できるニューラルネットワークアーキテクチャで機能し、計算効率がBPに匹敵することも示されている。著者が次のように述べている。
全体として、私たちの研究は、脳が[バックプロパゲーションを]実行できるかどうかという長い間争点となっている問題についての議論に対して重要な証拠を提供しています。
今日、深層学習アプリケーションで広く使用されている人工ニューラルネットワーク(ANN)は、生き物の脳を構成する細胞であるニューロンの数学的モデルである。 ANNの初期の実装では、線形分離可能ではない関数を学習できないことが示されました。たとえば、XOR論理関数。 Natureの1986年の論文で、深層学習のパイオニアであるGeoffrey Hintonらは、BP技術を適用して多層ニューラルネットワークをトレーニングした。トレーニングプロセス中に、ネットワークの予測エラーは、自動微分を使用して、出力層から入力層に逆方向に伝播されます。これは、予測エラーを最小限に抑える方法でネットワークの重みを更新するために使用されます。
1989年、Natureの別の記事で、(DNA二重らせんの名声の)Francis Crickは、情報の逆流がないことを考えると、生物学的脳でBPが発生する可能性は「非常に低い」と主張した。 BPでトレーニングされた深層学習モデルは、一部のタスクで人間のような、または人間を超えるパフォーマンスを達成したが、実証済みの生物学的原理に基づいて一般的なAIシステムを構築することに関心のある研究者は、生物学的にもっともらしいトレーニングアルゴリズムの開発に取り組んできました。これらのアルゴリズムは、局所的な可塑性を示す必要があります。つまり、ニューロンの重みは、最小限の外部制御で、局所的な情報のみに基づいて更新されます。
予測コーディング(PC)はそのようなアルゴリズムの1つである。予測コーディングは、ANNと同様に、階層で構成される脳機能のモデルである。ただし、ANNは下位層の出力が上位層への入力であることを前提とする。一方で、PCモデルでは、層の機能は下位層のアクティビティを予測することであり、予測エラーは上位層に送信される。次に、トレーニングアルゴリズムは、エラーを最小限に抑えるためにレイヤーの重みを更新する。ただし、BPとは異なり、PCでは最終的な出力エラーを入力層に「つなぐ」必要はない。代わりに、各レイヤーは、次に上位のレイヤーからの情報のみを使って更新される。PCは神経生理学と一致しており、多くの知覚活動のためのモデルとして機能する。さらに、更新にはローカル情報のみがあればよいため、プロセスはより並列化可能である。
2020年に、エジンバラ大学とサセックス大学の研究者は、arXivに関する論文を発表した。その論文で、PCアルゴリズムがどのニューラルネットワークでもBPを近似できることを実証している。チームは、再帰型ニューラルネットワーク(RNN)と畳み込みニューラルネットワーク(CNN)をトレーニングするための実装コードをオープンソース化した。対照的に、オックスフォードチームは、PCがどのニューラルネットワークでもBPと完全に同じネットワーク重みを生成できることを示した。このチームは自身のアルゴリズムを使用して、AlexNet、ResNet、RNN、Transformerなどのさまざまなアーキテクチャのいくつかのモデルをトレーニングした。その研究者はまた、彼らのアルゴリズムがBPトレーニングに匹敵するランタイムを達成し、以前のPC実装と比較して桁違いに改善されたことを示した。
Hacker Newsのディスカッションで、コメント提供者はPCの並列性の潜在的な利点を挙げた。
この作業により、新しい種類の超並列「ニューロモルフィック」ハードウェアを使用して、レイヤー間の通信帯域幅を増やすことなく、より多くのレイヤーとユニットを桁違いに実装できるようになる。これは、モデルが、次のサンプルに進む前に、最後のレイヤーから最初のレイヤーに勾配がバックプロパゲーションするまで待つ必要がないためである。バックプロパゲーションをGPT-3レベル以上(数兆の密な接続を想像してください)にスケールすることは非常に困難である。それには多くの複雑な配管と簿記が必要となる。
オックスフォードの研究者たちはまた、彼らの研究がニューロモルフィックコンピューティングの新たな発展につながる可能性があると述べている。さらに、彼らは、BP同等物が生物学的システムによってどのように実装されるかを示したため、神経科学研究者に彼らの仕事でBPモデルを使用する正当性を与えるかもしれないと主張している。