マサチューセッツ工科大学、カリフォルニア工科大学、ノースイースタン大学の研究者が、新しいタイプのニューラルネットワークを作成した、Kolmogorov–Arnold Networks(KAN)である。KANモデルは、物理モデリング・タスクにおいて、より大きなパーセプトロン・ベースのモデルを凌ぐ性能を示し、より解釈しやすい可視化を提供する。
KANは、Kolmogorov–Arnold表現定理にインスパイアされたもので、この定理は多変数の複雑な関数を複数の単一変数の関数の和として書き直せることを示している。現在のニューラルネットワークはパーセプトロンをベースにしており、パーセプトロンは入力の線形結合を作るための重みのセットを学習しそれを活性化関数に渡すが、 KANは各入力に対する活性化関数を学習し、それらの関数の出力を合計する。研究者たちは物理学と数学のいくつかの問題をモデル化するタスクについて、KANと従来の多層パーセプトロン(MLP)ニューラルネットワークの性能を比較し、KANの方が少ないパラメーターでより優れた精度を達成することを発見した。場合によっては100倍の精度を100分の1のパラメーターで達成することも。研究チームはまた、KANの活性化関数を視覚化することで、ユーザーがモデル化された物理プロセスを表す記号式を発見するのに役立つことも示している。研究チームによると
大規模言語モデルが非常に革新的である理由は、自然言語を話せる人なら誰でも使えるからです。科学の言語は関数です。KANは解釈可能な関数で構成されているため、 ユーザー(人間)がKANを使うときは関数を言語としてKANとコミュニケーションするようなものです。
KANはMLPに似た構造を持つが、各入力の重みを学習するのではなく、スプライン関数を学習する。そのレイヤー構造により、研究チームはKANがデータの特徴を学習できるだけでなく、「スプライン関数により学習した特徴を非常に高い精度で最適化できる」ことを示した。研究チームはまた、KANがMLPと同じスケーリング法則に従うことを示し、精度を向上させるためにパラメータ数を増やすことができ、「スプラインのグリッドを細かくするだけ」で学習済みKANのパラメータ数を増やしたり、精度も向上させることができる 」ことを発見した。
研究チームは、ユーザー(人間)がKANを解釈し編集できるインターフェースを作成した。この可視化では、規模の小さい活性化関数が「フェードアウト」されるため、ユーザーは重要な関数に集中できる。ユーザーは重要でないノードを枝刈りすることでKANを簡略化、KANを単純化できる。また、スプライン関数を調べ、必要に応じて三角関数や対数関数のような記号形式に置き換えることもできる。
Hacker NewsのKANに関するディスカッションで、あるユーザーがKANと従来のニューラルネットワーク比較(NN)体験を共有している。
私の主な発見は、KANはNNに比べて訓練が非常に難しいということです。通常、NNとほぼ同等のパラメータあたりの損失を得ることは 可能ですが、多くのハイパーパラメータチューニングと KANアーキテクチャ特有のトリックが必要です。それに比べ、基本的なニューラルネットワークは訓練がはるかに簡単で、より幅広い条件下でうまく機能しました。一部の人々は、ニューラルネットワーク(NN)の効率的なトレーニングに非常に多くの努力を注いできたこと、MLライブラリの多くの要素(例.Adamのような最適化手法)がNNのために特に設計され最適化されていることから、単純に比較するのは適切ではないとコメントしました。
KANのソースコードはGitHubで公開されている。