スタンフォード大学は先頃、急増するマシンラーニングの研究機関やスタートアップを対象に、大規模な学習済みディープネットワーク(BERT、GPT-3、CLIPなど)を専門的に研究する新たな研究センターである、Center for Research on Foundation Models (CRFM)を発表した。
学際的な研究センターとして、コンピュータサイエンスや法律、心理学、政治学といった部門から、32名の教職員が参加する。CRFMのおもな目的は、将来的な責任あるマシンラーニング(responsible machine learning)の実現に向けて、その基盤モデルの研究に着手し、新たな戦略を立案することである。
今回の発表に合わせて、イメージや自然言語理解といった大規模アプリケーションにおいて、バックボーン・ディープネットワークとして基盤モデルを使用することのメリットとデメリットを述べた、詳細な報告書も公開された。これらのダウンストリームアプリケーションは、基本ネットワークのウェイトを微調整することで開発される。基盤モデル自体は、さまざまなソースから収集した公開データを使って大掛かりな自己教師(self-supervision)トレーニングを実施したFSL(few-shot learner)として提供される。
このように同じ基本モデルを採用する状況が、結果的に均質性(homogeneity)を生み出すことになる、と論文では述べられている。均質な大容量のネットワークの使用は微調整を容易にする反面、その均質性がダウンストリームタスクに対して、倫理面での潜在的危険や社会的不平等をもたらすことにもなる。そのようなモデルの公平性に関する研究は特別な学際的研究活動に値するものである、という点が論文では強調されている。
論文が指摘するもうひとつの問題点は、アクセシビリティの欠如である。過去10年間、ディープラーニング研究コミュニティでは、新たなアイデアの伝搬と、再生産性の向上とハイペースな開発とを両立させる手段としてオープンソースが支持され、CaffeやTensorflow、Pytorch、MXNetといったオープンソースのディープネットワーク開発フレームワークがディープラーニングの一般化と民主化に大きな役割を果たしてきた。しかしながら、ディープネットワークのサイズが10億パラメータをはるかに超えることにより、業界をリードするような研究コードのリポジトリやデータセットが非公開になったり(例:GPT-2)、APIエンドポイントで有償化されたり(例:GPT-3)するようになっている。CRFMの研究者たちはこの障壁の危険性を強調すると同時に、可能な解決策としての公的資金提供の重要性を指摘している。
ディープネットワークのアプリケーションが増えたことにより、ディープラーニングの理解と理論に関する研究が注目を集めている。適切な分析を伴わないディープラーニングの直接的使用は、これまでにもマシンラーニングのカンファレンスにおいて議論の的になってきた。ディープニューラルネットワークは解釈可能性を制限する非線形関数のカスケードによって構成されており、このカスケードされた関数を分析する際の数学的な困難さが大きな問題となっている。そのため、研究活動の多くは比較的単純な全結合モデルの解析を対象としているのが現実だ。CRFMはこの単純化されたモデルを超えて、一般的に使用されるトレーニング済みネットワークのための実用的アイデアを提供することを目標としている。