BT

最新技術を追い求めるデベロッパのための情報コミュニティ

寄稿

Topics

地域を選ぶ

InfoQ ホームページ ニュース InstaDeep社、ゲノムAIモデル「Nucleotide Transformer」をオープンソース化

InstaDeep社、ゲノムAIモデル「Nucleotide Transformer」をオープンソース化

原文リンク(2024-12-31)

InstaDeep社とNVIDIA社の研究者は、ゲノムデータ用の基礎モデル群である、"Nucleotide Transformers"(NT)をオープンソース化した。最大のNTモデルは25億のパラメーターを持ち、850種の遺伝子配列データで学習された。いくつかのゲノムベンチマークにおいて、他の最先端のゲノム基盤モデルを凌駕している。

InstaDeep社はモデルの技術的説明Nature誌に発表した。NTはエンコーダのみのTransformerアーキテクチャを使用し、"BERT"と同様に、マスクされた言語モデル目標を使用して事前訓練されている。事前に訓練されたNTモデルは、より小さなモデルの特徴として使用するための埋め込みを生成する方法と、言語モデルのヘッドをタスク固有のヘッドに置き換えてファインチューニングする方法の2つの方法で使用できる。InstaDeep社は、エピジェネティックマーク予測やプロモーター配列予測など18の下流タスクでNTを評価し、3つのベースラインモデルと比較した。NTは「タスク全体で最高のパフォーマンス」を達成し、プロモーターとスプライシングタスクでは他のすべてのモデルを上回った。InstaDeep社によると、次のように述べられている。

Nucleotide Transformerは、ゲノミクスにおける新しいアプリケーションへの扉を開くものです。興味深いことに、中間層のプロービングでも、学習中に監視がないにもかかわらず、プロモーターやエンハンサーのようなゲノムの主要な特徴をとらえる豊かな文脈埋め込みが明らかになりました。[我々は]、NTのゼロショット学習能力により、遺伝子変異の影響を[予測]可能であり、病気のメカニズムを理解するための新しいツールを提供する可能性があることを示します。

もっとも優れたNTモデルであるMultispecies 2.5Bは、25億のパラメーターを含み、マウスやヒトなどの哺乳類だけでなく、バクテリア、真菌類、無脊椎動物を含む「多様な門」の850種のデータで学習された。このモデルは、ヒトのデータのみで訓練された25億パラメータのNTモデルを上回ったため、InstaDeep社は、複数種のデータは「ヒトゲノムの理解を向上させる鍵である」と述べている。

InstaDeep社は、Multispecies 2.5Bの性能を他の3つのゲノム基礎モデルEnformerHyenaDNADNABERT-2と比較した。すべてのモデルは、18のダウンストリームタスクごとにファインチューニングされた。Enformerはエンハンサー予測と「いくつかの」クロマチンタスクで最高の性能を示したが、NTは総合的にもっとも優れていた。HyenaDNAが「ヒトリファレンスゲノム」を用いてトレーニングされたにもかかわらず、すべてのタスクでHyenaDNAを上回った。

InstaDeep社は、下流タスクでの使用に加えて、遺伝子変異の重症度を予測するモデルの能力も調査した。これは、埋め込み空間におけるコサイン距離を使って計算された配列の「ゼロショットスコア」を使って行われた。彼らは、このスコアが重症度と「中程度」の相関を示したと述べている。

Instadeep社の従業員BioGeekは、Huggingfaceノートブックで使用例を指摘しながら、この仕事に関するHacker Newsでの議論に参加した。BioGeekはまた、ChatNTと呼ばれるInstadeepの以前のモデルについても言及した。

「ヒトRNA配列@myseq.fnaの分解率を-5から5までのスケールで判定してください。」のような自然言語による質問をすると、ChatNTは「この配列の分解率は1.83です。」と答えてくれます。

ある別のユーザーは、こう発言した。

私は仕事でこのようなモデルをたくさん試しています。彼らは基本的にDNAが重要な機能を持つ場所がどこにあるのか、その機能が何なのかを学習します。非常に近似的なものですが、今までは配列だけで他のデータがない状態から行うのは非常に困難でした。

Nucleotide TransformersのコードはGitHubで公開されている。モデルファイルはHuggingfaceからダウンロードできる。

作者について

関連するコンテンツ

BT