BT

最新技術を追い求めるデベロッパのための情報コミュニティ

寄稿

Topics

地域を選ぶ

InfoQ ホームページ ニュース AlphaFoldアルゴリズムがCOVID-19タンパク質構造を予測

AlphaFoldアルゴリズムがCOVID-19タンパク質構造を予測

原文(投稿日:2020/03/31)へのリンク

COVID-19の症例数の増加に伴い、DeepMindはAlphaFoldアルゴリズムを利用して、COVID-19に関連するさまざまなタンパク質構造を予測した。アミノ酸のシーケンス、タンパク質の構成要素を考えると、AlphaFoldは3次元のタンパク質構造を予測することができる。通常、アミノ酸のシーケンスから3次元構造への移行は長期的で集中的なプロセスであり、さまざまなタンパク質の視覚化技術と、低温電子顕微鏡法、核磁気共鳴、X線結晶学などの構造分析が必要である。

ただし、最近CASP13コンテスト(タンパク質構造予測の技術の重要な評価)で優勝したAlphaFoldは、これらの技術を避け、勾配降下でスコア付けされたアミノ酸間の距離と角度を予測するディープニューラルネットワークを使った。AlphaFoldはフリーモデリングを使用する。これは、予測を行うときに類似の構造を無視することを意味する。これは、COVID-19に特に役立つ。類似したタンパク質構造がほとんど利用できないためである。

AlphaFoldは、ディープニューラルネットワークの3つの異なる層で構成される。最初のレイヤは、アテンションモデルで積み重ねられた変分オートエンコーダで構成され、単一のシーケンスのアミノ酸に基づいてリアルなフラグメントを生成する。2番目のレイヤは2つのサブレイヤに分割される。最初のサブレイヤは、コンタクトマップ上の1D CNNを使用して残基間距離を最適化する。これは、CNNに入力するためにコンタクトマップを1次元に投影してことによる、アミノ酸残基距離の2D表現である。2番目のサブレイヤはスコアリングネットワークを最適化する。これは、生成されたサブ構造が3D CNNを使用してタンパク質のように見えるかの度合いである。正規化後、生成されたタンパク質を実際のモデルに対してスコアリングする3番目のニューラルネットワークレイヤを追加される。

そのモデルはProtein Data Bankでトレーニングを実施した。Protein Data Bankは、タンパク質や核酸などのより大きな生体分子の3次元構造を含むデータベースであ、自由にアクセスできる。そのモデルはいくつかの入力を受け取る。それは、アミノ酸タイプのワンホットエンコーディングであるaatype、この位置で削除があったシーケンスの割合である削除確率、ギャップ状態による分散を示すギャップ行列である。出力には、予測された二次構造とアクセス可能な表面を含む分布図がある。

フランシスクリック研究所によって実験的に決定した構造を使用してCOVID-19スパイクタンパク質の結果を交差検証した後、DeepMindは、構造がすぐには決まらないタンパク質に対する予測を提出した。これらのタンパク質には、膜タンパク質、タンパク質3a、nsp2、nsp4、nsp6、およびパパインのようなC末端ドメインが含まれる。これらのタンパク質構造には、新薬や治療薬に対するドッキング部位が含まれる可能性があり、COVID-19を封じ込める取り組みにおいて将来の医薬品開発を支援することを目的としている。

他のいくつかのグループは、AIテクノロジーを使ってCovid-19との戦いを支援しようとしている。たとえば、胸部イメージンググループは、Covid-19と市中肺炎を区別するために、最大プーリングレイヤを介して3D CNNに接続されたResNet50バックボーンを活用したBlue Dotは、次の発生の場所を予測するために、オンライン自然言語処理MLアルゴリズムを使用した。

この記事に星をつける

おすすめ度
スタイル

BT