重要ポイント
|
Clouderaは先月,The Broad Instituteとの提携を通じて,以前にInfoQでも伝えたBroadのGenoma Analysis Toolkit for fourth-generation(GATK4)パイプラインを提供すると報告した。
同社生命科学の部門リーダであるShawn Dolley氏は,さまざまなクラウドIaaSプロバイダを対象にさらなる提携を行なうというBoradの発表とほぼ時を同じくして,GATK4のコスト削減効果について言及したが,定量的なベンチマークは提供しなかった。開発提携とそのメリットについて,Dooley氏は次のように述べている。
ClouderaのSparkへのコミットメントは,当社をHadoopの提供とサポートを行なう最初のベンダにすると同時に,2014年にはSparkトレーニングの提供も現実のものにしています。マルチオミクス(multi-omics)解析の世界への専門知識の提供,バイオインフォマティクスの標準としてのSparkへの投資,Broadとの協業による次世代GATKの開発といったものを提供できることについて,私たちは誇りに思っています。こうしたゲノム配列のコスト低下とビッグデータ技術の進歩により,患者のゲノム配列が極めて安価に入手可能になると同時に,これまでまったく存在しなかったデータセットが新たに誕生するのです。
Broadでデータサイエンスのシニアディレクタを務めるデータエンジニアで,GATKソフトウェアパッケージを開発したEric Banks博士は,次のように述べている。
Broad InstitueのGATKには現在,31,000を越える登録ユーザがいます。その大半はゲノム解析の実施に必要な大量の情報を処理するために,大規模なローカルサーバとストレージのインフラストラクチャを所持しています。今回のコラボレーションによって,スケール性というこれまでの障壁を取り払いながら同等のデータ品質を提供可能な,新たな選択肢が提供されることになります。
以前のバージョンと比較した場合のGATK4パイプラインのパフォーマンス向上について,Bank博士は次のようにコメントしている。
Cloudera EnterpriseのSparkコンピューティングフレームワークは,利用方法の複雑さのためにGATK3では不可能だったツールの実装を可能にしてくれます ... Cloudera Enterpriseを採用したことにより,以前のバージョンのGATKよりも2桁高速なゲノムデータ分析の実行が可能になりました。これによって実現する分析のイテレーション速度の向上が,ゲノムのイノベーション促進に貢献します。
IaaSプロバイダとの提携によってBroadが目指すのは,SaaSモデルを通じた次世代GATK Sparkパイプラインの構築によって,ユーザがベンダにロックインされず,さまざまなIaaSからGATK4にアクセス可能になることだ。GATK4は早ければ今年後半には利用可能になる予定である。価格はプロバイダによって異なるが,学術的研究には無償で,商用ユーザには手数料ベースでライセンスが支給される予定だ。
この記事を評価
- 編集者評
- 編集長対応