Google AIはCOVID-19 Research Explorerをリリースした。これは、COVID-19 Open Research Dataset上にセマンティック検索インターフェースとして提供される。これにより、科学者と研究者がデータセットのすべての雑誌論文と前刷りを効率的に分析できるようになる。
世界中の科学者が新しい研究を発表するペースが速いため、COVID-19を取り巻く文献についていくことは、科学コミュニティにとって非常に困難になっている。すでに50,000の雑誌論文と前刷りがCOVID-19 Open Research Datasetに含まれているため、研究者はこの圧倒的な量のテキストデータをすばやく分析するのに役立つツールが必要である。
Covid-19 Research Explorerは、研究向けのクエリに高速に応答するためにリリースされた。ユーザが質問をすると、ツールは、質問に対して、回答と予測されるものを強調するスニペット付きで、インテリジェントに整理された論文一覧を返答する。ユーザは、直前の質問で返されたセットについて追加の質問をすることができる。
このツールのセマンティック検索は、Googleのメインの検索エンジンでも役割を果たすGoogleのBERT言語モデルにより実現されている。ニューラルセマンティック検索モデルには大量のトレーニングデータが必要であるため、Googleはまず、生物医学ドメインから質問と関連ドキュメントの大規模な合成コーパスを構築した。Googleのエンジニアは、encoder-decoderと呼ばれるニューラルアーキテクチャを使用して、テキストの一節にあたる回答を、質問に翻訳するようにモデルをトレーニングした。この方法は、機械翻訳などの作業に一般的に使用される。ニューラルモデルがキーワードベースのモデルと同じように機能しないことを発見した後、彼らはハイブリッド用語・ニューラル検索モデルを構築した。2つの方法は、両方のタイプのモデルをベクトル空間モデルとしてキャストできるため、簡単に組み合わせることができる。用語ベースのベクトルとニューラルベースのベクトルを連結すると、コーパス内のドキュメントを表すことができる。
このツールは短い期間、無料で利用でき、今後数か月で使いやすさが向上する。Googleは、ツールを使用して研究者からのフィードバックを積極的に得ようとしている。