Googleは先頃、概念ベクトル(concept vectors)を使用することで医学画像の検索を強化した、Similar Medical Images Like Yours(SMILY)と呼ばれるツールに関する研究論文を発表した。この研究では、画像検索に埋め込み(embeddings)を使用することで、概念のインタラクティブな洗練(refinement)を通じた、ユーザによる検索への関与が可能になる。
Googleが2つの論文を相次いで発表した。最初の論文である"Similar image search for histopathology: SMILY"では、同類の画像を検出するために必要な埋め込みの生成に使用される、ディープニューラルネットワークアーキテクチャに注目する。2番目の論文"Human-Centered Tools for Coping with Imperfect Algorithms During Medical Decision-Making"は、最初の論文で作成されたツールの使い勝手を改善するために必要な、ヒューマンインタラクションの面に重点を置いて、埋め込みの次元内の概念としての方向ベクトル(directional vectors)の新たな用法について述べている。画像内での概念の一般化レベルをユーザが調整できることによって、埋め込み内のロケーションを増加することで、類似画像の選択に影響を与えることが可能になる。
埋め込みの生成にディープニューラルネットワークを使用するこの方法は、Deep Ranking Networkと呼ばれるアーキテクチャである。このネットワークは、3つの並列的なニューラルネットワークで構成されていて、別々に3つの入力を受信する。最初のニューラルネットワークに検索対象の画像が与えられると、第2のニューラルネットワークがそれと同じクラスから、第3のニューラルネットワークが異なるクラスから、それぞれ画像を取得する。3つのネットワークはいずれも埋め込みを生成して、同じクラスの埋め込みと、異なるクラスから取得した第3の画像との距離を短くするようにトレーニングされる。Googleが開発したこのニューラルネットワークでは、300x300ピクセルの画像に対して、128次元の埋め込みを生成することが可能である。ネットワークの開発について、Googleは次のように伝えている。
私たちのネットワークは、18,000の異なるクラスの、約5億の"自然な画像"(犬、猫、木、人工物など)でトレーニングされています。これにより、ネットワークは、入力画像の埋め込みを計算し比較することで、類似画像と異なる画像を区別する方法を学習しているのです。
最初の論文である"Similar image search for histopathology: SMILY"でGoogleは、ユーザが画像のセグメントを選択し、そのセクションの埋め込みを生成して、k最近傍法アルゴリズムを用いて埋め込みスペースから類似画像を取得できることを示した。その一方で、ユーザが類似画像を検索する場合に、検索意図を伝えるための手段がないことを認めている。ユーザが意味を伝えることができないことから、ツールの関与は制限されたものになっていた。そこで2番目の論文として、対話的な検索手段を改善するための研究が続けられた。
2番目の論文"Human-Centered Tools for Coping with Imperfect Algorithms During Medical Decision-Making"では、refine-by-conceptという機能を導入することによって、SMILYツールを改良している。この機能では、埋め込みのディメンジョン内で概念を表現する手段としてディレクション(direction)を使用する。サンプル画像を選択することによってディレクションが識別されると、スペシャリストがひとつの概念、またはその反対の概念によって画像へのラベル付けを行う。その上で、線形分類器(linear classifier)を使用して、その概念から分離した埋め込みスペース内のプレーンを特定する。次に、そのプレーンに対する直交ベクトルを計算すると、それが概念に対するディレクションである。ユーザは概念の普及度(prevalence)に影響を与えることで検索をオフセットすることが可能で、それが結果として、選択された画像によって生成される埋め込みを、さらには類似画像のk最近傍選択を変化させることになる。