Googleは、Landmark RecognitionとRetrieval用に改良されたデータセットとして、Google-Landmarks-v2をリリースした。2018年3月にリリースされたGoogle-Landmarksデータセットの、2回目のイテレーションである。この新バージョンには、200,000以上のランドマークに関する、500万枚のイメージが含まれている。世界中の写真家から集められた、彼ら自身の作であるイメージの集合に、Wikimedia Commonsの、歴史的だがあまり知られていないイメージが加えられたものだ。
今回のリリースに合わせて、Googleは、大規模なインスタンスレベルの画像認識を目的としたTensorflowベースのコードと関連モデルのDELFをオープンソースとして公開した。DELFはDetect-to-Retrieveを利用している。これは、特定のオブジェクトインスタンスを検索するのに適したイメージ表現である。
Landmark Recognition 2019とLandmark Retrieval 2019という、2つのコンパニオンKaggleチャレンジもローンチされた。前者がランドマークの包括的な認識を目的とするのに対して、後者の目的は、多数のイメージの集合の中から特定のランドマークに類似した表現をすべて挙げることだ。大規模な画像認識をより難しいものにしているのは、ランドマークの存在しない"ジャンク"イメージの存在と、トレーニングデータセットに特定のランドマークが不足していることである。
優勝チームは、今年後半にカリフォルニア州ロングビーチの2019 Conference on Computer Vision and Pattern Recognitionで行われるSecond Landmark Recognition Workshopに招待されて、自身の手法の発表を行う予定だ。昨年の、最初のGoogle Landmarkデータセットに基づいたKaggleの課題には、500チームを越えるデータ科学者たちが挑戦した。
ランドマーク認識は、3つの点において、他の画像認識の問題とは異なる。
- インスタンスレベルの認識問題であること。すなわち、建物や山などの一般的な存在を認識するのではなく、エッフェル塔やナイアガラの滝といった、特定の記念碑やランドマークを認識することが目標である。
- エンティティが多種に及んでおり、その数は、従来の画像認識の課題よりはるかに多い。Image-Net ILSVRCの課題やランドマークでは、表現として不十分だ。
- ランドマークはほとんど変化のない、静的なオブジェクトである。イメージの変化は、露出や視点といったイメージのキャプチャ条件によって発生する。これは、オブジェクト(犬、車など)にさまざまなバリエーションがある、一般的な画像認識とは大きく異なる。
ランドマーク認識は、拡張現実モバイルアプリケーションにおいて、キャプチャされたランドマークを認識して関連情報を取得するために使用される。Googleは既に、ランドマーク識別機能専用のFirebase ML-kit APIを通じて、モバイル機器にランドマーク認識を提供しており、Blipparなど他の企業も、ランドマーク認識を含む実世界のオブジェクト認識アプリケーションを開発している。
Googleによる初のランドマーク認識の試みは、2009年にまで遡る。その当時において、すでに80%の正確性を備えたランドマーク認識エンジンが開発されていた。