Google ResearchはObjectron Datasetのリリースを発表した。3Dオブジェクト認識用の機械学習データセットである。データセットには、15,000のビデオセグメントとグラウンドトゥルースアノテーション付きの4,000,000の画像が含まれている。また、データを使用してAIモデルをトレーニングするためのツールが含まれている。
ソフトウェアエンジニアのAdel Ahmadyan氏とLiangkai Zhang氏は、ブログ投稿でデータセットの概要を説明した。データセットは、一般的な家庭用オブジェクトにフォーカスした移動カメラからの15,000の短いビデオクリップで構成されている。各クリップには、オブジェクトの3D境界ボックスのアノテーションが付けられている。また、カメラのポーズやビデオの平面に関する情報などの拡張現実(AR)メタデータのアノテーションが付けられている。データセットには、4,000,000のアノテーション付きシングルフレーム画像も含まれている。Googleは、データセットに加えて、データのサブセットに基づく新しいMediaPipeオブジェクト検出ソリューションもリリースした。Ahmadyan氏とZhang氏は次のように述べている。
このObjectronデータセットをリリースすることで、研究コミュニティが3Dオブジェクトジオメトリの理解を広げることができるようになることを願っています。また、ビューの合成、3D表現の改善、教師なし学習など、新しい研究とアプリケーションが育まれることを願っています。
2Dオブジェクト認識の深層学習モデルの成功は、ImageNetやCOCOなどの大規模で高品質のデータセットが利用できるようになったことで、一部で推進された。ただし、これらのデータセットを使うためには、教師あり学習用のグラウンドトゥルースアノテーションを作成するために費用がかかったり、骨の折れる手作業が必要になったりする。2Dアノテーションには通常、クラスラベル(オブジェクトが何か)とバウンディングボックス(どこにあるか)が含まれる。3次元またはビデオストリームのオブジェクトにアノテーションを付けることはさらに大変で費用がかかるが、結果として出力されたモデルはオブジェクトの方向(またはポーズ)や動きなどのより多くの情報を提供できるため、ロボット工学やARなどのアプリケーションで役立つ。これらのモデルをトレーニングするための公開されているデータセットがいくつかあるが、それらの多くは自動運転車のアプリケーションを対象としており、アノテーション付きのオブジェクトは、歩行者、サイクリスト、車両など、運転に関心のあるクラスに制限されている。
今年の初め、GoogleはMediaPipe Objectronをリリースした。これは、MediaPipe向けの3Dオブジェクト検出ソリューションであり、ストリーミングメディアを使用するMLアプリケーション向けのGoogleのオープンソースフレームワークである。Objectronソリューションは、携帯電話のカメラを使用してオブジェクトのポーズを検出するために、MobilePoseディープラーニングモデルをベースとしていた。このモデルは、リソースが限られたデバイスでリアルタイムに実行するために十分に小さく高速であるが、認識できるのは靴と椅子の2つのクラスのオブジェクトのみである。新しいソリューションは、更新されたモデルアーキテクチャを使用し、靴、椅子、マグカップ、カメラの4つのオブジェクトクラスを認識できる。
完全なObjectronデータセットには、自転車、本、ボトル、カメラ、シリアルボックス、椅子、カップ、ラップトップ、靴の9つのクラスのオブジェクトのアノテーションが付いている。データセットの合計サイズは約4.4TBである。そして、TensorFlowおよびPyTorchトレーニングで使用するためにtf.recordフォーマットを使用してアクセスできる。データにラベル(オブジェクトの位置やポーズなど)を付けるために、Googleは、ユーザがオブジェクトの境界ボックスをすばやく描画できるように、スマートフォンベースのツールを構築した。Googleはまた、AR技術を使用して仮想オブジェクトを実際の画像にレンダリングすることにより、合成データを作成した。この合成データにより、Objectronモデルの精度が「約10%」向上した。他の研究者がデータセットに基づいて独自のモデルを開発できるように、Googleは精度メトリックアルゴリズムのソースコードもリリースした。
ObjectronデータセットはGoogle Cloudストレージからダウンロードでき、サポートスクリプトとチュートリアルはGitHubで入手できる。MediaPipeソリューションの使用手順は、MediaPipeのWebサイトで入手できる。