BT

最新技術を追い求めるデベロッパのための情報コミュニティ

寄稿

Topics

地域を選ぶ

InfoQ ホームページ ニュース Googleが深度認識のトレーニングにマネキンチャレンジのビデオを使用

Googleが深度認識のトレーニングにマネキンチャレンジのビデオを使用

原文(投稿日:2019/06/04)へのリンク

Google AI Researchは、2次元画像から奥行きを知覚する研究を解説した論文を発表した 。マネキンチャレンジのYouTubeビデオから作成したトレーニング用データセットを使って、研究者たちは、移動するカメラで撮影した動く人々のビデオから深度情報を再構築することのできる、ニューラルネットワークをトレーニングした。

コンピュータビジョンに共通する問題のひとつに、2次元画像から3次元情報を再構成することがある。このプロセスの出力は、元の2D画像のRGBピクセル値に、カメラからそのピクセルで表される光を発生したスポットまでの距離を表す値の配列をオーバーレイしたもので、"深度マップ(depth map)"と呼ばれている。深度マップには、拡張現実(AR)やロボットナビゲーションなど、現実的な適応対象が数多くある。

KinectのようなRGB-Dセンサと呼ばれるクラスのセンサは、2DのRGBイメージと合わせて、深度データを直接出力することが可能である。RGB画像データのみから深度マップを構築する場合には、複数のカメラ(複数の目に基づく自然界の視覚システムに近い)か、あるいは単一の移動カメラを使用することによって三角測量を行うのが一般的だが、単一の移動カメラによる後者のアプローチは、連続するフレーム間の視差を使用することで機能するため、シーン内のオブジェクトも移動している場合は有効ではない。多くのアプリケーション、特に携帯電話によるARでは、単一のカメラで正確な深度を再構成する必要がある。特に、Googleの研究者たちが関心の対象としたのは、人を含む多くの動作するオブジェクトからの深度を再構成する方法だ。このようなシーンでは、人体が動くだけでなく、体のさまざまな部分が互いに関連して動作し、カメライメージ内の人体の形や、各部分の相対距離を実質的に変化させるため、問題はさらに複雑になる。マシンラーニングでこの問題に取り組むためには、動くカメラで撮影された動く人々を含む、大規模なビデオデータセットが必要となる。ワシントン大学のチームは、サッカーゲームの2Dビデオを3D変換するため、ビデオゲームで作成したデータセットを使用したが、このシステムはサッカーゲームのみを動作対象とするように制限されていた。

ここでマネキンチャレンジ(MC)について説明しよう。これは、ビデオ撮影者が動き回ってビデオを撮っている間、人々が固定されたポーズをとってマネキンになりすますという、インターネットの流行だ。カメラが移動して、他のシーンは静止しているので、視差法によって、さまざまなポーズをする人物の正確な深度マップを簡単に再構築することができる。研究者たちは、2,000程度のYouTubeのMCビデオを処理して、"トータルで17万の有効な画像深度ペアを持った、4,690シーケンス"のデータセットを作成した。

データセットが作成されたので、それをさらに処理して、ディープニューラルネットワーク(DNN)への入力を作成した。それぞれのフレームと直前のフレームとの視差を比較することで、初期深度マップを取得することができた。入力フレームも、人を検出するビジョンシステムを使用してセグメント化され、ここから、人が見つかったエリアの初期深度マップを取り除くためのマスクが作成された。ラーニングシステムのターゲットは、MCビデオから計算された、入力画像の既知の深度マップである。DNNは、入力画像、初期深度マップ、人のマスクを取得して、人の深度値が入力された、"洗練された"深度マップの出力を学習した。

Googleはこの技術が、"合成デフォーカス(synthetic defocus)などの3D対応のビデオ効果"を含む、いくつかのアプリケーションに適用できる、と提案している。Redditのコメンタは、深度を音に変換して、"聴覚障害者をナビゲートする"モバイルフォンアプリを提案した。

AR研究者のRoss Brown氏はTwitterで、次のように述べている。

"Proteusプロジェクトで興味深いのは、深度マップの生成にZedCamsを使用していることです。これによって、必要なのはディジタルSLR(一眼レフ)のみになります。これが本当に実現するのです。さあ、TensorFlowを勉強しましょうか ..."

興味深いことに、DNNコードがGoogleのTensorFlowフレームワークではなく、PyTorchをベースとしている。推論コードと事前学習済みのモデルは、GitHubから入手できるプロジェクトのページによれば、データセットは"近日中に公開"される。

 

この記事に星をつける

おすすめ度
スタイル

BT