BT

最新技術を追い求めるデベロッパのための情報コミュニティ

寄稿

Topics

地域を選ぶ

InfoQ ホームページ ニュース MediaPipeがモバイルデバイス向けにホリスティックトラッキングを提供

MediaPipeがモバイルデバイス向けにホリスティックトラッキングを提供

原文(投稿日:2020/12/13)へのリンク

ホリスティックトラッキングはMediaPipeの新機能であり、モバイルデバイスで体と手のポーズと顔の位置を同時に検出できる。この3つの機能は、以前は個別に利用できた。しかし、現在は単一の高度に最適化されたソリューションに統合されている

MediaPipe Holisticは、最適化されたポーズ、顔、手のコンポーネントを備えた新しいパイプラインで構成される。それぞれのコンポーネントがリアルタイムで実行され、推論バックエンド間のメモリ転送が最小限に抑えられます。そして、品質/速度のトレードオフに応じて、3つのコンポーネントの互換性のサポートが追加されています。

パイプラインの機能の1つは、入力を各モデル要件に適合させることである。たとえば、ポーズの推定には256x256フレームが必要であるが、これはハンドトラッキングモデルで使用する場合には十分ではない。

Googleのエンジニアによると、人間のポーズ、手の追跡、顔の位置の検出を組み合わせるのは非常に複雑な問題であり、複数の依存するニューラルネットワークを使用する必要がある。

MediaPipe Holisticでは、フレームごとに最大8つのモデル(ポーズ検出器1つ、ポーズランドマークモデル1つ、再トリミングモデル3つ、手と顔のキーポイントモデル3つ)の間での調整が必要です。私たちは、このソリューションを構築する際に、機械学習モデルだけでなく、前処理および後処理アルゴリズムも最適化しました。

パイプラインにおける最初のモデルはポーズ検出器である。この推論の結果は、手と顔の位置の両方を識別し、それに応じて元の高解像度フレームをトリミングするために使用される。結果として得られる画像は、最終的に手と顔のモデルに渡される。

最大のパフォーマンスを達成するために、パイプラインはオブジェクトがフレーム間で大幅に移動しないことを前提としている。そのため、前のフレーム分析の結果、つまり対象の身体の領域を使用して、新しいフレームで推論を開始できる。同じように、ポーズ検出は、各フレームの準備ステップとして使用され、速い動きに反応するときに推論を高速化する。

このアプローチのおかげで、Googleのエンジニアは、ホリスティックトラッキングが、ほぼリアルタイムのパフォーマンスを提供しながら、540を超えるキーポイントを検出できると述べている。

ホリスティックトラッキングAPIを使用すると、開発者はいくつかの入力パラメーターを定義できる。例えば、入力画像をビデオストリームの一部と見なすかどうか、全身か上半身かのどちらを推論する必要があるか、最小信頼度などである。さらに、推論によって提供される出力ランドマークを正確に定義できる。

Googleによると、ポーズ、手の追跡、顔の表情を統合することで、リモートジェスチャインターフェース、全身拡張現実、手話認識などの新しいアプリケーションを実現できるようになる。この例として、Googleのエンジニアは、ブラウザで実行され、ユーザがジェスチャーを使用して画面上のオブジェクトを操作したり、仮想キーボードで入力したりできるようにするリモートコントロールインターフェースを開発した。

MediaPipe Holisticは、モバイル(Android、iOS)およびデスクトップ用のデバイスで利用できる。Web開発者による採用を加速するため、PythonJavaScriptで、すぐに使用できるソリューションである。

この記事に星をつける

おすすめ度
スタイル

BT