Googleは、モバイルデバイスがリアルタイムの手の検出と追跡できるようにすることを目的とした、MediaPipeフレームワークの新しいコンポーネントをオープンソース化した。
Googleアルゴリズムは機械学習(ML)技術を使用して、1つのフレームから21のキーポイントを検出し、複数の手で使用できる。Googleによると、モバイルデバイスでリアルタイムのパフォーマンスを提供する機能は、デスクトップのパフォーマンスを必要とする競合するアプローチとは別物である。これは、ビデオ、オーディオ、センサーデータを含む、適用される機械学習パイプラインを構築するためのグラフベースのフレームワークであるMediaPipe内に統合されている。
Googleのアプローチは、パイプラインで動作する3つのMLモデルに基づいている。BlazePalmと呼ばれる最初のモデルは、方向付けられた手の境界ボックスを検出するために使用される。検出された境界ボックスは、3Dの手のキーポイントを検出するために2番目のモデルに送られ、3番目のモデルを使用して、個々のジェスチャのセットに分類される。そのようなパイプラインの結果を次の図に示す。
(Googleブログの画像)
Googleの研究者によると、彼らのアプローチの重要な部分の1つはBlazePalmコンポーネントによって実行されることである。
手のランドマークモデルに正確にトリミングされた手のひら画像を提供することで、追加のデータ(回転、変換、スケールなど)の必要性が大幅に削減され、代わりにネットワークがその能力のほとんどを座標予測の精度に充てることができます。
このアーキテクチャは、フェイスメッシュパイプラインで使用されているものと類似しており、MediaPipeでも使用できる。顔検出と比較して、高コントラストゾーンがないために手の検出が難しくなるため、BlazePalmは、手の位置を改善するために、腕、体、またはその他の特徴などの追加情報に頼る。Googleによると、彼らのアプローチは手のひらの検出で95.7%の平均精度を提供します。第2段階のモデルに対して、Googleは21のキーポイントを含む約3万の現実世界の画像に注釈を付け、不特定多数の合成手画像とともに使用している。
Googleがこの技術に対して提案しているユースケースの中には、手話の理解と手のジェスチャーによるデバイス制御がある。
将来、Googleの研究者は認識できるジェスチャの数を増やし、時間内に明らかにできる動的なジェスチャをサポートすることに取り組んでいきます。
MediaPipeは、モバイルデバイス、ワークステーション、サーバ用のクロスプラットフォームフレームワークであり、モバイルGPUアクセラレーションをサポートしている。 ML対応コンポーネントを使用して処理パイプラインを構築できる。現在、Google MediaPipeは、ハンドトラッキング、顔検出、髪のセグメンテーション、オブジェクト検出のサポートを提供している。