カーネギーメロン大学(CMU)のヒューマンセンシング研究所の研究者は、WiFi送信機からの信号のみを用いて、部屋にいる複数の人間のポーズを検出するAIモデルのDensePose from WiFiに関する論文を発表した。実世界のデータを用いた実験では、このアルゴリズムは50%のIOU閾値で平均87.2という精度を達成したのである。
WiFi信号は一次元であるため、WiFiを用いた従来の人物検出手法の多くは、人物の重心位置を特定することしかできず、通常は一人しか検出できない。CMUの技術では3つの受信機で捉えた3つのWiFi信号の振幅と位相のデータを取り込むことで3x3の特徴マップを生成する。これをニューラルネットワークに渡すことで、人体表面のUVマップを生成し、複数の人物の位置を特定するとともに、そのポーズを決定することができる。
研究者は説明する。
WiFiベースの知覚の分野では、特に異なるレイアウトの下で公開されているトレーニングデータによって、我々の実験の性能はまだ制限されている。将来的には、複数のレイアウトデータを収集し、WiFi信号から3D人体形状を予測するために我々の研究を拡張することも計画中だ。我々は、高密度知覚の高度な能力により、WiFiデバイスが、RGBカメラやLidars(訳注:光を用いたリモートセンシング技術)に比べてプライバシーに配慮した、照明に左右されない、安価な人体センサーとして力を発揮できると考えている。
まずは、送信信号波と受信信号波の比であるCSI(Channel-state-information)サンプルを5つ収集する必要があり、各サンプルには30個の周波数が含まれ、3台の送信機から3台の受信機にそれぞれ送られた信号から採取される。その結果、150×3×3という形状の、位相と振幅の2つの生データテンソルが得られ、これをモダリティ変換ネットワークで、1280×720の画像テンソルに変換する。これを、最先端の姿勢検出ネットワークのDensePoseを用いて、あたかもカメラで撮影した画像のように処理するのだ。
WiFi信号を2D画像に変換する。出典: https://arxiv.org/abs/2301.00250
このモデルはWiFi信号と1人から5人までのシーンが記録されたビデオを組み合わせたデータセットで評価された。シーンはオフィスや教室で録画されたものである。評価の根拠となる映像の注釈はないが、研究者たちは事前に訓練したDensePoseモデルを映像に適用し、擬似的な根拠を作成した。全体として、このモデルは人間のバウンディングボックスのおおよその位置を効果的に検出し、胴体のポーズを検出することができたが、手足の検出には苦労している。
この実験に関するHacker Newsのディスカッションで、あるユーザーは、2020年にIEEEがWLANセンシングのための802.11bfプロジェクトを発表し、2024年のリリースを目指していることを指摘した。また、別のユーザーはこう語っている。
もし [WiFiセンシング] が人間の呼吸を確実に検出できるのであれば、自動照明によるホームオートメーション、特にバスルームの大きな問題を解決可能だ。まともな浴室占有センサーがないし(ほとんどはかなり大きな動きしか検知できない)、明らかな解決策はカメラ付きのAIだが、もちろん非現実的だ。もしいくつかの基地局が家の中の部屋に人の位置を定位できる(そして他のサービスを提供できる)なら、すべての問題を解決するようなものである。
CMUの研究者はコードやモデルを公開していないが、Papers with Codeのウェブサイトは、他の3つの類似プロジェクトのGitHubリポジトリにリンクしている。