BT

最新技術を追い求めるデベロッパのための情報コミュニティ

寄稿

Topics

地域を選ぶ

InfoQ ホームページ ニュース 顔認識技術の実情

顔認識技術の実情

原文(投稿日:2018/06/07)へのリンク

読者の皆様へ: 皆様のご要望にお応えするべく、ノイズを削減する機能セットを開発しました。皆様が関心をお持ちのトピックを、EメールとWeb通知で受け取ることができます。新機能をぜひお試しください。

顔認識はマシンラーニングの直接的な応用として、消費者や業界、法執行機関に広く展開されており、日々の生活に利益をもたらす可能性を持つが、一方ではプライバシに関する深刻な懸念をはらんでいる。顔認識モデルはすでに人の能力を越えているが、実世界での活用には問題の残る場合もある。

顔認識の大規模な実装としての最初の成功例は、90年代のMITのEigenfacesアプローチをルーツとして2014年に開発されたFacebookのDeepFaveプログラムで、実験環境において人と同等の正確性を達成した。それ以降、大規模なラーニングデータセットやGPU、ニューラルネットワークアーキテクチャの急速な進歩により、より豊かなコンテキストセットを用いた顔認識のパフォーマンスが向上し、信頼性の高い、実用的な実装が現れるようになった。

顔認識のアプリケーションは、認証と認識に大きく分けられる。いずれのシナリオにおいても、既知の対象が事前にシステム(ギャラリ)に登録され、テスト時に新たな対象(プローブ)が与えられる。顔照合(face verification)では、ギャラリとプローブの類似性を1対1で計算し、2つの画像が同じ対象のものであるかどうかを判定する。この方法はiPhone Xの顔認識によるログインや、空港の国境管理などの生体認証ソリューションで使用されている他、HSBCTicketmasterでも現在、モバイルアプリケーションでの使用が検討されている。一方の顔認識(face identification)では、事前登録された人々のギャラリの中でプローブを正確に識別するために、1対1の類似性計算を行なう。おもな用途は、ラベル付けされていない写真を既知のプロファイルと照合することだ。群衆から特定の人物を探し出す目的で、おもに法執行機関によって使用されている。

顔認識技術は感情や年齢、健康状態など、個人の特性や行動を推測するためにも使用することができる。最近の議論の的となっているスタンフォード大学による研究では、Tinderから抽出したデータセットに基づいた顔分析方法によって、個人の性的志向を81パーセントの精度で予測することに成功した。

顔認識に関する世界市場は消費財、工業用途、法執行機関に分かれており、Allied Market ResearchReport Buyerによれば、2022年には900億米ドルに達する見込みだ。生体認証の代表的な企業としては、Safran(フランス)NEC(日本)Cognitec(ドイツ)Face++(中国)などがある。

しかしながら顔認識は、他と同じような生体認証ツールではない。 “クッキーを削除したり、ブラウザを変えたり、スマートフォンを家に置いてくることはできても、顔を削除したり、家に置いてくることはできないのです”、顔認識の専門家で、ジョージタウン大学ローセンタでプライバシとテクノロジを扱うエグゼプティブディレクタのAlvaro Bedoya氏は、USA Todayのインタビューでこのように述べている。顔認識は、同意を必要としない生体認識ツールなのだ。

ACLUHuman Rights WatchElectronic Frontier Foundation、英国のBig Brother Watchなど、市民の自由やプライバシに関する多くの協会が、顔認識の使用による市民の自由や権利の侵害を指摘するようになった。40の関連団体が、Amazonの顔認識システムであるAWS Rekognitionの政府機関による使用の停止を求める書簡を、Amazonに対して提出している。同社はAmazon Web Serviceクラウドビジネスの一部として、2016年にRekognitionを導入した。Facebookもカリフォルニアで、バイオメトリック情報プライバシ法の下での顔認識の使用に対する集団訴訟に直面している。“Facebook Face Recognition”をGoogleで検索すると、先頭ページ10項目中の6つまでが、同技術に対する公的な不信感を理由とした顔認識機能の停止に関するものになっている。

この技術は長年にわたって使用されており、標準化されたトレーニングセットは高く評価されているが、実際の状況に特有の問題もある。例えば、人の顔のバリエーションは、人物よりもポーズによって大きくなる場合が少なくない。イルミネーションや表情、年齢、眼鏡や帽子などのオクルージョン(occlusion)も、識別を阻害する原因となり得る。また、被写体の正面写真が常に利用できるとは限らないため、別角度からの写真を使用することにより、さらなる調整ステップがプロセスに加わることになる。実験室での成果を一般化することの難しさを示す例が、英国警察が最近実施した、フェスティバルでの顔認識を使った人物特定である。結果として、95パーセントを越えるマッチが偽陽性であった

信頼性を備えた顔認識を行うためには、大規模なトレーニングモデルと強力なマシンモデルが必要だ。GoogleとFacebookは、それぞれのプラットフォームにアップロードされた写真から構築した、独自の大規模なデータセットにアクセスすることができる。大規模なオープンソースのデータセットも公開されている。2007年にリリースされたLabeled Faces in the Wild (LFW)データセットには、6,000人を対象とした13,000の正面写真が含まれている。MS-Celeb-1Mは、有名人を対象とした現時点で最大の顔認証データセットで、10,000人の有名人による100万枚の画像を含んでいる。またMegaFaceには、67万人による470万枚の写真と、100万のディストラクタ(distractor)が含まれている。

顔認識全体は、検出(localization)、正規化、認識という3つのステップからなるプロセスである。最初に画像内の顔を検出し、その輪郭を描く。元になった写真を、正面からのものに近付けるように調整するのが正規化である。そうして再配置された顔に対して、顔認識モジュールが適用される。正規化ステップのバリエーションとして、正面写真のさまざまな表現を生成してポーズをシュミレートすることにより、対象空間を拡張(augment)する場合もある。拡張手法の例として、2Dイメージから3Dモデルを再構成してさまざまなポーズを生成し、2Dのバリエーションを投影する方法がある。

90年代以降の顔認識は、それまでの局所的な特徴を基にした手作業による顔認識から、最適化されたディープラーニングモデルを用いるものに移行している。LFWデータセットでトレーニングされたFacebookのDeepfaceモデルは、人のパフォーマンスに到達した最初のモデルだった。AlexNetVGGNetGoogleNetResNetといった古典的な畳み込みニューラルネットワークは、顔認識のベースラインモデルとして広く使用されている。これらのモデルが、差別化および一般化を促進するように特に設計された活性加関数と損失関数とともに、顔認識に適用されている。その他、Face++MegaFaceFaceNetなどは、顔認識に特化して設計されたニューラルネットワークモデルである。

顔認識の現在の課題としては、ポーズや年齢のバリエーションに対する堅牢性の実現、実際の写真に代えてフォトスケッチを使用すること、解像度の低い写真の処理、オクルージョンやメイクアップ、スプーフィング(だまし)テクニックへの耐性などが挙げられる。

 
 

この記事を評価

採用ステージ
スタイル
 
 

この記事に星をつける

おすすめ度
スタイル

BT