Facebook、Microsoft、Partnership on AIは、大学の研究者らと共に、AIで生成した事実でないイメージやビデオを検出可能なAIを開発するコンテストとして、Deepfake Detection Challenge(DDC)を立ち上げた。提案された課題は、DDCの提供するリアルとフェイクの両方のビデオによるデータセットを使用するもので、最高のAIソリューションを構築したチームには表彰と賞金の提供が行われる。
FacebookのCTOであるMile Schroepfer氏は、先日のブログ記事で、同社がこの活動に1,000万ドルを拠出すると同時に、俳優を使ったビデオを含むデータセットを提供すると発表した。このデータセットはコミュニティが"無償で使用可能"で、提供された資金は、優れたソリューションを開発した開発者に対する表彰と賞金に使用される予定である。Schroepfer氏によると、この課題の目標は、
AIによって操作されたメディアを使って他者に誤解を生じさせる行為を検出し、未然に防ぐための新たな手法を確立するように、業界を導くことにあります。
Deepfakeは、"人工知能をベースとした人物像の合成テクニック"である。簡単に言えば、ディープラーニングモデルによって生成された"フェイク"イメージとビデオのことだ。イメージの操作はもちろん新しいものではないが、現実のように見える偽造ビデオの制作には、これまではハリウッド映画のような膨大な資金が必要だった。ユビキタスなクラウドコンピューティングやディープラーニングの発達、"顔の入れ替え(face-swapping)"テクノロジのオープンソース実装によって、そのバーは著しく低くなった。テクノロジとしては、俳優の顔を自分のものに入れ替えるような、単なる娯楽アプリケーションに過ぎないのだが、世論を操作する手段として、あるいはハッカーによる"ソーシャルエンジニアリング"攻撃に、悪意を持って使用されるのではないかと、多くの人々が懸念を持っている。ディープラーニングの結果が悪用される可能性についても同様の懸念があるため、OpenAIでは、完全なGPT-2テキスト生成モデルをリリースすることができなかった。
FacebookとDDCのパートナは、賞金を伴う"Kaggleスタイル"を確立することで、AIを使ってAIをキャッチ可能にしたいと考えている。参加者は、リアルとフェイク両方のビデオを含むDDCデータセットをダウンロードして、フェイクを特定できるようにマシンラーニングモデルをトレーニングする。課題には、テスト目的のみに使用される非公開のサブセット上で参加者のモデルのスコア付けをする、"テストメカニズム"も用意されている。
Deepfake検出はすでに、関連する大学の間では活発な研究が行われている領域である。例えばAlbany-SUNY大学のSiwei Lyu教授は、このトピックに関する論文をいくつか発表している。その中でLyu氏は、フェイクビデオの人物が瞬きをしないことが多い点を指摘している。さらにイメージ生成アルゴリズムは、これ以外にも微妙な"指紋"を残すので、ディープラーニングシステムで検出することが可能なのだ。
DDC自体が、より精巧なフェイクを生み出すことに繋がりはしないか、という懸念もある。Deepfakeモデルの多くは、敵対的生成ネットワーク(generative adversarial network、GAN)アーキテクチャに基づいている。このアーキテクチャは、本物らしいイメージの生成を学習する生成的ネットワークと、イメージの良否を判断する識別的ネットワークという、2つのニューラルネットワークで構成される。この2つのネットワークは、生成的ネットワークが現実的なイメージを生成可能になるまで、AI版"軍拡競争"で同時にトレーニングされる。Twitterのユーザたちは、FacebookのVP兼チーフAIサイエンティスト(およびディープラーニングのパイオニア)であるYann LeCun氏に対して、より改良されたDeepfake検出システムがこの敵対的トレーニングを使用できるようになれば、さらに精巧なフェイクが作られるのではないか、と問いかけている。DDCサイトのFAQには、データセットの使用に制限を設けることで、この懸念に対処しようとしている、という記載がある。
トレーニングデータセットへのアクセスを制限して、課題に参加を許された研究者のみがアクセス可能にする予定です。各参加者はデータの使用方法や格納方法、処理方法に同意する必要があると同時に、他者とのデータ共有については厳格に制限されています。
DDCデータセットは現在使用できないが、サイトには、イベントが2019年10月に開始され、2020年3月まで実施されるという記載がある。