研究者のGhose、Prevost両氏が、指示された無音のビデオに対して、リアルなサウンドの同期サウンドトラックを生成可能な、ディープラーニングアルゴリズムを開発した。
映画ではよく、録画完了時には録音されていなかった音響効果を追加してよりリアルに感じさせる、"フォーリ(Foley)"というプロセスが行われる。テキサス大学の研究者たちは、このプロセスをディープラーニングで自動的に行えるようにした。フォーリ効果が頻繁に使用される12の映像イベント(movie event)を使って、ニューラルネットワークをトレーニングしたのだ。氏らのニューラルネットワークは、生成するサウンドをクラスに分類すると同時に、サウンドを生成するシーケンシャルネットワークも備えている。すなわち、時系列のイメージから、ニューラルネットワークを使用して、まったく様式の異なるサウンド生成へと移行したのだ!
研究者たちが最初に行ったのは、12の画像イベントのショートムービーを含んだデータセット(Automatic Foley Dataset)の作成だった。一部のイベント(カット音、足音、時計の音など)については、スタジオ内で氏ら自身がサウンドを作成し、その他(銃声、馬の蹄音、炎など)にはYouTubeからビデオクリップをダウンロードするなどして、平均5秒間のビデオを1,000本用意した。
次のステップは、適切なサウンドのクラスを予測することだ。ここで氏らは、フレームシーケンスネットワーク(FSLSTM)とフレームリレーションネットワーク(TRN)という、2つのアプローチを比較した。フレームシーケンスネットワークでは、個々のビデオフレームを使用する。実際のビデオのフレーム間にフレームを挿入して滑らかなものにし、ResNet-50 畳み込みニューラルネットワーク(CNN)によってイメージのフィーチャを抽出する。そのフィーチャをFast-Slow LSTMと呼ばれる再帰型ニューラルネットワークに与えて、サウンドのクラスを予測するのだ。一方のフレームリレーションネットワークでは、より少ない演算時間で、オブジェクトの詳細な変化と動作のキャプチャを試みる。フレームリレーションネットワーク(正確には、マルチスケール・テンポラルリレーションネットワーク)では、複数の値Nに対して、距離がN離れたフレームのフィーチャとの比較を行う。最終的には、これらすべてのフィーチャを、多層パーセプトロン(multilayer perceptron)を使って再び結合するのだ。
最後のステップは、このクラスのサウンドの生成である。これを行うため、研究者たちは、逆短時間フーリエ変換(Inverse Short Time Fourier Transform)手法を使用した。この手法では、最初にトレーニングセット内の各サウンドクラスについて、すべてのスペクトログラムの平均を決定する。これにより、サウンド生成の適切な(平均的な)開始点を取得することができる。あとはニューラルネットワークが、そのサウンドの全サンプリングステップについて、この平均的サウンドアンカーに対する変位を予測すればよい。
アルゴリズムのパフォーマンスを評価するために4つの異なるメソッドを使用し、その中で人による定性的評価を行った。最もリアルなサウンド、最も適したサウンド、ノイズが最も少ないもの、最も同期しているサウンドサンプルを、同校の学生たちに選んでもらったのだ。学生たちは元々の音声よりも合成したサウンドの方に高い評価を与え、73.71パーセントがひとつのモデル、65.96パーセントが別のモデルを選択した。どちらのモデルをより評価するかはビデオの内容によっても異なり、ランダムなアクションの変化が多いシーンで一方がよりよいパフォーマンスを示す結果となった。
最終的な結果がリアルかどうかは、この炎や馬、雨のビデオから自身で判断してほしい。アプローチの詳細は、氏らの論文で見ることができる。