先日のブログ記事でFacebookは、近くのオブジェクトへのフォーカスを改善するためにAIを使用したフレームワークのDeepFocusを、オープンソースとして公開すると発表した。このテクノロジによって,まさに映画を見ているように、近接するオブジェクトをフォーカス内に、遠方のオブジェクトをフォーカス外にすることが可能になる。DeepFocusは、エンドツーエンドの畳み込みニューラルネットワークを活用して、正確な網膜ぼけ(retinal blur)をほぼリアルタイムに生成する。
DeepFocusは,アイトラッキングカメラ,広視野の光学系、ライフタイムVRエクスペリエンスを提供する独立焦点型ディスプレイを備えたプロトタイプヘッドセットであるHalf Domeで使用されているテクノロジである。
Facebook Reality Labs(FRL)の学際的研究チームは、"現実と区別できないエクスペリエンス"の提供を目標にDeepFocusを開発した。一般的に仮想現実(VR)アプリケーションでは、イメージが投影されている焦点面に合わせるため、中近距離にある物体にフォーカスを合わせている。FacebookでエンタープライズAR/VRを指揮するMaria Fernandez Guajardo氏は、このアプローチの問題点を次のように説明する。
眼の前にあるものなど、フォーカルプレーンにないものを見ようとすると、焦点が合わなくなってしまいます。この問題を回避するため、一般的なVRでは、物体を2メートル先に配置するようにしています。これは制限であって、現実的ではありません。本来ならばVRは、近くの物体も扱えなくてはならないはずです。
イメージ引用: https://www.oculus.com/blog/introducing-deepfocus-the-ai-rendering-system-powering-half-dome/
Facebookのチームは、コンピュータによる表示を最適化する方法として従来のアプローチを検討したが、期待に沿うものではなかった。
アキュムレーションバッファの使用などの従来の手法は、物理的に正確な"ぼかし"を表現できますが、高度でリッチなコンテントをリアルタイムで処理することはできません。処理に対する要求が,最先端のチップにとってさえも高すぎるのです。
チップセットの性能向上と価格低下を待つ代わりに,Facebookのチームは,ディープラーニングを使って,エンドツーエンドの畳み込みニューラルネットワークを開発した。ディープラーニングは,関連するデータの大規模なデータセットを使ってトレーニングすることによって特定のタスクを遂行する方法として,既存のAIシステムで使用されているが,VRシステムに適用することは一般的ではなかった。VRにディープラーニングを使うメリットには,次のようなものがある。
イメージの詳細を完全に保持しつつ,入力の空間次元(spatial dimensions)を削減するため,新たに体積保持(volume-preserving)インターリービングレイヤを含めることで,画像内にあるさままな物体を見た瞬間に,正確な網膜ぼけを持ったイメージを生成します。ネットワークの畳み込みレイヤも同じように動作して空間次元を削減し,実行時間を大幅に減少します。
ディープラーニング技術の成果は,Guajardo氏が先日行ったプレゼンテーションで公開された。その中で氏は,画面に現れた至近距離にある物体が,従来の手法ではぼやけているのに対して,DeepFocusではより鮮明になることをデモしてみせた。
イメージ引用: (screenshot) https://www.youtube.com/watch?v=FM7aviAhxG4
DeepFocusは標準的なRGB-Dカラーと深度入力を使用しているので,既存のVRゲームに対して広い適用性を持つとともに,バリフォーカルディスプレイ(Half Domeなど)やマルチフォーカルディスプレイ,ライトフィールドディスプレイなど,研究コミュニティで評価されている既存のヘッドセットとも互換性がある。
DeepFocusのソースコードとネットワークモデル,データセットはFacebook ResearchのGitHubリポジトリにある。