Waymo は、自動運転車によって収集された画像から再構築された大規模な 3D ワールドビュー合成のための Block-NeRF と呼ばれる画期的なディープラーニングモデルをリリースした。
画像を使用して 3D の仮想世界を生成することは、長い間の古典的なコンピュータビジョンの研究トピックだ。2020年以降、ニューラルラディアンスフィールド (NeRF) と呼ばれる新しいアプローチが研究のホットトピックになり、主として画像の入力ビューのスパースセットを使用する基礎となる連続ボリュームシーン関数を最適化することにより、複雑なシーンの新しいビューの生成が最先端となった。
NeRF には、ニューラルネットワークで表面と体積の表現をエンコードする機能がある。これが重要なのは、スパース画像のサンプルをネットワークに提供でき、モデルは同様にレンダリングされたシーンの他のビューを予測できることだ。
Block-NeRF は、複数の NeRF をトレーニングし、出力を1つの大きなシーンに結合するために使用される。つまり、異なる光の条件の下で複数のシーンを結合し、それらをオーバーラップして1つの大規模なシーンに再構築する。この新しいモデルは、3か月にわたって Waymo 車によって収集された複数の光と天候の条件を含む280万枚の画像でトレーニングされている。
Block-NeRF の180度のビュースタンスからのエンバカデロロードウェイ
画像出典
Block-NeRF には、限られたサンプル画像のコレクションから大規模な仮想世界をシミュレートする潜在性がある。このモデルは、データの観点からは、記録されたものよりも多くのビューを生成できることに注意することが重要だ。これは、自動運転や空中空間のレンダリングに非常に役立つ可能性がある。
このフレームワークから NeRF へのもう1つの重要な追加がモジュール性とスケーラビリティだ。これは、トレーニングデータに別の記録されたシーンを追加し、以前生成された仮想世界のサイズを増やすことができることを意味する。
著者が将来の機能と見ているコンポーネントの1つは、生成されたシーンの各ブロックに関連付けられた地理的フィルタ制約の自動化だ。
この画期的な出来事は、Reddit と Twitter の多くのソーシャルメディアの話題を生み出した:
Google がマップのストリートビューを Block-NeRF にアップグレードするのを待ちきれません。:) spaceco1n より
@elonmusk: 数年前にこれを予測しました。すべてのテスラのデータから、オープンワールドのフォトリアリスティックなドライビングゲームを構築できます! Geffen Avraham 氏より