Stability AI社は、動画生成AIモデルStable Video Diffusion(SVD)のコードとモデルウェイトを公開した。コンテキストとして入力画像が与えられると、このモデルは576x1024ピクセルの解像度で25のビデオフレームを生成できる。
このモデルは、Stability社のStable Diffusionテキスト画像生成モデルをベースにしており、さらに動画の事前学習と高品質なキュレーションデータセットを使った微調整が加えられている。この追加学習を行うために、Stability AI社は、212年間の実行時間に相当する580Mのビデオクリップを含むLarge Video Dataset(LVD)と呼ばれるデータセットを収集した。最初のモデルリリースは画像から動画への生成のみをサポートしているが、Stability AI社は、テキストから動画への生成やマルチビュー(つまり3Dオブジェクト)生成など、複数の動画生成タスクに適応できると主張している。同社はまた、WEBベースののテキストから動画へのインターフェイスにアクセスするためのウェイティングリストを公開している。モデルライセンスは、研究目的のみの使用を許可している。
私たちは、最新の技術を駆使してモデルのアップデートに意欲的に取り組み、皆様からのフィードバックを取り入れる努力をしていますが、現段階では、このモデルは実世界での応用や商業的応用を意図したものではないことを強調しておきます。安全性と品質に関するみなさまの洞察とフィードバックは、最終的なリリースに向けてこのモデルを改良する上で非常に重要となります。
SVDを構築するためのStability AI社の一般的な戦略は、大規模な動画のデータセットを収集し、注釈を付けることだった。まず未加工の動画からスタートし、「カット」などの動きの不一致や、まったく動きのない動画を削除した。次に、画像のみのキャプションモデル、動画キャプションモデル、そしてこの2つを組み合わせるLLMを用いて、各クリップに3つの合成キャプションを適用した。また、CLIPを使用して、動画サンプルの選択されたフレームの美的スコアを抽出した。
大規模なデータセットでベースとなる動画拡散モデルを学習した後、研究者らは、より小規模なキュレーションデータセットを使用して、テキストから動画、画像から動画、フレーム補間、マルチビュー生成などのタスクに特化したモデルを微調整した。また、LoRAのカメラ制御ブロックを画像-動画モデル用に学習させた。人間の判定による評価では、画像-動画モデルの出力は、最先端の商用製品であるGEN-2やPikaLabsが生成したものよりも好まれた。マルチビュー生成モデルは、最先端モデルのZero123とSyncDreamerを上回った。
Stability AI社のCEOであるEmad Mostaque氏は、このモデルの現在および将来の機能についてX(旧Twitter)でこのように述べている。
LoRAを介したカメラコントロールだけでなく、爆発やあらゆる種類のエフェクトが可能です。ブロッキング、ステージング、ミザンセーヌ、シネマトグラフィ、その他シーン制作のあらゆる要素、そしてまったく新しいものが揃います。
Hacker NewsでのSVDに関する議論の中で、あるユーザーがこのアプローチの欠点を指摘した。
私はSDが大好きだし、これらの映像事例は素晴らしいですが…これは欠陥の多い方法です。正しいライティングが行われることはないし、いたるところに支離滅裂な矛盾点がたくさんあります。3Dアーティストやフォトグラファーなら、すぐにそれを見抜くことができるでしょう。しかし、私は近いうちにもっと優れたものができることに賭けてもいいと思っています。何かを描写すると、3Dモデルやライトの光源などがセットアップされた完全な3Dシーンが表示される。そして、そのシーンはBlenderに送られ、ボタンをクリックすると、正しいライティングでBlenderによる実際の描画が行われる。
Stable Video DiffusionのコードはGitHubで、モデルウェイトはHuggingfaceで入手できる。