Meta AI Researchは、2つの新しい生成AIモデルを発表した。Emu Videoは、テキストプロンプトにて短い動画の生成ができ、Emu Editは、テキストベースの指示を受けて画像編集ができる。両モデルとも、Meta社のEmu基礎モデルをベースにしており、いくつかのベンチマークで最先端の性能を示している。
Emu Videoは、ビデオ生成に因数分解または2段階のアプローチを採用している。まず、テキストプロンプトに基づいて画像を生成し、次にプロンプトと生成された画像からビデオを生成する。どちらのステップでも、Make-a-Videoのような、異なるモデルのパイプラインを使用する従来の方法とは異なり、微調整された1つのEmu拡散モデルを使用する。Emu EditもEmu拡散モデルに基づているが、テキストInstructionプロンプトを追加の条件付けベクトルに変換するタスク埋め込み層が含まれてる。Emu VideoとEmu Editは、生成された画像の品質と指示の正確さについて、これらのモデルの使用者によって評価された。Emu Videoの場合、品質で91.8%、忠実度で86.6%であった。メタによれば、
プロのアーティストやアニメーターの代わりにはならないが、Emu Video、Emu Edit、そしてこれらのような新しいテクノロジーは、アートディレクターが新しいコンセプトを考えたり、クリエイターが最新のリールを最高のものに活気づけたり、親友がユニークな誕生日の挨拶をしたりといった、新しい方法で自分自身の表現に役立つだろう。それは祝福に値することである。
Emuの基盤モデルは、今年の初めに開催されたMeta Connectで発表された。これは潜在拡散モデルで、10億以上の画像とテキストのセットで事前に学習され、その後「厳選された数千枚の高品質画像」で微調整される。Emuは「非常に視覚的に魅力的な」画像の生成ができ、人間の判定者は70%以上の確率で、Stable Diffusion XLよりもEmuの出力を好むという。
研究者たちは、Emu Videoを作成するために、3,400万のビデオとテキストのデータセットを使用して、Emuの基礎モデルをさらに微調整した。モデルは、初期フレーム画像が与えられた場合に、将来のいくつかのビデオ フレームを予測することを学習した。その結果、その結果、16fpsで512x512ピクセルの4秒間の動画を生成可能になった。テキストからビデオへの変換に加えて、このモデルはユーザーの画像からビデオの生成も可能だ。このタスクでは、ベースラインのVideoComposerモデルよりも96%の確率で出力が優先された。
Emu Editorを学習させるために、Metaチームは1,000万サンプルの合成データセットを作成した。各サンプルは、入力画像、 テキストによる指示、希望する出力画像、タスクインデックスから構成される。インデックスは、オブジェクトの削除や画像のスタイルの変更など、16の定義済みタスクのどれを示すかを示す。学習中、モデルは各タスクの埋め込みを学習する。モデルは、ほんの「一握り」の新しい例で埋め込み層を微調整することで、新しいタスクを学習できる。
Redditのディスカッションで、あるユーザーが投稿した。
ここでもっとも興味深いのは、トレーニングデータセットの作成方法について説明している付録だ。彼らは、LLaMA、DINO、Segment Anything、画像ジェネレーターを含むツールチェーンを使って、何百万もの画像→命令→出力のペアを作成している。これは合成データの本当の成功例である。
Hacker Newsでのディスカッションでは、何人かのユーザーが、「Metaは最近オープンソースに乗り出していた 」と述べ、モデルがオープンソース化されていないことに失望を表明した。Meta社はEmu Videoと Emu Editのデモサイトを作成した。Meta社はまた、Emu EditベンチマークデータセットをHuggingfaceで公開した。