BT

最新技術を追い求めるデベロッパのための情報コミュニティ

寄稿

Topics

地域を選ぶ

InfoQ ホームページ ニュース OpenAI、テキストから動画を生成するAI "Sora" を発表

OpenAI、テキストから動画を生成するAI "Sora" を発表

原文リンク(2024-02-16)

Soraは、テキストプロンプトから映像を作成するOpenAIの新しい生成AIモデルである。現在プレビュー中だが、この新しいモデルは、現実世界で物事がどのように存在するかを理解する能力を活用し、登場人物やスタイルを崩すことなく複数の映像を組み合わせて、60秒までの写実的な動画を作成できる。

私たちは、現実世界でのインタラクションを必要とする問題を解決する手助けをするモデルをトレーニングすることを目標に、物理的な世界の動きを理解し、シミュレートすることをAIに教えています。

OpenAIによると、Soraは複雑なカメラの動きや複数の登場人物を含む、非常に詳細なシーンを構築できるという。技術的な観点から見ると、Soraは拡散モデルである。出発点は静的なノイズのような映像で、段階的にノイズを取り除くことで最終的な結果に徐々に変化していく。

我々は、映像や画像をパッチと呼ばれる小さなデータ単位の集まりとして表現しており、各パッチはGPTにおけるトークンのようなものである。データの表現方法を統一することで、異なる時間、解像度、アスペクト比にまたがる、以前よりも幅広い視覚データに対して拡散変換器を訓練できる。

OpenAIは、彼らがSoraで解決した困難な問題、つまり、被写体が一時的に視界から外れても同じ状態を維持し、ビジュアルスタイルを保持することを強調した。これは、モデルに一度に多くのフレームを操作させることで、何が起こるかを事前に把握し、それに対して計画を立てる能力をもたらすものだ。

OpenAIは、ゴールドラッシュ時のカリフォルニアの歴史的な映像、東京の通りを歩くスタイリッシュな女性、雪の中で遊ぶゴールデンレトリバーなど、Soraを使って作成された印象的なビデオをいくつか紹介した。いずれにせよ、生成された動画の中には、物理的にありえない動きを示すものもあるとOpenAIは認めている。たとえば、ベルトコンベアの上を男性が間違った方向に歩いている動画や、砂が椅子に変形するような、直感的に理解できない動きを示す動画などがそうだ。

現在、OpenAIはその安全性を向上させるために取り組んでいるため、新しいモデルはまだ一般公開されていない。例えば、過激な暴力、性的な内容、憎悪的なイメージ、第三者の知的財産権や有名人のプライバシー権を侵害するようなテキスト入力プロンプトは拒否される。この目的のために、OpenAIは誤報、憎悪的なコンテンツ、偏見などの分野の専門家と協力して、モデルの限界をテストしているという。

広範な研究とテストにもかかわらず、我々は人々が我々のテクノロジーを使用する有益な方法をすべて予測することはできませんし、人々がそれを悪用する方法をすべて予測することもできません。そのため、実世界での使用から学ぶことは、時間をかけてますます安全なAIシステムを作成し、リリースしていく上で重要な要素だと考えています。

OpenAIはまた、DALL-E-3に向けて構築した安全手法をSoraにも適用し、AIによって作成された映像を検出するためのC2PAメタデータも計画している。

Soraは、最初に市場へ参入した、テキストから映像を生成するAIモデルではない。他のソリューションには、RunwayPikaStability AIGoogle Lumiereなどがある。

Hacker Newsで複数のコメンテーターが指摘しているように、OpenAIが制作したデモ動画は、そのモデルが最高の状態であることを示すための「最も確実」なものであり、非常に具体的なアイデアから動画を作成しようとすると、結果は大きく異なる可能性がある。さらに、初期採用者が作成した映像は、品質や詳細が些細なもののようである。しかし、このことは、Soraの印象深さと、テキストから動画生成の分野でSoraが生み出せる勢いを損なうものではないだろう。

作者について

この記事に星をつける

おすすめ度
スタイル

BT