GoogleのBrain Teamの研究者がImagenを発表した。これはテキストによる説明が与えられたシーンから、写真のような現実感のある画像を生成できるテキスト-to-イメージAIモデルである。Imagenは、COCOベンチマークでDALL-E 2の性能を上回り、多くの同様のモデルと異なり、テキストデータでのみ事前トレーニングされている。
このモデルと実験は、arXivで公開された論文に記載されている。Imagenでは、Transformer言語モデルを使って、入力テキストが一連の埋め込みベクトルに変換される。次に、一連の3つの拡散モデルによって、その埋め込みがを1024x1024ピクセルの画像に変換される。チームは取り組みの一環として拡散モデルを改良した。これはEfficient U-Netと呼ばれている。また、DrawBenchと呼ばれるテキスト-to-イメージモデル向けの新たなベンチマークスイートを開発した。COCOベンチマークでは、Imagenは7.27のゼロショットFIDスコアを達成し、これまでの最高のパフォーマンスモデルであるDALL-E2を上回った。研究者はまた、自身の取り組みが社会に与える潜在的な影響についても話し合い、次のように述べている。
Imagenの主な目的は、テキストから画像への合成をテストベッドとして使って、生成手法の研究を進めることです。生成手法のエンドユーザアプリケーションはほぼ研究の対象外ですが、この研究の潜在的なアプリケーションは多様であり、複雑な形で社会に影響を与える可能性があると認識しています...今後の取り組みでは、外部監査の価値と無制限のオープンアクセスのリスクとのバランスをとる責任ある外部化(responsible externalization)のフレームワークを検討します。
近年、数人の研究者がマルチモーダルAIモデルのトレーニングを調査した。テキストや画像などのさまざまなタイプのデータを操作するシステムである。2021年、OpenAIはCLIPを発表した。これは、テキストと画像の両方を同じ埋め込みスペースにマッピングできるディープラーニングモデルである。これによって、ユーザはテキストによる説明が特定の画像に適切に表しているかどうかをインプットできる。このモデルは、多くのコンピュータービジョンタスクで効果的であることが証明されている。OpenAIではこのモデルを使ってDALL-Eを作成する。DALL-Eは、テキストによる説明からリアルな画像を生成できるモデルである。CLIPとそれに類似するモデルは、インターネットから取得された画像とテキストのペアのデータセットでトレーニングされている。このデータセットは、InfoQが今年初めに報告したLAION-5Bデータセットに類似するものである。
Googleチームは、Imagenトレーニングに画像・テキストデータセットを使わずに、入力テキストを埋め込みに変換するために「既製の」テキストエンコーダーT5を使った。埋め込みを画像に変換するためにImagenでは一連の拡散モデルを使用する。この生成AIモデルでは、反復ノイズ除去プロセスを使って、ガウスノイズをデータ分布(この場合は画像)からのサンプルに変換する。ノイズ除去は、いくつかの入力を条件とする。1つ目の拡散モデルに対する条件は入力テキストの埋め込みである。このモデルは64x64ピクセルの画像を出力する。出力された画像の解像度を1024x1024に上げるために、2つの「超解像」拡散モデルを通してアップサンプリングする。これらのモデルに対して、GoogleはEfficient U-Netと呼ばれる新たなディープラーニングアーキテクチャを開発した。これは、以前のU-Net実装よりも「シンプルで、収束が速く、メモリ効率が高い」ものである。
"かわいいコーギーは寿司でできた家に住んでいる" - 画像ソース: https://imagen.research.google
研究者は、COCO検証セットでImagenを評価することに加えて、新たな画像生成ベンチマークのDrawBenchを開発した。このベンチマークは、合成、カーディナリティ、空間関係など「モデルのさまざまなセマンティックプロパティを探索できるように設計された」テキストプロンプトの集合で構成されている。DrawBenchでは、人間の評価者を使って2つの異なるモデルを比較する。まず、各モデルはプロンプトから画像を生成する。次に、評価者は2つの結果を比較し、どちらのモデルがより良い画像を生成したかを選択する。BrainチームはDrawBenchを使ってImagenを評価し、DALL-E2および他の3つの類似モデルと比較した。チームは、審査員が他のモデルよりもImagenによって生成された画像を「非常に」好むことを発見した。
Twitterで、GoogleのプロダクトマネージャーのSharon Zhou氏がこの作業について話し合い、次のように述べている。
いつものように、結論としては、[大規模な言語モデルを]スケールアップし続ける必要があるということです。
別のスレッドで、Google BrainチームのリーダーであるDouglas Eck氏が、Imagenによって生成された一連の画像を投稿した。これらはすべて、1つプロンプトから派生させたプロンプトから生成したものである。Eck氏は、画像のスタイル、照明、その他の外観を調整するための単語を追加して、プロンプトを修正している。Imagenによって生成された他のサンプル画像はImagenプロジェクトサイトにある。