OpenAIが画像生成用のGPT-3モデルを発表

原文(投稿日：2021/02/02)へのリンク

OpenAIは、GPT-3に基づいて12BパラメーターAIモデルをトレーニングした。GPT-3では、テキストの説明から画像を生成することができる。説明では、オブジェクトの位置や画像の遠近法など、多くの独立した属性を指定できる。そして、現実の世界には存在しないオブジェクトの組み合わせを合成することもできる。

研究者のAditya Ramesh氏は、最近のブログ投稿でシステムとその機能の概要を説明した。このモデルは、GPT-3で使用されているTransformerアーキテクチャに基づいている。ただし、GPT-3とは異なり、モデル入力にはテキストだけでなく画像ピクセルも含まれる。それは、短いキャプションに基づいて、リアルな画像を生成することもできる。キャプションには、複数のオブジェクト、それらの色、テクスチャ、それぞれの位置、および照明やカメラアングルなどの他のコンテキストの詳細が指定されている。このモデルは、スタイル転送などの画像から画像への転送タスクを実行する機能など、設計者が予期していなかった動作を示すこともある。OpenAIは、そのモデルを「DALL-E」と名付けた。これは、PixarのロボットWALL-EとアーティストのSalvador Dali氏のマッシュアップである。おそらく、オブジェクトの非現実的な組み合わせから画像を生成できるためである。たとえば、「アボカドの形をした肘掛け椅子」などである。

出典: https://openai.com/blog/dall-e/

画像生成のための多くの人気のある深層学習モデルは、敵対的生成ネットワーク（GAN）アーキテクチャを使用している。2018年、NVIDIAの研究者は、人間の顔の写実的な画像を生成するStyleGANモデルを開発した。これを使って、存在しない人々の高解像度の写真を提供する人気のあるWebサイトと、そのバリエーションが複数作成された。2020年に、OpenAIはImage GPT（iGPT）をリリースした。これは、テキストのシーケンスではなくピクセルのシーケンスで動作するTransformerベースのモデルである。OpenAIは、テキスト向けのGPTモデルが自然言語の現実的なサンプルを生成できるのと同じように、初期ピクセルの入力が与えられると、iGPTが「コヒーレントな画像の補完とサンプルを生成」できることを発見した。

OpenAIは最近、CLIPもリリースした。GPTの自然言語機能とコンピュータービジョンを組み合わせたもう1つのディープラーニングモデルである。CLIPは、インターネットから取得したテキストとペアになった画像のデータセットで事前トレーニングされている。そして、ゼロショット転送学習を介していくつかの異なる視覚的分類タスクを実行できる。たとえば、CLIPは、ImageNetイメージのトレーニングを受けなくても、ImageNetベンチマークでオリジナルのResNet50モデルのパフォーマンスと一致させることができる。CLIPは、ImageNet-Adversarialベンチマークでも良好に機能し、77％の精度を記録している。対照的に、ResNet50は2.7％しか達成できなかった。

DALL-Eは、256個のテキストトークンと1024個の画像トークンで構成される入力が与えられたTransformerモデルである。モデルには、合計12Bのパラメーターを持つ64の自己アテンションレイヤーが含まれている。DALL-Eは自己回帰的に出力画像を生成し、OpenAIはCLIPを使用して生成された画像の品質をランク付けする。OpenAIのブログには、いくつかのサンプル画像と、入力となる記述内の一部の単語を変更することで新しい画像をインタラクティブに生成する機能が含まれている。しかし、システムの完全な詳細を公開しておらず、コードや事前トレーニング済みモデルもリリースしていない。ブログでは、同社がモデルアーキテクチャとトレーニングに関する詳細を提供する予定であり、「このテクノロジーによって暗に示される長期的な倫理的課題」を分析する予定であると述べられている。

他の著名なAI研究組織も、最近Transformerモデルをコンピュータービジョンに適用している。2019年に、MicrosoftはUNiversal Image-TExt Representation Learning（UNITER）に関する論文を発表した。これは、Transformerアーキテクチャに基づいており、視覚的な質問応答（VQA）や画像テキストの取得などの視覚/言語タスクで最先端のパフォーマンスを実現している。2020年、アレン人工知能研究所は、VQAと画像生成を実行するX-LXMERTに関する論文を発表した。

OpenAIのコードとiGPTとCLIPのモデルは、GitHubで入手できる。DALL-Eはリリースされていないが、EleutherAIのAI研究者は、同様のシステムのコードをオープンソース化している。

Topics

Spring BootによるAPIバックエンド構築実践ガイド第2版

マルチリージョン・データレジデンシーのためのアーキテクチャを理解する

バーチャルパネル：大規模言語モデルを採用する際の考慮点

創造的活動：スタッフ・プラスは、「科学」というよりもむしろ「芸術」である

Low Code/No Codeを採用する：確認するべき6つの適性

役に立つリンク集

地域を選ぶ

この記事に星をつける

このコンテンツのトピックは AIと機械学習、データエンジニアリングです。

関連記事:

関連記事

関連スポンサーコンテンツ

特集コンテンツ一覧

Rust 1.80、Lazy Staticのサポートやパターンの範囲拡張などを追加

Python 3.13の最新機能を分解する

CopilotがOneDriveで利用可能に：効率的な文書管理のためのAI搭載機能

EC2もKubernetesも許さない：PostNLでのサーバーレス・オンリーアーキテクチャ構築からの洞察

PayPal社、Cosmos.AI MLOpsプラットフォームにLLMを利用した生成AIサポートを追加

NetflixのPushy：スケーラブルなウェブソケット・プラットフォームの進化：1億の同時接続を処理する

ソフトウェア組織における高速フローの実現

データメッシュ組織の構築

ソフトウェア会社での社内DORA調査の知見

GitHubとGoogle Cloudが連携し、Gemini 1.5 ProをGitHub Copilotに導入

PyTorch カンファレンス 2024：PyTorch 2.4/2.5(開発中)、そしてLlama 3.1

バーチャルパネル：大規模言語モデルを採用する際の考慮点

JFrog社、強化されたDevSecOpsプラットフォームにランタイムセキュリティを統合

Google CloudがMemorystore for ValkeyおよびRedis Clusterにスケーラブルなベクトル検索機能を追加

WebAssemblyはコンテナの次の進化ステップかもしれない：ミュンヘンのInfoQ DevSummitでFermyonが語る

QCon San Francisco

QCon London

InfoQ Dev Summit Boston

Login with:

アカウントをお持ちでない方