BT

最新技術を追い求めるデベロッパのための情報コミュニティ

寄稿

Topics

地域を選ぶ

InfoQ ホームページ ニュース Googleが8億パラメータ視覚・言語AIモデルのALIGNを発表

Googleが8億パラメータ視覚・言語AIモデルのALIGNを発表

原文(投稿日:2021/07/20)へのリンク

Google Researchは、大規模な画像とノイズの多いテキストの埋め込み(ALIGN)の開発を発表した。これは、800Mパラメータで事前トレーニング済みディープラーニングモデルで、18億の画像・テキストのペアのノイズの多いデータセットでトレーニングされている。このモデルは、いくつかのダウンストリームタスクで使用でき、画像・テキスト検索のいくつかのベンチマークで最先端の精度を実現している。

研究者のChao Jia氏とYinfei Yang氏は、最近のブログ投稿で取り組みの概要を説明した。チームはWebからhtmlページをスクレイピングし、画像に関連付けられたalt-textタグを使って、画像・テキストのペアのデータセットを作成した。BERTスタイルの自然言語処理(NLP)エンコーダーとEfficientNetスタイルのコンピュータービジョン(CV)エンコーダーの組み合わせであるALIGNモデルは、このデータセットで事前にトレーニングされている。その結果が、画像とテキストの両方を共有の潜在埋め込み空間にマッピングできるモデルである。この共有の埋め込みは、画像・テキストの検索や画像の分類など、画像・テキストタスクのいくつかで使用できる。このモデルは、パンダの画像と「オーストラリア」というテキストがコアラの画像を返す「画像計算」検索の性質も備えている。

Image plus text queries

出典: https://ai.googleblog.com/2021/05/align-scaling-up-visual-and-vision.html

大規模な深層学習AIモデルのトレーニングには、大規模なデータセットが必要である。最近のNLPモデルは、ウェブから取得したデータセットを使って、教師なし学習で事前トレーニングされる。一方で、ほとんどのCVモデルは、人によって作成され、注釈が付けられたImageNetCOCOなどの整理されたデータセットでトレーニングされている。そのため、これらのデータセットは、GPT-3などのモデルのトレーニングに使われるNLPデータセットよりもはるかに小さくなる。たとえば、COCOには33万枚の画像しか含まれていないが、GPT-3は約5兆語でトレーニングされている。

2018年、Googleの研究者は、Conceptual Captionsデータセットに関する論文を発表した。これは、ウェブページから画像をスクレイピングし、それらの画像に対してalt-textタグを使って注釈を付与することで作成されたものである。Conceptual Captionsには、COCOよりも桁違いに多い約300万の画像を含む。alt-textデータは「ノイズが多い」ため、Googleはデータ品質を向上させるために自動フィルタリングパイプラインを作成した。300万の画像のために50億枚以上の画像をスクレイピングする必要があった。不採用率は99.94%であった。この大規模なデータセットに加えて、GoogleはConceptual Captionsチャレンジも開始した。これは、約12,500の画像・テキストペアのテストセットに対してモデルを評価する。

この最新の調査では、Googleチームはフィルタリングのステップを実施し、Conceptual Captionsより2桁多い約20億のノイズの多い画像・テキストペアに対して、シンプルにスクレーピングを行った。得られたデータセットを使って、ALIGN、テキストデータ用の3.4億パラメータBERTと画像用の4.8億パラメータEfficientNetをトレーニングした。ALIGNは2つのエンコーダアーキテクチャに基づく深層学習モデルである。このトレーニングでは、組み合わせたモデルのトレーニング目標として対照損失を使った。チームは、ゼロショットと微調整の両方のシナリオを使って、Flickr30KベンチマークとCOCOベンチマークで結果のモデルを評価した。以前の作業と比較して、ALIGNは、「大きなマージン」によって、すべてのタスクで新しい最先端の精度を達成した。このモデルは、ImageNet分類ベンチマークでも良好に機能し、リーダーボードで6位になった。

他のいくつかの組織は最近、視覚と言語の組み合わせモデルを調査した。今年の1月、OpenAIは、4億の画像・テキストペアを含む、alt-textタグに基づくデータセットも使ってトレーニングされたCLIPモデルをリリースした。CLIPは、ALIGNの評価に使われる多くのベンチマークで以前の最先端の記録を保持しており、GitHubでオープンソース化されている。4月に、AlibabaはM6モデルを発表した。このモデルは、1.9TBの画像と292GBのテキストの画像・テキストデータセットでトレーニングされている。このデータセットもWebからスクレーピングされたものである。

Redditでの議論で、AIライターのGwern Branwen氏は、ALIGNと、Googleの子会社であるDeepMindが行った同様の調査とを比較した

イントラモーダルフュージョンのパフォーマンスが低いかもしれません。そうは言っても、シンプルにアーキテクチャとして「TPUを採用しており」、最先端となります。それでも、このALIGNがCLIPを打ち負かしているのです。

Googleチームは、次回の機械学習に関する国際会議(ICML)でALIGNに関する論文を発表する。

この記事に星をつける

おすすめ度
スタイル

BT