Large-scale Artificial Intelligence Open Network(LAION)は、50億を越える画像とテキストのペアを収めたAI用トレーニングデータセット"LAION-5B"をリリースした。LAION-5Bには、インターネットから収集した画像とキャプションが、前作であるLAION-400Mの14倍という規模で含まれており、無償で入手可能な最大の画像-テキストデータセットとなっている。
リリースはLAIONのブログで発表された。LAION-5Bの収集は、Common Crawlデータセット内のファイルを解析して、altテキスト値のある画像を検出する、という方法で行われた。その上で、対象となる画像をダウンロードし、CLIPを使用して、コンテンツの内容とaltテキストの説明に相関性のあるものだけを選択した。データセット全体には、23.2億の英文テキスト、22.6億の他言語によるテキスト、12.7億の明確に判断できないテキストを持った画像が含まれる。さらにリリースには、データの最近傍(nearest-neighbor)インデックス、データを使用した意味検索(semantic search)のWebデモ、このデータでトレーニングされたCLIPの複製が同梱されている。LAION-5BのリリースによってLAIONチームのメンバたちが目指すのは、マルチモーダルAI研究の大衆化だ。
50億の画像-テキストペアを含むデータセットを広く利用可能にする最新バージョンをリリースすることによって、公開データセットの規模に新たな標準を設けられるとともに、世界中の研究者がGLIDEやTuring Bletchleyのような最先端の視覚言語モデルをトレーシングできるようになります ... このデータセットは、 これまではプロプライエタリな大規模データセットにアクセス可能な人々だけのものであった、多言語大規模トレーニングと視覚言語モデル研究の可能性を、幅広いコミュニティへと広げるのです。
マルチモーダルAIモデル、中でも画像とテキストデータの組み合わせでトレーニングされたモデルは、近年目覚ましい進歩を遂げている。大規模データセットの存在は、その要因のひとつである。2021年、OpenAIの論文で発表されたContrastive LanguageImage Pre-training (CLIP)は、4億の画像テキストペアで事前トレーニングすることにより、詳細なチューニングを必要とせず、さまざまなマルチモーダルベンチマークにおいて高いパフォーマンスを達成している。しかしながらOpenAIは、CLIPのコードとモデルの重み(model weight)はオープンソース化したものの、データセットについては一般に公開しなかった。このためLAIONは、OpenAIのデータセットの再現に取り組み、その結果を昨年リリースした。このデータセット、すなわちLAION-400Mは、4.13億の画像-テキストペアを含み、"多くの論文や実験に"使用されてきた。
新たなデータセットであるLAION-5Bは、3ステージのパイプラインを使って収集された。まず最初に、作業用の分散クラスタがCommon Crawlから取得したデータファイルを分析し、altテキスト属性のあるHTML画像タグをすべて収集した。altテキストには言語検出が実施され、検出結果の信頼性の低いものには、言語として"unknown"が記録された。タグ付きURLからダウンロードした画像データはaltテキストとともにCLIPモデルに渡され、それぞれの埋め込み(embedding)と2つの埋め込みの類似性が計算され、類似性の低いペアは破棄された。さらに、重複やテキストが5文字に満たないもの、画像の解像度が大き過ぎるものも取り除かれた。
LAIONのエンジニアRomain Beaumont氏は、リリースに関するHacker Newsの議論に参加して、データセットがキュレーションされていないという批判に対して、次のように答えている。
注釈のない(non annotaed)データセットは、機械学習の未来形である、自己教師あり学習(self supervised learning)の基盤です。人が参照するラベルのない画像/テキストは機能のひとつです。バグではありません。安全上の懸念から安全タグ(safety tag)と、世代向上の目的で透かしタグ(watermark tag)は付けていますが ... このデータセット収集法の有効性については、LAION-400Mを使ってclipモデルを再現したことでも証明されています(その他のモデルのトレーニングにも、数多く使用されています)。
LAION-5BデータセットはHuggingFaceのWebサイトからダウンロード可能だ。