Google Researchは先日、インフォグラフィックスとユーザーインターフェースを理解するためのマルチモーダルAIモデル「ScreenAI」を開発した。ScreenAIはPaLIアーキテクチャをベースにしており、いくつもの課題において最先端の性能を記録している。
ScreenAIは、ウェブをクローリングして生成されたスクリーンショットのデータセットと、アプリとの自動インタラクションで事前に訓練されている。研究者らは、スクリーンショットに注釈を付けるOCRや、スクリーンショットに関するユーザーの質問を生成するLLMなど、合成学習データを生成するために、いくつかの市販モデルAIを使用した。事前トレーニングとファインチューニングの結果、UI画面やインフォグラフィックに関する質問に答え、画面を要約したりナビゲートできる50億パラメータモデルが完成した。ScreenAIは、WebSRC とMoTIFベンチマークで新記録を樹立し、Chart QA、DocVQA、InfographicVQAベンチマークでは他の同規模モデルを上回った。同様のモデルの開発と評価において、より広範な研究コミュニティを支援するため、Googleは、スクリーンベースの質疑応答(QA)モデルのため3つの新しい評価データセットを公開した。Googleは、以下のように説明している。
私たちのモデルは最高クラスですが、タスクによっては、GPT-4やGeminiのような桁違いに大きなモデルとのギャップを埋めるためにさらなる研究が必要だと考えています。そのために、私たちはこの統一された表現を持つデータセットと、スクリーンタスクに関するモデルのより包括的なベンチマークを可能にする他の2つのデータセットを再リリースします。
ScreenAIは、Vision Transformer(ViT)とT5などのエンコーダ・デコーダLLMを組み合わせたPathways Language and Image model(PaLI)アーキテクチャに基づいている。Googleのチームは、この基本アーキテクチャに重要な変更を加えた。UIやインフォグラフィックは「解像度やアスペクト比が多種多様」であるため、彼らはViTの画像パッチングステップを修正し、Pix2Structモデルのパッチング戦略を使用した。これにより、モデルは入力画像の形状に応じてパッチグリッドを調整できる。
事前学習データを生成するために、研究チームはまず自動アノテーションパイプラインを作成した。このシステムは、スクリーンショット画像が与えられると、画像、ピクトグラム、テキスト、ボタンなどのUIやインフォグラフィックの要素を検出し、分類できる。その結果、画面スキーマ注釈が作成され、UI要素が画面内の位置を示すバウンディングボックスとともに一覧表示される。
画面スキーマのデータは、合成学習データの生成に使用される。研究チームは、このスキーマをLLMに与え、LLMにスキーマがスクリーンショットを表していることを伝えさせることで、LLMに人間のユーザーがスクリーンショットについて尋ねるであろう質問を生成するよう依頼した。また、研究者たちはLLMにスクリーンショットの要約を生成させた。全体として、最終的なデータセットには約4億ものサンプルが含まれた。
このモデルを評価するために、研究者たちは、ナビゲーション、要約、QA用に公開されているいくつかのデータセットでファインチューニングした。研究者らは、このモデルの性能を、最先端のモデル(SOTA)や、5B以下のパラメータを持つ他のモデルとも比較した。その結果、2つのベンチマークで新たなSOTA性能を達成し、3つのベンチマークで他の5Bパラメータモデルを上回り、さらに2つのベンチマークで「優位性」が認められた。
Xでは、複数のユーザーがScreenAIについての感想を投稿した。ある人は、Googleが検索結果のランキングにこのモデルを使うのではないかと考えている。また、あるユーザーはこのように投稿している。
競争が激化している。GPT-4 VisionはすでにQwen-VL-Maxとの強力なライバルに臨む中、今度はGoogleがScreenAIでこの分野に参入するようだ。Googleの参入は特に注目したい!
Googleはモデルコードやウエイトを公開していないが、評価データセットScreenQAと Screen Annotationを、GitHubでオープンソース化している。