Googleは、一連の自然言語命令をモバイルデバイスのUIのアクションに変換するAIモデルをオープンソースにしている。モデルはTransformerディープラーニングアーキテクチャに基づいており、プロジェクト用に作成された新しいベンチマークデータセットで70%の精度を実現する。
Google Researchの科学者チームは、先頃のAssociation for Computational Linguistics (ACL) カンファレンスでこのモデルについて説明した論文を発表した。プロジェクトの目標は、視覚障害のあるユーザや一時的に「ハンズフリー」モードが必要なモバイルデバイスユーザ向けの自然言語インターフェースの開発を支援することである。システムは2つのTransformerモデルを順番に使用する。1つ目は自然言語の命令を一連の「アクションフレーズ」に変換し、2つ目はアクションフレーズを画面上のUIオブジェクトと照合することで「固定」する。リサーチサイエンティストのYang Li氏がプロジェクトについて説明しているブログ投稿では:
この作業は、UIの詳細を操作する必要性を軽減するモバイルデバイスでのタスク自動化の技術的基礎を築きます。これは、視覚的または状況的に障害のあるユーザにとって特に価値がある場合があります。
Transformerは、2017年にGoogleが開発した入力シーケンスを出力シーケンスにマッピングするためのディープラーニングアーキテクチャである。トレーニングの安定性や推論の高速化など、他のシーケンス学習アーキテクチャ(リカレントニューラルネットワーク(RNN)など)よりも優れている。その結果、ほとんどの最先端の自然言語処理(NLP)システムはTransformerベースである。Transformerの主要な操作にはattentionが必要だ。Transformerは、入力シーケンスと出力シーケンスの異なる部分間の関係を学習する。たとえば、ある言語から別の言語に翻訳するようにトレーニングされたTransformerでは、attentionは、多くの場合、ソース言語の単語とターゲット言語の単語へのマッピングの学習である。
Googleの新しいAIでは、1つのTransformerがarea attentionと呼ばれるattentionの形式を使用して、個別のアクションにマップされている入力命令内の隣接する単語のspansを識別する。このTransformerは、自然言語の入力命令のシーケンスを、UIアクションを表すタプルのシーケンスに変換する。各タプルは、操作 (「開く」や「クリック」など)、操作するオブジェクトの説明 (「設定」や「アプリドロワー」など)、およびオプションのパラメータ(たとえば、テキストボックスに入力する必要がある) である。これらのアクションを実行するには、正しいUIオブジェクトを識別することにより、これらのアクションを固定する必要がある。これは、2番目のTransformerによって行われる。このTransformerへの入力には、アクションフレーズのタプルと、現在デバイスの画面上にあるUIオブジェクトのセットの両方が含まれる。Transformerは、アクションフレーズタプルからの説明に基づいてオブジェクトを選択する方法を学習する。
モデルをトレーニングするために、Googleは2つのデータセットを作成した。アクションフレーズ抽出TransformerをトレーニングするためのAndroidHowToと呼ばれるデータセットは、Androidデバイスに関連する「ハウツー」の質問への回答をWebから収集することによって収集された。人間のアノテーターは、回答の指示でアクションフレーズのタプルを識別することにより、データにラベルを付けた。最終データセットには、19万のアクションを表す、ほぼ1万のラベル付き命令が含まれている。固定Transformerの場合、チームはRicoSCAと呼ばれる合成データセットを生成した。Androidアプリ用の72kのUI画面が含まれているRicoと呼ばれる一般公開されているデータセットから始めて、チームは画面からUI要素をランダムに選択し、それらに対して「タップ」や「クリック」などのコマンドを生成した。結果のデータセットには、約30万のコマンドが含まれている。
システムの全体的なパフォーマンスを評価するために、研究者たちは、Pixelスマートフォンのヘルプページから編集したPixelHelpというデータセットを作成した。人間のオペレーターは、Pixelフォンエミュレーターを使用して、ページに記載されているタスクを実行した。ロガーはそれらのアクションを記録し、それにより、自然言語の命令からUI操作へのマッピングが作成された。結果のデータセットには、187のマルチステップ命令が含まれている。新しいAIはこのデータセットで評価され、70.59%の精度を達成した。
Googleの新しいAIは、モバイルデバイスの自然言語自動化における多くの取り組みの1つである。Appleは2018年にSiri Shortcutsを導入した。これにより、ユーザは音声コマンドでトリガできる一連のアクションを定義できる。AmazonのAlexは最近、ディープリンクをサポートするアプリを自動化する機能を導入した。SiriとAlexaの両方のソリューションでは、アプリが明示的にそれらをサポートする必要がある。対照的に、GoogleのAIはデバイスのUIで直接操作することを学習し、あらゆるアプリで使用できるようにする。
Googleのモデルとデータセット生成コードはGitHubで入手できる。