Googleはプライバシーを保護しながらデータ処理の透明性を高めるために設計された技術、Confidential Federated Analytics(CFA)を発表した。フェデレーション分析を基盤に、CFAは機密コンピューティングを活用して生データがサーバーやエンジニアに公開されることなく、ユーザーデータに対して事前に定義された検査可能な計算のみが実行されるようにする。
フェデレーション分析はユーザーデバイスに生データを保持したまま、分散データ分析を可能にする。従来デバイスは個々のデータポイントではなく、集約された統計情報を送信することでクエリに応答していた。しかし、ユーザーは自分のデータがどのように処理されているのかを確認する方法がなく、信頼性とセキュリティ上の課題があった。
CFAはこの制約をTrusted Execution Environments (TEEs) を使用して解決する。これは計算処理を事前定義された分析に制限し、権限のない生データへのアクセスを防止するものである。CFAはさらにプライバシーに関連するすべてのサーバー側ソフトウェアを公開監査可能にし、データ処理プロセスの外部検証を可能にしている。
出典: googleブログ
Google Cloudの開発者リレーションズ担当ディレクター Richard Seroter氏はこの進歩の重要性を指摘し、述べた:
これは本当に前進したと感じます。たくさんの実際のデバイスを使ったフェデレーテッドラーニングとフェデレーテッドコンピュテーションは非常にクールですが、プライバシーを重視する人々を不安にさせる可能性があります。
googleはアンドロイドキーボードGboardにCFAを導入し、900以上の言語で新しい単語の検出を向上させている。言語モデルは新しい単語を認識するために更新が必要だが、一方でレアなものやプライベートなもの、非標準的なエントリは除外する必要がある。
以前、googleはLDP-TrieHH、ローカル差分プライバシーベースアプローチを使用していた。しかしこの方法はスケーラビリティが制限されており、特にユーザー数の少ない言語では更新処理に数週間を要していた。
CFAを使用することでシステムは2日間で3,600のインドネシア語の欠落を処理し、より強力な差分プライバシー保証を維持しながらより多くのデバイスと言語に対応した。
CFAはデータがプライベートなままでありながら有意義な分析を可能にする、構造化された複数のステップからなるプロセスを通じて動作する。ワークフローは次の主要ステージから構成されている:
-
データ収集と暗号化:デバイスは関連データをローカルに保存し、アップロード前に暗号化する。
-
アクセスポリシーの実施:データは構造化されたポリシーによって定義された、事前に承認された計算のためにのみ復号化できる。
-
TEE の実行:データ処理はTEE内で行われ、機密性を確保し、不正な改変を防止する。
-
差分プライバシーアルゴリズム:システムは安定性に基づいたヒストグラム・アプローチを適用し、頻繁に入力された単語を識別する前にノイズを加える。
-
外部検証可能性:処理パイプライン、ソフトウェア、暗号証明は、外部監査のために公開透明性台帳に記録される。
googleは機密フェデレーテッドコンピュテーションをより広範な連携学習タスクに適用し、厳格なプライバシー保証を伴うAIモデルのトレーニングを可能にする計画だ。この技術はAndroid Private Compute Coreやその他のプライバシー重視のシステムに統合されることが期待されている。