2020年1月1日、カリフォルニア州プライバシ法(California Privacy Act)が施行された。だが、同法の長期的な効果については未知数だ。第1に、多くの企業がこの法律を遵守していない。第2に、法律の適用範囲から除外される状況がある。そして最後に、同法は匿名データの売買を認めている。先日の調査では、このようなデータでは、関連するアイデンティティが完全には隠蔽されないことが示されている。
適用範囲
同法はカリフォルニア州の住民を対象としているが、カリフォリニアは米国で最も人口の多い州である。同州の経済は、独立した国家だとすれば世界第5位の規模となり、インドや英国、フランスを上回る。そのため、ほとんどの企業にとって、カリフォルニア以外の居住者を別の方法で扱うのは困難だと思われる。
現時点では、米国連邦政府にプライバシ法は存在しない。連邦取引委員会(Federal Trade Commission)による調査によって罰金が課せられたことはないのだ。そのような状況でも、さまざまな国家機関がデータ使用を規制する方法について理解しようとしている。食品医薬品局(Food and Drug Administration)は、医療機器におけるマシンラーニングの使用を規制する方法を検討中である。
カリフォルニア州の住民には、次のような権利がある。
- どのような個人情報が収集されているかを知る権利
- 企業が所有する個人情報を要求する権利
- 情報が収集された方法と目的について知る権利
- 要求によって情報を削除する権利
法律では、データ削除に対して、企業がユーザに課金することは禁止されている。
しかしながら、要求によって情報が削除された後でも、企業がデータ収集を続けることは可能なのだ。
さらに同法は、年間収益が2.500万ドルを越える企業、あるいは50,000ユーザ以上を対象とするデータ収集、あるいは収益の50パーセントより多くがデータの販売によるものである場合にのみ適用される。
さまざまな遵守レベル
例えばMicrosoftは、EUのGDPRを欧州外の国でも適用しているように、カリフォルニア州の規則を米国全土に適用することを発表している。
その他の、例えばBank of AmericaやTD Bankなどの銀行には、州のレベルでの規制がすでに存在するので、他の州のユーザと区別することはさほど難しくはない。従ってこれらの企業は、同法の規制をカリフォルニア州の住民にのみ適用している。
その他の企業、例えばAmazonなどは、同法をカリフォルニア州以外の住人に適用するかどうか、明確な答をまだ出していない。
Facebookなどの企業は、自社のサードパーティへのデータ提供ポリシは販売ではないため、同法の適用対象ではないと主張している。これに対して、カリフォルニア州プライバシ法の立案者のひとりであるMary Stone Ross氏は、共有は販売と等価である、としている。
OracleとT-Mobileは、同法に関する自社のコンプライアンスについての談話を拒否している。
ロサンゼルスは、ユーザの位置情報の利用に関して、Weather Channelを告訴している。Weather Channel側は、データは予報の改善のために使用されている、と主張しているものと思われるが、ロサンゼルス市は、ユーザの日常的な行動や購買志向、個人の特定にデータが使用されている、と申し立てている。
同法を遵守していると主張する企業の一部のリストとして、GitHub内でメンテナンスされている一覧を使用することが可能である。この一覧には各企業のプライバシポリシと、情報を要求する方法へのリンクがある。GitHubを使ってリストに企業を追加することも可能だ。
これらの問題のいくつかは今年の中頃、カリフォルニア司法長官のXavier Becarra氏のオフィスが最終規則を公開することによって明確になる可能性がある。"企業は今後、これらの情報を企業が所有する自らのデータとしてではなく、消費者のものであり、消費者が所有し、消費者がコントロールする情報として扱わなければなりません"、と氏は述べている。
匿名データ
カリフォルニア法の下では、匿名化されたデータは引き続き販売することができる。しかし先日の調査では、匿名データが必ずしも匿名ではないことが実証されたようだ。
Natureが2019年に公開した論文によると、米国内居住者の99.98パーセントは、15の人口統計属性を使えば正確に特定することが可能だと推測される。論文の著者らは、匿名化されたデータセットはEU一般データ保護規則(European General Data Protection Regulation)の求める基準を満足できない可能性が高い、と指摘する。
ある例では、郵便番号と誕生日と性別を使って、77パーセントの精度で特定の個人を識別することが可能であった。子供の数などのデータがあれば、精度は99.8パーセントまで上昇する。この種の情報は、診療記録から簡単に入手することができる。
Scienceに掲載された記事によると、匿名のクレジットカードのメタデータは、4件の購入に関する日付と場所があれば、90パーセントの個人の識別に使用することができるという。ひとつの領収書、Instagramの1枚の写真、購入に関する1件のツィートがあれば、クレジットカードの記録から94パーセントの人を識別するのに十分である。名前や住所、クレジットカード番号は必要ないのだ。
携帯電話のデータもプライベートではない。研究者グループがNatureに発表したある論文では、150万ユーザの15ヶ月にわたる携帯電話データを分析している。それによると、4つの参照点(point of reference)があれば、95パーセントのユーザを特定するのに十分だった。ここで言う参照点とは、呼を処理する携帯電話送信のことだ。携帯電話で電話をかける、Webサイトにアクセスする、InstagramやTwitterに投稿する、といったものは、すべて参照点になる。ただし、すべての参照点が同じという訳ではない。午前3時の閑散とした通りでの通話情報は、大都市の中心で夕方おこなう通話情報よりも有効なのだ。