BT

最新技術を追い求めるデベロッパのための情報コミュニティ

寄稿

Topics

地域を選ぶ

InfoQ ホームページ ニュース ビッグデータ/マシンラーニングおよびAIにおけるバイアスの影響 - Leslie Miley氏のQCon San Franciscoでの基調講演より

ビッグデータ/マシンラーニングおよびAIにおけるバイアスの影響 - Leslie Miley氏のQCon San Franciscoでの基調講演より

原文(投稿日:2017/11/20)へのリンク

先週のQCon San FranciscoLeslie Miley氏が基調講演し、2016年の大統領選から米国の犯罪量刑に至るまで、データセットに内在するバイアスがいかに影響を及ぼしているかを説明した。

最初に氏が強調したのは、フェイクニュースやマシンラーニングやAIによって強化された偏向にソーシャルメディアが圧倒されたという点で、2017年が前例のない年であったことだ。氏はFacebookが認識している数値を詳細に説明した – 同社は2016年にフェイクニュースは問題ではないと主張していたが、2017年10月には1,000万人が偽の広告を目にしたことを報告した。さらに11月には、この数が12,600万人であり、さらに増え続けていると訂正した。Twitterは2016年9月から11月にかけて、全世界で28,800万人、米国で6,800万人が目にした131,000のツイートを生成した、6,000のロシア発のボットを検出している。氏は問う – なぜこのようなことが起きるのか?

氏はTwitterに在職中、アカウントチームで暴言回避(abuse-safety)のセキュリティテストを行なったことがある。その時に氏らは、ウクライナあるいはロシアで作成された数億のアカウントを特定している。それらが削除されたかどうかは分からない。Facebookでは、同社アカウントの最大2億が誤りか偽造、あるいは侵害されたものだ、と述べている。まだ対処されていない重大な問題があるのだ。

氏は続いて、2016年にTwitterがリリースしたアルゴリズムタイムラインについて説明した。このタイムラインは、最も関わりの多い人からのツイートをより多く見ることができるように設計されている。

最も人気のあるツイートが以前よりもはるかに広く見られるようになったことで、これまでにない規模での伝搬が可能になりました。

同社は目標を非常に効果的に達成した。しかしながら、その最も人気のあるツイートと記事が偽ニュースであった場合に問題がある。このシステムはニュースではなくプロパガンダを、猫のビデオではなく偏向した情報を配信している、と氏は言う。彼らは人々に対して、外に出てBlack Lives Matter(“黒人の命は重要だ”と訴える運動)に抗議するように訴えていた。首都のピザ屋に押し入って、銃を乱射せよと言うのだ。そして、ソーシャルメディアから受け取った偽情報のために、実際に誰かがそれを実行した。

FacebookとTwitterは出版社であり、メディア企業なのだ、と氏は主張する – しかし両社は“プラットフォーム”という扱いのため、メディア企業のような責任を負うことはない。FacebookとTwitterのメディア企業あるいはプラットフォームとしての役割については、現在も論争議論が幅広く繰り広げられている。

ソーシャルメディアには10億近い数の偽アカウントが存在しており、虚偽の投稿を生成し、アルゴリズムによるタイムラインの機能を利用してコンテントを広く拡散することで、人々の気分や行動に偏見による影響を与えている。氏はFacebookが行なった、さまざまな投稿をタイムラインに挿入することで、人々の気分や行動がいかに変わるかを示す実験について紹介した。このようなことが可能だと発表した同社は、その後、他者が同じテクニックを使うことを防ぐために何かをしただろうか、と氏は疑問を投げ掛ける。何もしていない、というのが氏の意見だ。

偽データは、タイムラインのアルゴリズムが選択するものを決定するためのトレーニングの一部になる。

氏はこれを2008年の住宅金融危機に準える – 情報が収集され、ほとんどコントロールされることなく提示され、システムの仕組みや動作の理由が理解されていない、という点が同じなのだ。

なぜこれが問題なのか – 氏は、“次の大物”はAI/ML(マシンラーニング)企業であると確信した上で、彼らが過去の過ちを繰り返すのではないかという懸念を抱いているのだ。意識的なケアと努力がなければ、その可能性は極めて高い。

アルゴリズムが幅広い分野で利用されるようになったことで、成長と繁栄を続ける新たな産業が現れている。利用例として、氏はライドシェアについて説明した – ある特定の地域で、ほとんどのライドが5ドル以下であるとアルゴリズムが決定したらどうなるだろう?その地域にピックアップのために人を送るだろうか、レートの低いドライバを送り込むのではないだろうか?その地域に住む人たちには、どのような影響があるだろう?このような事は、すでに起こりつつある – そして、何が起こるのかはまだ分かっていないのだ。

判決に関するガイドラインでは、モデルのトレーニングに使用したデータセットに偏りがあったために、結果としてそのアルゴリズムでは、同じ犯罪に対して黒人系アメリカ人が有罪になる確率が45パーセント高くなっている。このアルゴリズムは修正されることなく、米国25の州に展開されている。

どのように構築されたのか、どのようにトレーニングされたのかといった情報のないまま、これらのアルゴリズムは雇用や医療、住宅ローンの利率など生活の多くの分野において、我々の生殺与奪をさらに握るに至っている。

これらの問題が顕在化し、崩壊しれば、国民がその後始末をすることになるのだ。

次に氏は、これらの問題が起こらないようにするためにできることを、具体的に示した。最初はトレーニングデータの出所に関する議論からだ – オーバーサンプリングされているのかアンダーサンプリングなのか、アルゴリズムはどのように構築されているのか?どのような情報が収集されたのか、どのように使用されるのか、計算ではどの要素が考慮されているのかが明確でなければならない。

氏は、我々が実行可能ないくつかのステップを提示した。

  • データトレーニング試験において、サークル外部の人を探そう – データセットを拡げるために。
  • 使用されるデータが何であるかを徹底的に明確化しよう – データセットの識別とアルゴリズムの相互レビューを必ず行なうこと。
  • 女性エンジニアをもっと雇用しよう- とにかくそうするのだ。女性の多いエンジニアリングチームほど、よい結果が得られる。
  • 共感と自己認識に取り組もう – 自分自身の偏見を毎日少しずつ、絞り出すように努める(Obama大統領を参考に)。自身の共感と自己認識をリファクタリングしよう。

これらの話題をさらに掘り下げるためのソースのリストを提供して、氏は自身の講演を締め括った。

氏は聴衆に対して次のように呼びかけた。

大量破壊ML兵器の開発は止めて、5年後、あるいはそれ以降に振り返った時、“ただのプラットフォームだ”と言えるようにしましょう。

最後に氏は、我々に監視や規制はないに等しい – 今回あげたような問題が政府による規制を引き起こす前に、我々自身が自制しよう、と語った。我々が構築しているものが、システム開発者よりも権利の低い人たちに与える影響について考える必要がある。

 

 

 

 

 

この記事を評価

採用ステージ
スタイル

この記事に星をつける

おすすめ度
スタイル

BT