BT

最新技術を追い求めるデベロッパのための情報コミュニティ

寄稿

Topics

地域を選ぶ

InfoQ ホームページ ニュース データ科学に必要なデータとは

データ科学に必要なデータとは

原文(投稿日:2016/09/02)へのリンク

データ科学は必要とされるデータを扱うものであり,その基本は,どのデータを収集するか,データを生成するかあるいは保持するか,を決定することだ — データ科学の専門家として長い経験を持ち,Bookin.comの研究部門でプロダクトオーナを務める Lukas Vermeer氏はこのように主張する。真のイノベーションは大きな疑問で始まり,求めている答を得るためにはデータが必要であることが明らかになる。氏はGOTO Amsterdam 2016 conferenceで,“Data Science versus Data Alchemy”という講演を行なう予定だ。

Continuum AnalyticsのシニアデータサイエンティストであるChristine Doig氏は,“Data Science as a Team Discipline”の中で,データ科学を次のように定義している。

[データ科学とは]データに関する一般的問題に解法を与え,データや情報を知識や実行可能な洞察に転換するために,思考のさまざまなフィールドとラインをひとつにまとめる結合力である,と私は考えています。

Ed Jones氏はInfoQの記事 “The Role of a Data Scientist in 2016”で,ビッグデータとデータ科学の問題点について説明している。

ビッグデータの時代が訪れ,現在はその真っ只中です。かつてないほどの量のデータが収集されたことで,この中から有意な情報を取り出す作業はより複雑になり,時間の経過とともにさらに厳しくなっています。ビッグデータ経済の背後にあるロジックは,これまでは想像も予測もできなかった方法で,私たちの個人生活を変革しようとしています。私たちの作り出す電子の動きすべてが,私たちの生活の中で統計と洞察を生み出すのです。

“Webサイトの変更を人々が気に入ってくれるかどうか,確認したいと思っています”,とVermeer氏は言う。Booking.comでは実験や他の形態で収集したデータを使用して,Webサイトを継続的に改善し,より優れたユーザエクスペリエンスを生み出そうとしている。

“データを収集するのは簡単ですが,その利用方法が分からなければ意味がありません”,とVermeer氏は言う。データの多さが優れた意思決定につながるとは限らないのだ。データ科学とは必要なデータを扱うものである。そして必要なデータは手元にあるデータと同じとは限らない。科学はデータによって制限され,データはエンジニアリングによって制限される,と氏は言う。前進するために必要なデータをどうやって作るのかを考えなくてはならない。

講演の中でVermeer氏は,太陽系に関する科学の歴史を例として使用した。エンジニアリングによってデータが制限されることを示すため,氏は天文学の歴史を振り返った。プトレマイオスはコリオリ効果と恒星の視差を観察できなかった。これら2つの現象が極めて微弱で,その測定に必要な精度を持った計測機器がなかったからだ。その証拠のなかったことが,地球は動かない,という結論に彼が到達する大きな理由のひとつになった。このプトレマイオスの例では,2つの効果に対するデータはいずれも,当時の技術水準による制限を受けていた。現在はいずれも簡単に測定可能だが,制限の存在することに代わりはない。

モデルは,必ずしもそれが真実でなくても,将来を予想する上で役立つのであれば有用であると言える,とVermeer氏は主張する。すでに存在するデータについては,複数のモデルを使って説明することができるが,手元にあるデータを使って,どれが正しいモデルなのかを証明することはできない。どれが真実に近いかを決めるためには,新たなデータが必要だ。

Vermeer氏はKaggle.comにも言及した。Kaggle.comはデータ科学者のコミュニティであり,複雑なデータ科学的問題の解決を通じた学習の場,他のデータ科学者との交流の場でもある。

ユーザのレビューを解析してキーワードを検索し,ユーザがホテルを好きか嫌いかを示すことばを探して感情分析を行なうことも可能だが,レビューの書式として2つの欄を用意して,片方に好きなもの,もう一方に嫌いなものを書いてもらう方法もある。このアプローチであれば,データ収集時の感情分析という課題を解決することができる,とVermeer氏は述べている。

Vermeer氏はさらに,自分が生成可能なデータについて検討することを提案している。このデータが既存のデータと重複する場合には,そのデータを保持しておくか,あるいは必要に応じて再生成するかを選択できる。コストとリスク(例えば個人を特定可能な情報(POII)が,データの保持と再生成を判断するおもな理由になる。データを保持するコストが重要かも知れないし,あるいは手元にあるデータによっては,他の考慮事項があるかも知れない。

必要なデータが入手できない場合もあるが,その解決手段として代替データを用いることができる - 必要なデータと関連性がある入手可能なデータを代役として使用するのだ。

Vermeer氏はBooking.comのメールキャンペーンを例として紹介した。その中で同社は,旅行先をプロモートするためにパーソナライゼーションを使用したのだが,そのEメールの表現内容が一部のユーザに気味が悪いと受け取られた。誰かがユーザの購入記録を個人的に分析して,提案を決めているものだと思われたのた。実際には人間の判断ではなく,機械学習モデルに基づいたものだった。次のキャンペーンでテキストを改めたことにより,予測モデルには何らの変更も加えず,インパクトを倍増することができた。

データ科学が秘術(alchemy)でなく科学であるためには,どのデータをどのように収集するかを決めることが基本的なステップだ,とVarmeer氏は言う。

“間違いを犯す余裕はありますか?” “知らないでいる余裕はありますか?” 講演の最後にVermeer氏は,聴衆に対してこのように質問した。その上で“回答よりも質問で人を判断せよ”というVoltaireのことばを引用して,誰かの質問によって自分自身が今まで考えていなかったことを考えるならば,それはよいことだ,と述べた。

 
 

この記事を評価

関連性
スタイル
 
 

この記事に星をつける

おすすめ度
スタイル

BT