Airbnbでデータサイエンスの責任者を務めるRiley Newman氏は同社がどのようにしてデータサイエンスを定義し活用しているのかを記事にした。氏はデータは顧客の声であり、データサイエンスは解釈する活動であると説明している。また、データサイエンスをスケールするためのいくつかの重要な動きについても説明している。チームに直接、データサイエンティストを入れることやあらゆるビジネスプロセスのすべてにデータサイエンスを統合すること、高速で安定的なデータインフラを構築することなどだ。
Airbnbの起業したての頃、創業者たち - Brian Chesky氏、Joe Gebbia氏、Nathan Blecharczyk氏 - は個人的にゲストとホストに会い、サービスを改善していた。同社はまだ同じようにしているが、年間3億人のゲストの一人一人と話すのは不可能だ。その代わり、同社はプラットフォーム上のさまざまなイベントや活動を記録し、ユーザが何を好み、何を嫌うかを理解するために活用している。このフォードバックは“コミュニティの成長や製品開発、リソースの優先順位付け”に関する意思決定のために特に有用だ。しかし、最初はデータサイエンティストによって“意思決定するために適切な言葉”に変換する必要がある。
同社の成長の中で、“顧客の声”としてのデータ、そして“翻訳者”としてのデータサイエンティストというビジョンを維持するのは簡単ではなかった。記事の中では多くの活動が説明されているが、次の3つが際立っている。
第一にデータサイエンティストは受け身の統計に詳しい人の集まりではない。彼らは他のビジネス部門と直接やり取りし、解決するべき問題を完全に理解するだけでなく、意思決定者が分析結果を完全に理解できるようにし、行動できるようにしなければならない。Airbnbのデータサイエンティストチームはエンジニアやデザイナー、プロダクトマネージャと直接やり取りするサブチームになっている。
第二にデータとデータサイエンスはすべての意思決定のプロセスで必要になる。Airbnbはこのプロセスを4つのステージに分けている。学習、計画、検証、計測の4つだ。それぞれが、データサイエンスの異なる要素から恩恵を受ける。氏によれば、“それぞれのステップに順に従うようにすればするほど、Airbnbで働く全員に影響がでるのです”.
最後にデータサイエンスは高速かつ安定的なインフラで運営される必要がある。データ問い合わせの時間を最小化し、サイエンティストでない人がデータに関する簡単な問いを自分で解決できるようにするためだ。また、こうすることで、すべてのビジネス部門にデータの使用を解放しやすくなり、データサイエンティストもより複雑な課題に取り組めるようになる。
InfoQはRiley Newman氏にAirbnbのデータサイエンスチームについて話を聞いた。
InfoQ: データサイエンティストチームに採用したいのはどのような人物ですか。
Riley: さまざまなバックグラウンドを持っている人を求めています。この領域で成功するための標準的な経歴があるとは思っていません。成功しやすい特質としては、好奇心があり知りたがりで、細部を俯瞰した視点で見ることができ、優れたコミュニケーション能力を持つ人です。統計やR、Pythonの知識も重要です。
InfoQ: 良い候補者かどうかはどのように判断しますか。
Riley: 何年にも渡って私たち面接プロセスを改良してきました。候補者と従業員との摩擦をから最大限のシグナルを受け取るためです。今のやり方は候補者になんらかのデータと課題を与え、それをどのように解決するかを見ます。候補者は準備ができたら、数名の従業員にこの結果を見せます。そして、私たちは候補者の課題の解き方やその方法、結論の実行可能性について議論します。良い候補者はこの課題解決の中で先に説明した特質を見せます。
InfoQ: データサイエンティストとして、あなたはどんなツールや技術をもっともよく使いますか。
Riley: ほとんどの時間を2、3のツールを使うのに費やします。Hadoopクラスタからのデータの取得にはHiveとPrestoを、分析にはRとPythonを、視覚化にはTableauを(カスタムの視覚化プロジェクトに別のツールを使うこともあります)使っています。SQL(とRかPython)だけしか知らない人がこの領域にきたら、道のりは長いでしょう。
InfoQ: これからの数年でどのような技術的改善を見込んでいますか。
Riley: 現状では、データを取得するためのログ出力を備えた機能を開発するという意思決定と、そのデータをビジネス上の決定を支援する実行可能なインサイトに変換するということの間に多くのステップがあります。このフィードバックループを短くすれば、より効率的になれるでしょう。
Airbnbで働いた最初の5年を振り返って氏は“皮肉にもデータサイエンスのインパクトを計測するのは難しい”が、強固なインフラとすべての種類の意思決定にデータを体系的に利用しているということが状況は間違いなく良い兆候だと結論付けている。