LyftのプロダクトマネージャーのJohn Kirn氏は最近、実験を行う際に直面する課題について記事を公開した。既存の実験手法では、Lyftのビジネスの特徴であるリアルタイム性に完全に適応したり、ネットワーク効果を低減したりすることはできなかった。Lyftの実験チームは、時間と領域の分割テストなどの新しいテストを展開し、社内の実験基準と手法を改善した。
A/Bテストとして知られるよく知られた手法は、2つの対象を比較するランダムな実験で構成されている。たとえば、ユーザインターフェイスの変更を、一部のユーザには一方のバージョンを展開し、それ以外のユーザにはもう一方のバージョンを展開することによって評価できる。その後、ユーザの行動を分析して、最も効果的な選択肢を決定する。
しかし、Lyftのチームは、このライドシェアリングモデルは強い干渉効果にさらされると結論付けた。その性質があると、テストによってユーザの行動が変わる可能性があり、他のユーザの選択に干渉する可能性がある。2つの実験が互いに区別されるという統計的仮定に事実上違反することになる。
Lyftの実験は主にユーザ分割テストだが、他の実験手法を使って、望ましくないネットワーク効果を軽減することができる。
Lyftで2番目に一般的なテストタイプは時分割テストである。このテストでは、同じ地域のユーザが特定の期間に同じ体験をする。
時分割テストは、ユーザ間の干渉を減らすため、ネットワーク効果を前にして、因果関係を立証するための強力な方法です。
一貫性のないユーザ体験を引き起こされる可能性があるため、Lyftは、ユーザから見えないシステムの部分に影響を与える実験にこのタイプのテストを使用しようとしている。
時分割テストの初期のバージョンでは、不可抗力な事象(暴風雨、停電など)による干渉に対して脆弱であった。Lyftには現在、これらの干渉を軽減するための新しい因果推論手法と、このタイプのテストを推進するために時分割の分散減少法が適用されている。
他に、Lyftで使用されているテストタイプとして、領域分割テストがある。その名前が示すように、領域分割テストは、特定の地理的境界内のすべてのユーザに対して実験を行う。
[領域分割テストの]制御のために、[Lyftでは]テストが開始される前の傾向を使って、[Lyftが]処置をしなかった場合に何が起こったかについての反事実的予測を作成する。
さらに、Lyftは、実験の質と結果の妥当性を高めるように設計された一連の規範と手法を構築した。
1つは、ガイド付きの仮説ワークフローである。このワークフローにより、実験が開始される前に仮説が登録され、結果がわかった後の仮説を立てる現象を低減できる(HARKingとしても知られている)。実験と仮説、そしてそのコンポーネントとの関連も記録されるため、仮説の迅速な検証と発見が可能になる。
実験チームは、Benjamini-Hochberg法を使って、複数のメトリックが使われている場合にp値を調整する「多重仮説検定補正」手法を確立することにより、多重比較問題に対処した。ただし、まだ評価中である。
Lyftはまた、「結果と意思決定の追跡」メカニズムを構築して、行われた意思決定とそのトレードオフに関する調整を改善した。
[Lyftの]目的は、この結果ログを使って適切な投資のトレードオフに関するコンセンサスを生成し(...)、これらを仮説ワークフローツールにフィードバックして、同様の分野で作業するチームの連携を支援することです。
運用する世界の非常に動的な性質に対応するために、Lyftは「広くテストし、迅速に行動する」ことを望んでいる。この目標を達成するために、適応実験プラットフォームと強化学習アプローチに投資している。