BT

最新技術を追い求めるデベロッパのための情報コミュニティ

寄稿

Topics

地域を選ぶ

InfoQ ホームページ ニュース SalesforceでSLO主導の文化を築く

SalesforceでSLO主導の文化を築く

原文(投稿日:2022/04/30)へのリンク

CRMソフトウェア企業のSalesforceは、サービスレベルの指標と目標(SLIとSLO)を使ったサービスの信頼性へのアプローチを明らかにした。SLOを監視するためのプラットフォームを構築した後、最初の1年で1,200のサービスで導入され、大規模な採用が見られた。このプラットフォームでは、サービス所有者に対する深く実用的な分析を提供する。それは、どのようにサービスの健全性を改善・維持し、SLIの低下を発見し、独自のSLOを満たしていない依存サービスを発見するかの分析である。そして、全体として、どのようにサービスに対する顧客体験の理解を深めるかの分析である。

サービスの信頼性を監視するプラットフォームを構築することで、組織の複雑さと労力が取り除かれる。それによって、チームがビジネス価値の推進に集中できるようになる。Tripti Sheth氏は、さまざまな技術スタック、組織内の多くの製品と個々のサポートサービス・製品を横断で「信頼性の高い」の定義に同意することが、Salesforceにとっていかに重要であったかについて話している。これにより、SLIとSLOの観点から信頼性を組み立てることができるようになった。

Google Cloudで文書化されているように、サイト信頼性エンジニアリング(SRE)は、可用性が成功の前提条件であるという考えから始まる。サービスレベル目標(SLO)は、サービスの可用性の正確な数値目標である。サービスレベルアグリーメント(SLA)は、SLOが特定の期間にわたって満たされるというサービスユーザへの約束を定義するものである。サービスレベルインジケーター(SLI)はサービスのパフォーマンスの直接の測定値である。これらの一般的に受け入れられている定義は、顧客体験を明確で定量的かつ実用的な方法で示すためによく使われる。

これまで、SalesforceのチームはSLOを手動で組み立てていた。つまり、これらの指標の更新とレポートの作成には時間がかかり、エラーが発生しやすい作業であった。さらに、さまざまなチームがさまざまな方法でこれらの値を計算して保存するため、企業は顧客体験を明確に把握できていなかった。

サービスの可用性に対する標準化されたビューを形成することは非常に重要であり、Salesforceは次の3つの領域でこれに取り組んだ。

標準化された測定: Salesforceは、要求率、エラー、可用性、期間/待機時間、飽和度(READS)の5つの読み取り値に基づいて、以前に確立していたSLOフレームワークを使った。製品とサービスの健全性の測定値の標準を定義するためである。

標準化されたツール: 所有権、健全性のしきい値、アラート構成といった、SLI、SLO、サービスの定義をホストするための専用のSLOプラットフォーム。このメタデータは、長期ストレージで1つのデータストアに保持され、過去の健全性トレンドを可視化するために保持される。収集されたデータに基づいて、自動アラートを設定できる。

標準化された視覚化: 新しいサービスがプラットフォームに追加されるとすぐに、標準のREADS SLIとその特定のサービスに追加されたカスタムSLIを使用して、すぐに使用できるメトリックの標準ビューが生成される。可視化には、リアルタイムデータによって自動的に生成・入力されるリアルタイムモニタリングのための専用Grafanaダッシュボードが含まれている。また、このサービスはサービス分析ダッシュボードに追加されている。このダッシュボードを定期的にレビューすることで、サービスの健全性と可用性に関する会話が促進される。

これらの3つの領域の組み合わせにより、多くの利点が生まれる。

  • SLOが標準化された方法で計算されるという確信
  • 視覚化されたSLI・SLOメトリックからの分析
  • サービスが期待に応えているかどうかを判断するための、SLOに関する詳細なターゲットの使用
  • SLI・SLOメトリックに関するアラート
  • 違反とインシデントの相関関係
  • サービスの依存関係の特定

SLOプラットフォームアーキテクチャは、複数のコンポーネントで構成されている。これは、サービスレジストリと構成ストアを中心に展開されている。サービスの所有権情報、サービスステータス、サービス固有の構成、アラートのトリガーに必要なSLI、SLO、しきい値に関するデータが保持される。これに関連するのは、変更とリリース情報のためのデータストアである。これらのデータは、将来、変更をSLO違反と相関させるために収集される。また、関連するものとして、メトリックを収集・集約するための時系列監視プラットフォームとパイプラインがある。

統合サービスヘルスダッシュボードは、運用レビューの焦点になっている。チームはこれらのメトリックをきっかけにアーキテクチャのレビューを行い、戦略的投資と戦術的改善に関する議論が促された。

今後の作業により、サービスの依存関係をより包括的に表示できるようになる。障害が発生した場所を正確に特定し、復旧時間を最小限に抑えることを目的としている。さらに、サービスごとにこれらのデータを収集し、依存するサービスの現実的なビューを使って、Salesforceはスタック全体に現実的なSLIを設定できるようになる。

詳細を含む全ての記事は、Mediumから入手できる

作者について

この記事に星をつける

おすすめ度
スタイル

特集コンテンツ一覧

BT