読者の皆様へ: 皆様のご要望にお応えするべく、ノイズを削減する機能セットを開発しました。皆様が関心をお持ちのトピックを、EメールとWeb通知で受け取ることができます。新機能をぜひお試しください。
Site Reliability Engineeringとは、ソフトウェアエンジニアリングとITオペレーションを横断するもので、Googleが2003年に開発し、2016年に書籍“Site Reliability Engineering, How Google Runs Production Systems”で詳説したアプローチである。ディジタルエクスペリエンスとインテリジェンスのプロバイダであるCatchpointは先日、416名のSRE(Site Reliablity Engineer)を対象に、SREの意味の理解を目的とする調査を実施した。
調査の項目は、SREとは誰なのか(経験レベル、バックグラウンド、スキルセット)、どこで働くのか、何をどのように行うのか(日常的に使用するツールとプロセス、成功を判断する上で用いるメトリクスとメソッド)、といったものだ。調査回答者の39パーセントは、自分自身をSREであると認識していた。その他は管理、インフラストラクチャと運用、開発者/エンジニアなどで、10パーセントはDevOps、1パーセントはセキュリティ担当者だった。半数強がテクノロジ関連の企業に従事しており、40パーセント以上はアズ・ア・サービス系プロバイダに所属していた。過半数が1,000名以上の従業員を雇用する企業であり、5,000名以上の大企業の従業員は40パーセント弱だった。回答者の87パーセントは北米および欧州からのものだ。
回答者の34パーセントが“クラウド出身”、32パーセントはハイブリッド、19パーセントはクラウド移行組、14パーセントが“現在も自社データセンタ”だ、と回答している。SREの65パーセントは、インフラストラクチャを全面的あるいは部分的にクラウドに頼っており、47パーセントが1日複数回のデプロイを実践している。SREの役割には、コード開発と既存システムサポートの両方が含まれている。企業としては、コード開発と保守作業の時間配分に50/50のバランスを取ることを目標にしているが、回答の内容はほぼ完全な釣鐘曲線になっており、大きな乖離が見られる。
アプリケーションとサービスの可用性はSREのおもな関心事で、回答者の84パーセントが、自身のサービスの最も重要なサービスレベル指標として、エンドユーザの可用性を挙げている。それに続くのは、エラー率のレイテンシの61パーセントだ。インシデント解決については、回答者の94パーセントが、作戦司令室やビデオ会議、電話、Eメールといった手段よりも、インスタントメッセージングソリューションを利用している、と回答している。これなしでは生きられないとSREが回答したツールのトップ3は、アラート、バージョン管理、チャットツールだった。
44パーセントの企業がエラー予算を厳格に運用していない一方で、企業規模が大きくなるほど、エラー予算は守られているようで、従業員数5,000人以上の企業に所属するSREの44パーセントが、エラー予算を厳密に守っていることが示されている。
回答者の92パーセントが、SREに必要な技術スキルのトップにオートメーションを挙げているが、自らのチームがすべてを自動化しているという回答者は18パーセントに過ぎなかった。金融サービス業界のSREの32パーセントは、自動化されるべきものはすべて自動化されている、と考えている。企業規模が小さいほど自動化拡大の余地は大きくなり、従業員50人未満の企業が22パーセントであるのに対して、5,000人以上の企業では12パーセントだった。
SREはエントリレベルの役割ではない — 80パーセントのSREが学位と6年以上の業務歴を持っている。コンピュータ科学や情報技術の学位は必須ではないが、73パーセントのSREが技術分野を専攻している。SREの職に就く前に、64パーセントがSysAdmin、53パーセントが開発者ないしソフトウェア技術者のキャリアを持っている。また、17パーセントがDevOpsの両側で、いわゆる“混乱の壁(wall of confusion)”を経験している。SREの大半(55パーセント)はエンジニアリング部門に所属しており、IT部門は少数派(31パーセント)である。
すべての調査結果はこちらで確認できる。
この記事を評価
- 編集者評
- 編集長アクション