InfoQ ホームページ sre に関するすべてのコンテンツ
-
クラウドインフラストラクチャを最適化するAzure Advisor Well-Architectedアセスメントがパブリックプレビューで公開
Microsoft Azureは最近、Advisor Well-Architectedアセスメントのパブリックプレビューを発表した。この自己ガイド式のアンケートは、Azure Well-Architected Framework(WAF)の原則に沿いながら、Azureリソースを最適化するための、カスタマイズされた実用的な推奨事項を提供することを目的としている。この評価は、オペレーショナル・エクセレンスを確保しながら、システムのパフォーマンス、回復力、セキュリティ、およびコスト効率を強化するように設計されている。
-
AWS、Amazon CloudWatchの新機能 "Internet Weather Map"の公開を発表
AWSは先日、インターネットの遅延と可用性の停止を24時間グローバルにスナップショット表示するAmazon CloudWatchの新機能、"Internet Weather Map"の提供を発表した。この新しいマップは、インターネットの状況について世界的な視点を提供し、ユーザーは特定の都市や特定のサービス・プロバイダーのパフォーマンスや可用性の問題を詳細に分析できる。
-
SalesforceでSLO主導の文化を築く
Salesforceは、サービスレベル目標(SLO)を監視するためのプラットフォームを構築した。このプラットフォームでは、サービス所有者に対する深く実用的な分析を提供する。それは、どのようにサービスの健全性を改善・維持し、SLIの低下を発見し、独自のSLOを満たしていない依存サービスを発見するかの分析である。そして、全体として、どのようにサービスに対する顧客体験の理解を深めるかの分析である。
-
サイト信頼性エンジニアとスペシャリストのマインドセット
サイト信頼性エンジニア(SRE)には、ジェネラリストとスペシャリストがある。Blamelessのチームが先頃、SRE専門チームのアドバンテージを詳説した記事を発表した。SREのスペシャリスト的な性格については、その採用プロセスからも明らかである。個人の持つスキルセットに応じて、企業は、SREをさまざまな専門的役割に関与させることができるのだ。
-
リモートファーストSREとして非同期で働くには
Netlifyのリモートワークにおけるコアプラクティスは、非同期コミュニケーションを優先すること、リモートコミュニティ構築において意図的であること、ワークライフバランスの保護を推奨することである。サスティナブルなリモートワークは、サスティナブルな業務時間から始まる。その中には、時間外の連絡に関する明確な境界とプロトコルによって、自分自身を"ほぼ"連絡不可能な状態に置くことも含まれる。
-
外部ITプロバイダがDevOpsプラクティスを採用するには
ITサプライヤは、プロダクト開発に実験的アプローチを採用して、小さなプロダクト増分を運用環境で検証するという、小規模バッチで作業することにより、"you build it, you run it"というマントラに従うことができる。サプライヤはクライアントの目標が何であるかを見つけなければならない。そして、コラボレーション開発を行うためには、それをサプライヤ自身の目標にしなくてはならないのだ。
-
3月16日のInfoQ Live: ソフトウェアデリバリーの不確実性を減らす方法を探る
InfoQ Liveはソフトウェアエンジニアとアーキテクトのための1日のバーチャルイベントであり、3月16日に新しいエディションで帰ってくる。今回は、ソフトウェア開発サイクルの不確実性を減らす方法に焦点を当てている。
-
分散システムの可観測性戦略 - InfoQ Liveで学んだ教訓
優れた可観測性戦略はチーム間のデータ共有を容易にし、分散システム全体からデータを使用してビジネス目標の達成を判断する - これらは8月25日に行われたInfoQ Liveの討論会で、分散システムの可観測性パターンに関して論じられたアイデアの一部だ。
-
COVID-19のGoogle Meetのスケーリングの課題
Googleは、COVID-19の大流行により、より多くの人々がGoogle Meetを使用するようになったため、使用量の増加によるGoogle Meetのスケーリングの課題について書いた。GoogleのSREチームは、今年初めに始まったトラフィック増加の課題に取り組むために、既存のインシデント管理フレームワークを変更して使用した。
-
“絶大な”クラウド利用が新たな調査で明らかに
O'Reilly Mediaが新たに発表したCloud Adoption in 2020レポートには、クラウドコンピューティングに対する"絶大な"支持が描かれて���る。調査にはまた、サイトリライアビリティエンジニアリング(Site Reliability Engineering)採用の増加、高いが頭打ちのマイクロサービス採用、サーバレスコンピューティングへの関心の低さ、といった結果も現れている。
-
Twitterが実現した、決定論的ロードバランシングアルゴリズムによるリソース利用の改善
Twitterは先頃、自社のRPCフレームワークであるFinagleに、マイクロサービスアーキテクチャに決定論的アパーチャアルゴリズム(deterministic aperture algorithm)を使用したクライアントサイドロードバランシング機能を実装した理由の詳細を発表した。さまざまな試験を行った結果、要求の分散が良好であること、接続数を大幅に削減できること、必要なインフラストラクチャが少ないことなどの理由から、同社は決定論的アプローチを採用したのだ。
-
仕事場における楽しさの重要性
仕事において笑顔になることや、笑ってしまうことはチームの団結、生産性、組織のパフォーマンスを証明してくれる。楽しさは強制できるものではないが、促進できるものであると Holly Cummins 氏は FlowCon France 2019で語った。仕事場における楽しさの重要性の講演である。
-
どうやってうまくいっているのか?Netfixが教える、インシデントからの学び方 - QCon New YorkでのRyan Kitchens氏の講演より
QCon New Yorkで、Ryan Kitchens氏が、"How Did Things Go Right? Learning More from Incidents"と題して講演した。主なポイントは次のとおりだ。リカバリは予防に優る; インシデントは"最悪の状況"が起きた時に発生するのであるから、根本原因(root cause)というものは存在しない; ユーザの幸福が何より重要である; システムがうまくいっている理由を知ることには大きな価値がある。
-
GitHubのインシデント分析がサービスの信頼性を改善する方法を示す
2018年10月21日、GitHubユーザは、日常のメンテナンス作業が原因のインシデントにより、24時間のサービス低下を経験した。古くて一貫性のない情報が表示され、24時間、ウェブフックと他の内部サービスが利用できなくなった。GitHubの事後インシデントレポートは、どこで問題が起きたかを示し、サイト信頼性を改善する解決策を述べている。
-
Googleが解説 - 他社のSRE実践はなぜ誤りなのか
GoogleのCRE(Customer Reliability Engineer)であるStephen Thorne氏が先日のDevOps Enterprise Summit Londonで講演し、SRE(Site Reliability Engineering)とは何か、その基本的な前提とメリットを理解できていない組織がいかに多いか、などについて解説した。