InfoQ ホームページ sre に関するすべてのコンテンツ

ニュース

RSSフィード

最新前の記事

Cloud

クラウドインフラストラクチャを最適化するAzure Advisor Well-Architectedアセスメントがパブリックプレビューで公開

Microsoft Azureは最近、Advisor Well-Architectedアセスメントのパブリックプレビューを発表した。この自己ガイド式のアンケートは、Azure Well-Architected Framework（WAF）の原則に沿いながら、Azureリソースを最適化するための、カスタマイズされた実用的な推奨事項を提供することを目的としている。この評価は、オペレーショナル・エクセレンスを確保しながら、システムのパフォーマンス、回復力、セキュリティ、およびコスト効率を強化するように設計されている。

Steef-Jan Wiggers 翻訳者 Takashi Kawase
投稿日 2024年10月11日午前1時30分
Cloud

AWS、Amazon CloudWatchの新機能 "Internet Weather Map"の公開を発表

AWSは先日、インターネットの遅延と可用性の停止を24時間グローバルにスナップショット表示するAmazon CloudWatchの新機能、"Internet Weather Map"の提供を発表した。この新しいマップは、インターネットの状況について世界的な視点を提供し、ユーザーは特定の都市や特定のサービス・プロバイダーのパフォーマンスや可用性の問題を詳細に分析できる。

Renato Losio 翻訳者 Takamasa Sugawara
投稿日 2024年6月5日午前9時30分
DevOps

SalesforceでSLO主導の文化を築く

Salesforceは、サービスレベル目標（SLO）を監視するためのプラットフォームを構築した。このプラットフォームでは、サービス所有者に対する深く実用的な分析を提供する。それは、どのようにサービスの健全性を改善・維持し、SLIの低下を発見し、独自のSLOを満たしていない依存サービスを発見するかの分析である。そして、全体として、どのようにサービスに対する顧客体験の理解を深めるかの分析である。

Matt Saunders 翻訳者編集部T _
投稿日 2022年5月19日午前4時1分
DevOps

サイト信頼性エンジニアとスペシャリストのマインドセット

サイト信頼性エンジニア(SRE)には、ジェネラリストとスペシャリストがある。Blamelessのチームが先頃、SRE専門チームのアドバンテージを詳説した記事を発表した。SREのスペシャリスト的な性格については、その採用プロセスからも明らかである。個人の持つスキルセットに応じて、企業は、SREをさまざまな専門的役割に関与させることができるのだ。

Aditya Kulkarni 翻訳者 h_yoshida _
投稿日 2022年3月22日午後8時43分
カルチャー＆手法

リモートファーストSREとして非同期で働くには

Netlifyのリモートワークにおけるコアプラクティスは、非同期コミュニケーションを優先すること、リモートコミュニティ構築において意図的であること、ワークライフバランスの保護を推奨することである。サスティナブルなリモートワークは、サスティナブルな業務時間から始まる。その中には、時間外の連絡に関する明確な境界とプロトコルによって、自分自身を"ほぼ"連絡不可能な状態に置くことも含まれる。

Ben Linders 翻訳者 h_yoshida _
投稿日 2022年1月11日午後11時36分
カルチャー＆手法

外部ITプロバイダがDevOpsプラクティスを採用するには

ITサプライヤは、プロダクト開発に実験的アプローチを採用して、小さなプロダクト増分を運用環境で検証するという、小規模バッチで作業することにより、"you build it, you run it"というマントラに従うことができる。サプライヤはクライアントの目標が何であるかを見つけなければならない。そして、コラボレーション開発を行うためには、それをサプライヤ自身の目標にしなくてはならないのだ。

Ben Linders 翻訳者 h_yoshida _
投稿日 2021年8月31日午前1時23分
DevOps

3月16日のInfoQ Live: ソフトウェアデリバリーの不確実性を減らす方法を探る

InfoQ Liveはソフトウェアエンジニアとアーキテクトのための1日のバーチャルイベントであり、3月16日に新しいエディションで帰ってくる。今回は、ソフトウェア開発サイクルの不確実性を減らす方法に焦点を当てている。

Adelina Turcu 翻訳者 Shoji Shigeki
投稿日 2021年3月16日午後8時21分
デベロップメント

分散システムの可観測性戦略 - InfoQ Liveで学んだ教訓

優れた可観測性戦略はチーム間のデータ共有を容易にし、分散システム全体からデータを使用してビジネス目標の達成を判断する - これらは8月25日に行われたInfoQ Liveの討論会で、分散システムの可観測性パターンに関して論じられたアイデアの一部だ。

Thomas Betts 翻訳者 h_yoshida _
投稿日 2020年9月18日午前4時1分
DevOps

COVID-19のGoogle Meetのスケーリングの課題

Googleは、COVID-19の大流行により、より多くの人々がGoogle Meetを使用するようになったため、使用量の増加によるGoogle Meetのスケーリングの課題について書いた。GoogleのSREチームは、今年初めに始まったトラフィック増加の課題に取り組むために、既存のインシデント管理フレームワークを変更して使用した。

Hrishikesh Barua 翻訳者 Shoji Shigeki
投稿日 2020年8月24日午前5時7分
Cloud

“絶大な”クラウド利用が新たな調査で明らかに

O'Reilly Mediaが新たに発表したCloud Adoption in 2020レポートには、クラウドコンピューティングに対する"絶大な"支持が描かれて��る。調査にはまた、サイトリライアビリティエンジニアリング(Site Reliability Engineering)採用の増加、高いが頭打ちのマイクロサービス採用、サーバレスコンピューティングへの関心の低さ、といった結果も現れている。

Richard Seroter 翻訳者 h_yoshida _
投稿日 2020年7月20日午前1時52分
DevOps

Twitterが実現した、決定論的ロードバランシングアルゴリズムによるリソース利用の改善

Twitterは先頃、自社のRPCフレームワークであるFinagleに、マイクロサービスアーキテクチャに決定論的アパーチャアルゴリズム(deterministic aperture algorithm)を使用したクライアントサイドロードバランシング機能を実装した理由の詳細を発表した。さまざまな試験を行った結果、要求の分散が良好であること、接続数を大幅に削減できること、必要なインフラストラクチャが少ないことなどの理由から、同社は決定論的アプローチを採用したのだ。

Christian Melendez 翻訳者 h_yoshida _
投稿日 2020年3月24日午前3時16分
カルチャー＆手法

仕事場における楽しさの重要性

仕事において笑顔になることや、笑ってしまうことはチームの団結、生産性、組織のパフォーマンスを証明してくれる。楽しさは強制できるものではないが、促進できるものであると Holly Cummins 氏は FlowCon France 2019で語った。仕事場における楽しさの重要性の講演である。

Ben Linders 翻訳者西村美沙
投稿日 2020年2月3日午後9時1分
DevOps

どうやってうまくいっているのか？Netfixが教える、インシデントからの学び方 - QCon New YorkでのRyan Kitchens氏の講演より

QCon New Yorkで、Ryan Kitchens氏が、"How Did Things Go Right? Learning More from Incidents"と題して講演した。主なポイントは次のとおりだ。リカバリは予防に優る；インシデントは"最悪の状況"が起きた時に発生するのであるから、根本原因(root cause)というものは存在しない; ユーザの幸福が何より重要である; システムがうまくいっている理由を知ることには大きな価値がある。

Daniel Bryant 翻訳者 h_yoshida _
投稿日 2019年10月17日午前4時10分
デベロップメント

GitHubのインシデント分析がサービスの信頼性を改善する方法を示す

2018年10月21日、GitHubユーザは、日常のメンテナンス作業が原因のインシデントにより、24時間のサービス低下を経験した。古くて一貫性のない情報が表示され、24時間、ウェブフックと他の内部サービスが利用できなくなった。GitHubの事後インシデントレポートは、どこで問題が起きたかを示し、サイト信頼性を改善する解決策を述べている。

Sergio De Simone 翻訳者大田緑
投稿日 2018年11月20日午前3時54分
DevOps

Googleが解説 - 他社のSRE実践はなぜ誤りなのか

GoogleのCRE(Customer Reliability Engineer)であるStephen Thorne氏が先日のDevOps Enterprise Summit Londonで講演し、SRE(Site Reliability Engineering)とは何か、その基本的な前提とメリットを理解できていない組織がいかに多いか、などについて解説した。

Manuel Pais 翻訳者 h_yoshida _
投稿日 2018年8月16日午前4時33分