BT

最新技術を追い求めるデベロッパのための情報コミュニティ

寄稿

Topics

地域を選ぶ

InfoQ ホームページ alerting に関するすべてのコンテンツ

ニュース

RSSフィード
  • Contentsquare、通知配信にマイクロサービスとApache Kafkaを起用

    Contentsquareは、プラットフォーム内の多くのユースケースで通知機能を必要としていた。そこで同社は、マイクロサービス・アーキテクチャの一部として、複数のサービスにまたがる汎用的なソリューションを作成。この実装で、開発者はオブザーバビリティを改善し、スケーラビリティの課題を克服する必要があった。

  • OpsRampがサービス中心性の向上,AIOps,クラウド監視を発表

    ハイブリッド企業向けのサービス中心型AIOpsソフトウェア・アズ・ア・サービス(SaaS)プラットフォームであるOpsRampが,新たなトポロジマップ,ITオペレーション用の拡張AI(AIOps)機能,クラウドネイティブなワークロード用の新しい監視機能を発表した。

  • 監視プラットフォームのPrometheusがCNCF(Cloud Native Computing Foundation)から"卒業"

    Cloud Native Computing Foundation (CNCF)は8月9日、オープンソースの監視ツールキットであるPrometheusが、インキュベーション段階を卒業したと発表した。プロジェクトがこの評価を達成するためには、その成長状況やドキュメント、組織のガバナンスプロセス、コミュニティに対する持続可能性と協調性のコミットメントなどを示す必要がある。

  • OpsRampがAIOps推論エンジンを導入

    SaaSベースのIT運用管理プラットフォームを提供するOpsRampが、アラートとイベント相関のためのIT Operations推論エンジン用AI(AIOps)を備えた、OpsRamp 5.0を新たにリリースすると発表した。マルチクラウド対応のダッシュボードも備えている。

  • SRE(Site Reliability Engineer)の役割とは - Catchpointの調査より

    Site Reliability Engineeringとは、ソフトウェアエンジニアリングとITオペレーションを横断するもので、Googleが2003年に開発し、2016年に書籍“Site Reliability Engineering, How Google Runs Production Systems”で詳説したアプローチである。ディジタルエクスペリエンスとインテリジェンスのプロバイダであるCatchpointは、416名のSRE(Site Reliablity Engineer)を対象に、SREの意味の理解を目的とする調査を実施した。

  • MeilleursAgentsでの分散タスク・キューの監視

    不動産販売者が不動産のリストを作成して、その不動産の見積もり価格を取得できるようにするウェブサイトであるMeilleursAgentsは、Celeryベースの分散タスクキューの監視方法の詳細を共有した。Python、StatsD、Bucky、Graphite、Grafanaの組み合わせによりパイプラインが形成され、タスクのライフサイクルと実行速度が監視される。

  • CloudFlareのグローバルネットワークをPrometheusで監視する

    Matt Bostock氏がSREcon 2017 Europeで行なった講演で、メトリックベースの監視ツールで��るPrometheusが、CDNとDNS、およびDDoS対策プロバイダであるCloudFlareの持つ世界規模の分散インフラストラクチャおよびネットワーク監視においてどのように利用されているか、という話題が取り上げられた。

  • インシデントと機能停止に対応する

    Server DensityでCEOを務めるDavid Mytton氏が,DevOpsDays Amsterdam 2015の観衆に対して,同社がインシデントや機能停止を扱う方法を公開した。プロセスは,頻繁な公式アップデート,対応アクティビティのログ取得の徹底,チーム活動と効果的エスカレーションという,一連の重要原則に基づいたものだ。同社はインスピレーションの多くを,その安全手順で名高い航空業界から得ている。

  • データ科学を活用してモニタリングを改善する

    先日のDevOpsDays Amsterdam 2015でPatrick Roelke氏は,モニタリングにはまだ多くの問題があることを強く論じた。データ科学によって静的しきい値という概念を排除し,さまざまなデータソースからの情報をひとつのメトリックに統合することで,事態を改善できるのではないか,というのが氏の考えだ。講演ではKale,Bosun,AnomalyDetectionなど,データ科学を活用したモニタリングツールの概要が紹介された。

BT