BT

最新技術を追い求めるデベロッパのための情報コミュニティ

寄稿

Topics

地域を選ぶ

InfoQ ホームページ ニュース IT運用担当者による課題解決の迅速化とシステム稼働維持をAIで支援する

IT運用担当者による課題解決の迅速化とシステム稼働維持をAIで支援する

原文(投稿日:2022/01/27)へのリンク

AIOpsは、ユーザからの直接的なフィードバックを求めずに、履歴データに基いて、より迅速な評価、修復、あるいは実用的な洞察に有用なアルゴリズムをITチームに提供するものだ。AIの支援を受けるIT運用担当者は、スマートに作業し、問題をより早く解決し、システムの機能と運用を維持することにより、従来よりも優れたエンドユーザエクスペリエンスを提供できるようになる。

Rajalakshmi Srinivasan氏はDevOps Summit, Canada 2021で、人工知能がIT運用管理に与える影響について講演した。

人工知能(AI)とマシンラーニング(ML)技術は、我々をとりまくほぼすべての、特に大量のデータを扱う産業に影響を与えている、とSrunuvasan氏は言う。その中でもIT運用管理(IT Operation Management、ITOM)は、ITの運用に伴って生成される膨大な量のデータにより、AIとMLに関するアーリーアダプタのひとつになっている。

ITOMの主要な目的のひとつとして、サーバやアプリケーションがダウンした時、応答時間が設定された閾(しきい)値を越えた時、システムに何らかの障害が発生した時などに、ITチームにアラートを送信する、というものがある。運用担当者が大量のアラートを管理する上で、AIがどのように役立つのか、Srinivasan氏はひとつの例を挙げて説明した。

アラートは、その重要度やビジネスへの影響の度合に従って分類された上で、適切な技術者にアサインされる必要があります。Site24x7ではこれらのアラートを、さまざまなユーザアクションを通じて継続的なトレーニングと学習を行ったAIアルゴリズムによって自動化し、管理することにより、平均修復時間(MTTR)の短縮を実現しています。

クラウドの広範な採用に伴い、この業界では、全リソースの稼働率99.999パーセントを目標にした取り組みが行われている、とSrinivasan氏は言う。これを実現するには、プロセスの再起動、ログのクリーニング、サービスの停止、チケット/インシデントを生成するURLないしRest APIの起動、仮想/クラウドVMの再起動といった修正アクションを行うスクリプトの起動に代表される、平凡ではあるが極めて正確なプロセスが必要となる。このような原因分析と修正措置の実施にAIを利用できる、とSrinivasan氏は説明する。

閾値は固定されたユーザ設定値ではなく、さまざまなパラメータで変化するような、AIによるカスタム値であることが望ましいのです。同じように、アクションに関する基準値も異なります。ディスク使用量の閾値が通常の範囲を越えてスパイクすれば、AIエンジンがそれを異常として検出し、ディスククリーニングをアクションとして実行します。新たなアラームやイベントが見つかった場合には、AIエンジンがこれを識別して、チケットないしインシデントを生成するタスクを起動します。

修正措置の大半は、事前設定したさまざまな基準値に基いた自動化が可能であり、そのような反復的作業のシナリオはAIで簡略化することができる、とSrinivasan氏は結論付けている。

IT運用管理へのAIの適用について、Rajalakshmi Srinivasan氏にインタビューした。

InfoQ: IT運用管理において、AIはどの程度使用されているのでしょう?将来的な可能性としてはどうでしょうか?

Rajalakshmi Srinivasan: 異常検知、システムダウン予測、自然言語処理、根本原因分析、季節性傾向分析、キャパシティプランニングなどは、ITOMでAIとML技術が活用されている分野のごく一部に過ぎません。実用的なユースケースをいくつかご紹介しましょう。

キャパシティプランニングに関しては、ディスク使用率の過去のパフォーマンス値と伸び方に基くことで、将来的なディスク使用量の予測が可能になります。季節性動向やデータの洞察を提供することによって、データ外挿による一般的な静的アプローチをAIが上回った事例もあります。その中で分かったのは、値は常に増加側にある訳ではなく、月末に向かって減少する傾向もあり得る、ということです。増加するのは週末のみで、週の中頃には通常の状態になる場合もあります。こういった詳細をAIによる予測に反映して、収集されるデータの不規則性を平準化することによって、正確な予測を実現することができました。

さらにAI技術は、Webサイトへのリクエスト数が突然増加した、Webトランザクションの応答時間が通常の4倍にスパイクした、特定の地理的領域からのJavaScriptエラー数が多くなった、アーカイブタスクの数が通常に比べて少なくなった、など、さまざまな原因で収集されたメトリクスからの大きく逸脱した時の、異常検出の自動化にも役立っています。これらすべての状況において、当社の監視システムの自動異常検出には、AI技術が大幅に使用されているのです。

InfoQ: IT運用担当者をどのようにサポートするのでしょうか?

Srinivasan: AIやML技術は、さまざまな方法でIT運用担当者をサポートします。日々の作業について、いくつかユースケースを挙げてみましょう。

ダイナミックな閾値の適用: 収集するメトリクス(応答時間、CPU使用率、要求回数)の閾値定義は、履歴データを使えば簡単に自動化することができます。ダイナミックな閾値は運用上の精度や効率だけでなく、リソース配置の最適化を図る上でも有効です。

例えばSite24x7のWebアプリケーションは、クライアントアクセス、Rest API要求、アーカイブ、データ収集、データ処理など、複数の専用グリッドを持っていて、応答時間もグリッドごとに違います。アーカイブ用グリッド内でバックグラウンドスケジュールされたタスクなどは時間がかかってもよいのですが、ユーザに直接相対するクライアント要求は短時間で応答する必要があります。さらに、同じグリッドの中であっても、それぞれのトランザクションによって、ベンチマーク上の応答時間値は違うものになるでしょう。

これらのシナリオでは、すべてのグリッドや、同じグリッド内のすべてのトランザクションに対して、同じ閾値を定義することはできません。ユーザの手を介さない、AIとMLによるダイナミックな閾値設定が有効なのは、このようなユースケースです。

チャットボットを使用したコミュニケーションの強化: システムの状態を知るために、さまざまな監視ツールを使ってログを収集しなければならなかった時代は、もはや過去のものになりました。今日では、こういったコミュニケーションは、チャットボットによって強化・統合されています。チャットアプリケーション(Microsoft Teams、Slack、Zoho Cliq)から、単純な自然言語によるクエリをシームレスに実行することで、状況を把握できるようになったのです。

必要なデータを取得し、必要な場所で対処するためには、AI技術である自然言語処理(NLP)が、APIコールと合わせて使用されます。

InfoQ: 運用作業でのAI利用について、将来的に何を期待しますか?

Srinivasan: 他の発展途上の技術と同じように、IT運用におけるAIは、システムをより効率的で生産性の高いものにすることを目指す、現在進行中のプロセスなのです。目標とするのは、次のような機能的強化です。

  1. 異常検知と誤警告に関する精度の向上
  2. 障害発生後のリアクティブな解決ではなく、障害発生前のプロアクティブな防止の実現
  3. 正確な予測を行うための自己トレーニングシステム
  4. マシンラーニング技術に代わるディープニューラルネットワークアルゴリズムの採用を拡大することによる、問題や障害の絞り込みと特定
  5. AIとMLをアズ・ア・サービスとして活用することによる、膨大な収集データからの意味抽出

作者について

この記事に星をつける

おすすめ度
スタイル

BT