Amazon Web Services (AWS) a récemment lancé Amazon DevOps Guru, un des nombreux services axés sur l'apprentissage automatique. DevOps Guru détecte les problèmes opérationnels, génère des rapports et des notifications, et offre des informations et des recommandations sur la manière d'agir.
DevOps Guru est un service entièrement managé qui est entraîné pour analyser les journaux, les métriques et les événements de 25 ressources AWS. Le service recherche les comportements qui s'écartent des modèles établis à partir de l'historique extrait d'Amazon et d'AWS. Les utilisateurs configurent DevOps Guru avec une liste de ressources à surveiller. Le service alerte alors les utilisateurs des problèmes et des soucis potentiels lorsqu'il identifie des situations anormales, telles que des versions de code qui conduisent à un comportement anormal ou à des modèles d'utilisation des ressources pouvant conduire à l'épuisement de celles-ci.
DevOps Guru fournit des informations incluant des détails sur l'impact des problèmes, autant que sur la manière de les résoudre.
Figure: Page de détail pour une information mettant en évidence une durée d'exécution anormale pour une Lambda (image originale de la documentation AWS Devops Guru)
Le CEO d'AWS, Andy Jassy, a dévoilé DevOps Guru durant sa keynote de re:Invent 2020. Il a expliqué que le système utilise du Machine Learning entraîné par des années de données opérationnelles provenant d'Amazon et d'AWS. DevOps Guru est la première contribution d'Amazon dans le domaine des MLOps. Selon Jassy, DevOps Guru identifie des problèmes de capacité de calcul sous-provisionnée, les alarmes mal configurées ou les fuites de mémoire.
Figure: Tableau de bord de Devops Guru (image originale de la documentation AWS Devops Guru)
DevOps Guru met à disposition des utilisateurs un tableau de bord intégré avec une page d'informations qui affiche les anomalies découvertes. Le service présente ces rapports avec des informations contextuelles et des recommandations sur la manière de les traiter. Les informations sont soit une réaction, mettant en évidence les problèmes existants, soit proactives, identifiant les problèmes susceptibles de se produire à l'avenir. Par exemple, un aperçu en réaction alerterait les développeurs d'une augmentation soudaine de la latence dans une fonction lambda. Un aperçu proactif alerterait les développeurs d'une augmentation prévue de la latence en raison d'une utilisation accrue de la mémoire dans la même fonction.
Le service fournit des informations via des événements SNS et est déjà capable de fournir des alertes via PagerDuty et Opsgenie d'Atlassian. DevOps Guru s'intègre aussi avec AWS Systems Manager pour créer de nouveaux OpsItems dans un OpsCenter et génèrer des événements Cloudwatch.
Il n'y a pas de frais mensuels ou de niveau de service pour DevOps Guru. Amazon facture l'analyse des ressources AWS et les appels d'API. Les frais sont facturés à l'heure par ressource active, une ressource étant active si elle génère des événements, des entrées de journal ou des mesures durant une heure.
Le service est actuellement disponible dans une preview gratuite dans les régions AWS US East (N. Virginia), US East (Ohio), US West (Oregon), Europe (Ireland), et Asia Pacific (Tokyo).