Fini les nuits difficiles: Comment l'IA a transformé nos astreintes
Chaque nuit, des ingénieurs sont réveillés, pas toujours pour des urgences critiques mais très souvent pour des incidents simples : limite d’espace disque, service qui ne répond plus, charge CPU anormale.
Ces incidents, dits de “niveau 1” sont faciles à résoudre en quelques minutes. Pourtant on réveille l’astreinte pour cela.
La durée totale va prendre 1 heure:
- reveil de l’agent,
- prise en compte de l’alerte
- investiguer
- résoudre le soucis
- vérifier que c’est ok
- répondre au ticket
1 heure pendant laquelle:
- le service in indisponible
- perte de revenue
- un agent est sous pression
Chez Iguane Solutions, nous sommes confrontés à ces situations chaque nuit. Nous avons donc décidé d’agir.
Nous avons donc créée un système multi-agents IA qui résoud automatiquement des incidents de niveau 1 pour soulager les équipes d’astreintes.
Ce système :
- Detecte les alertes,
- Analyse les logs et métriques
- Exécute des commandes pré-validés par nos SREs: restart, log rotate, changement de fichier de configuration, …
- Vérifie le retour à la normale
- Rédige un rapport d’incident complet
Résultats: -> Diminution de 80% de la sollicitation des astreintes, -> Résolution 20x plus rapide (60 minutes → 3 minutes) -> Amélioration de la satisfaction de nos techs et de nos clients: chaque incident à un rapport! -> Nos SREs ont plus de temps pour innover et entrainer le système pour résoudre plus d’incidents.