Casser la prod pour mieux dormir : comment et pourquoi nous détruisons nos systèmes volontairement

jeudi 2 juillet 2026, de 14:00 à 14:50 (50 min)

Salle : Coquelicot

Wilfried Roset

OVHcloud

Juliette Orain

Cloud & DevOps

BEGINNER

Etes vous prêts pour votre prochain incident de production?

Vos runbooks sont à jour ✅ Vos alertes sont en place ✅ Votre architecture a été validée en design review ✅

Mais avez-vous déjà essayé de tout casser pour vérifier que ça tient vraiment ?

Chez OVHcloud, nous avons décidé de ne plus faire confiance à nos hypothèses de résilience sans les prouver. Nous cassons volontairement nos systèmes de production pour valider nos procédures de reprise, découvrir nos vrais points de fragilité et entraîner nos équipes à réagir sous pression.

Dans ce talk, je vous présenterai notre démarche complète : comment organiser un “Game Day”, définir des scénarios de panne réalistes, et monter progressivement en intensité — du sabotage manuel jusqu’aux tests de charge massifs. J’illustrerai chaque étape avec un cas concret : le stress-test de notre cluster Grafana Mimir, la brique centrale de notre observabilité, déployée sur VMs et non sur Kubernetes.

Ce que nous avons appris nous a surpris : l’application elle-même a résisté 💪 Ce sont les couches en dessous qui ont cédé — bande passante réseau, I/O disque, limites du noyau Linux. Les vrais goulots d’étranglement ne sont jamais là où on les attend.

Que vous utilisiez Mimir ou non, vous repartirez avec une méthodologie reproductible pour stress-tester vos propres systèmes, et une conviction : la confiance en votre infrastructure se construit en la détruisant.

Casser la prod pour mieux dormir : comment et pourquoi nous détruisons nos systèmes volontairement

Donner votre avis 🙏 !