Menu
Chaos-engineering-OUIsncf.jpg

Un an de partage autour du Chaos Engineering chez @OUI.sncf

639 vuescommentaires
Logo pour oui talkparOUI.sncf
17 octobre 2018
Chaque mois, vous êtes en moyenne 16 millions de visiteurs uniques sur le site français OUI.sncf et vous êtes très nombreux lors d’opération spéciales comme les ouvertures de vente de billets ! Pour prévenir le moindre couac sur notre site et vous offrir la meilleure expérience de navigation, nous appliquons la discipline du Chaos Engineering.

L’ingénierie du chaos : qu’est-ce que c’est ?

 

Le chaos, c’est cette situation de désordre et de confusion la plus totale. Un peu comme un jour de soldes dans un grand magasin… Jusqu’ici, vous maîtrisez les bases du concept.

 

L’ingénierie du chaos, c’est tester une situation de désordre et de confusion sur un système informatique de production – c’est-à-dire un réseau d’équipements informatiques liés entre eux et partageant des ressources. Le but : identifier les failles et renforcer les systèmes. Car oui, les incidents peuvent se multiplier et perturber gravement le système. Le risque est, vous vous en doutez, majeur.

 

Chez OUI.sncf, nous appliquons cette discipline depuis 2015 pour vous permettre de naviguer et réserver vos voyages sur notre site ou dans notre appli dans les meilleures conditions. Surtout lorsque vous réservez 40 billets toutes les secondes, comme à l'occasion de la récente ouverture des ventes de billets pour Noël !

 

La première conférence mondiale de la communauté Chaos Engineering : on y était !

 

Le 28 septembre dernier, à San Francisco, nous avons été sélectionnés pour participer à une journée dédiée à cette discipline émergente, la Chaos Conf. L’occasion de rencontrer nos homologues, échanger sur nos pratiques mais aussi contribuer à l’accroissement de la connaissance sur le sujet.

 

Christophe Rochefolle, Dir. Excellence Opérationnelle & Benjamin Gakic, SRE/Chaos Engineer @OUI.sncf

 

 

Ce que nous avons présenté ?

 

Une conférence pour inciter les professionnels à faire la promotion de la démarche auprès de leurs directions d’entreprise. À écouter et re-écouter juste ici : How to Convince Your Boss and Make Them Say "Yes!" to Chaos Engineering ».

 

 

Ce qu’on en retient ?

 

 

Et deux sujets inspirants :

 

  • La taxonomie des incidents : désigne un langage, une terminologie et des définitions communes permettant d'atténuer les problèmes de communication entre les personnes travaillant sur la résilience (résistance au choc).

 

  • L’observabilité : un ensemble de moyens et pratiques permettant de s'assurer que son système fournit la meilleure qualité de service possible et la mise à disposition d'informations pour investiguer lorsque ce n'est pas le cas (cf. eBook Observabilité). Probablement le mot le plus prononcé lors de la journée après « chaos » !

 

L’historique de OUI.sncf et le chaos engineering

 

Si le sujet est de plus en plus présent dans les conférences à travers le monde, force est de constater que peu d’équipes le mettent réellement en place. Voici notre histoire :

 

  • Fin 2015 : lancement dans l’aventure / premiers tests ;

 

  • En 2016 : création d’une communauté sur la résilience et les tests techniques & développement d’un outil adhoc : le bestiaire Chaos Engineering ;

 

  • En 2017 : sensibilisation des equipes (via des ateliers et des jeux par exemple) ;

 

  • En 2018 : phase de déploiement sur l’ensemble des applications ;

 

  • Fin 2018 : test grandeur nature avec la simulation de la perte d’un datacenter pour s’assurer qu’il n’y ait pas d’impacts pour nos voyageurs et mesurer notre capacité à remonter nos environnements en cas de crise.

 

Convaincus que « La connaissance est la seule chose qui s'accroît lorsqu'on la partage » (Sacha Boudjema), nous partageons notre expérience depuis 2017 sur des évènements majeurs de la communauté high-tech :

 

 

 

  • JFTL – Journée Française des Tests Logiciels, Keynote « Chaos Engineering : et si on testait en production ? » ;

 

 

Enfin, à l’occasion du lancement de OUI.sncf, nous avons monté le premier meetup français sur le Chaos Engineering dans l’espace de co-construction OUI Work en novembre 2017.

 

Ce meetup a été suivi en 2018 de 4 autres meetups durant lesquels nous avons expérimenté différents ateliers, toujours dans l’optique d’améliorer nos connaissances et nos performances.

PARTAGEZ CET ARTICLE !