Formation Pratiquer le Site Reliability Engineering (SRE) Opérer et piloter sa production comme Google

Durée 2 jours
Niveau Intermédiaire
Classe à distance
Non

Vous ne pouvez pas suivre cette formation en direct depuis votre domicile ou votre lieu de travail. Plus d'informations sur notre solution de classe à distance...

Référence PSRE
Éligible CPF Non

Selon un des fondateurs de la discipline SRE, le Site Reliability Engineering, c'est « ce qu'il se passe quand on demande à des ingénieurs logiciels de gérer les infrastructures et opérations d'un système IT ». Le SRE consiste à appliquer les techniques éprouvées du développement logiciel aux tâches d'exploitation : monitoring, déploiement, gestion des anomalies, etc.

Une démarche SRE vise à optimiser les équipes ainsi que les systèmes techniques qu'elles opèrent. L'objectif est de développer la capacité d'évolution des systèmes sans sacrifier les exigences de fiabilité et de disponibilité. Pour cela, la démarche s'appuie sur plusieurs piliers tels que la mesure constante de l'état de santé des systèmes, l'automatisation d'un maximum de tâches et l'apprentissage en continu des équipes.

À travers une alternance de modules théoriques, permettant de revenir aux fondations de la démarche, et de travaux pratiques, permettant de mettre en application les concepts, cette formation Site Reliability Engineering propose aux participants de mieux appréhender les techniques, méthodes et outils essentiels pour la mise en place d'une démarche SRE dans leur contexte.

Objectif opérationnel : 

Savoir appréhender les techniques, méthodes et outils essentiels pour la mise en place d'une démarche SRE dans votre contexte.

Objectifs pédagogiques : 

À l'issue de cette formation Site Reliability Engineering vous aurez acquis les connaissances et les compétences nécessaires pour : 

  • S'initier aux principes et pratiques de Site Reliability Engineering
  • Identifier les différents rôles d'une équipe SRE
  • Apprendre à définir des objectifs de performance et de fiabilité, définir les moyens associés pour les atteindre
  • Monitorer la fiabilité de sa plateforme
  • Faciliter le dialogue avec ses équipes de développement et équipes produit via le pilotage d'un « error budget » commun
  • Prendre en charge un incident efficacement et en faire un levier d'amélioration et d'apprentissage

Public :

Ce cours Site Reliability Engineering s'adresse toute personne impliquée opérationnellement ou en position de management d'un système informatique en production. Notamment :

  • Ops et administrateur système
  • Manager de systèmes d'information (COO, CTO, etc.)
  • Développeur
  • Consultant
  • Intégrateur
  • Exploitant

Prérequis :

Pour suivre cette formation Site Reliability Engineering il est nécessaire de disposer d'une compréhension et d'une connaissance de la terminologie et des concepts communs de DevOps. Vous pouvez les acquérir en suivant la formation DevOps : fondamentaux & retours d'expérience (SDEVO).

Une première expérience dans l'exploitation d'un système en production est également nécessaire.

Jour 1

Introduction au Site Reliability Engineering (SRE)

Historique et émergence de la discipline SRE :
- Chez Google
- Intégration avec le mouvement DevOps
Opérer des systèmes en production
Les différents rôles et responsabilités d’une équipe SRE
- Garant de la fiabilité des applications et services
- Garant du pilotage de l’error budget
- Garant de la minimisation du toil

SRE : garant de la fiabilité des services et applications

Le cycle de vie d’un logiciel
Reliability/Fiabilité : définitions
Monitoring :
- Définition et concepts : monitoring vs. Observabilité
- Alertes, tickets, logs
- Créer un système d’alertes efficace
- Statistiques appliquées au monitoring
Être on-call :
- Organisation d’une équipe d’astreinte
- Diagnostiquer efficacement un incident
- Rédiger un rapport d’erreur
Mise en pratiqueDiagnostiquer et corriger un incident de productionPrendre en charge un service ou une application : Production Readiness Review
Release Engineering : la gestion des changes
Jour 2

SRE : garant du pilotage de l’error budget

La gestion du risque d’un système informatique
Les outils de mesure et de pilotage de l’équipe SRE : SLI, SLO, SLA, Error budget
Mise en pratiqueMettre en place des SLI/SLO/Error budget pour un service/application

SRE : garant de l’automatisation de ses services

La contrainte économique - la scalabilité des équipes
Agir sur le toil (les tâches sans valeur ajoutée) :
- Identifier le toil
- Bloquer du temps dédié à l’automatisation
Organiser l’automatisation de l’opération de ses systèmes
Mise en pratiqueIdentification de tâches automatisables

Organisation et culture

SRE vs DevOps
L’équipe SRE dans une organisation agile :
- Intégration
- Impact sur le reste de l’organisation
Mettre en place une culture de l’apprentissage :
- Sécurité psychologique
- Blameless postmortem
Intégrer un nouvel SRE
Date de mise à jour du programme : 18/03/2024

Dates et lieux

Du 01 au 02 juillet 2024
Lieu
Paris
Durée
2 jrs
1690 € HT


Formations Informatique
et Management
en ligne à ce jour

+
Stagiaires dans nos salles
de cours sur
l'année

%
De participants satisfaits
ou très satisfaits de nos
formations


Formateurs experts
validés par
PLB