Formation Data Science : Industrialisation avancée d'un projet de Data Science Orchestration, déploiement et monitoring

Durée 3 jours
Niveau Avancé
Classe à distance
Possible

Vous pouvez suivre cette formation en direct depuis votre domicile ou votre lieu de travail. Plus d'informations sur notre solution de classe à distance...

Référence IDSA
Éligible CPF Non

Une fois que le code du projet de Data Science a été industrialisé, il reste encore un certain nombre d’étapes pour industrialiser le système au complet. Il s’agira notamment de mettre en place un mécanisme d’orchestration, mais aussi d’être capable de déployer régulièrement, et de suivre le comportement du système.

Cette formation Data Science avancé vous propose de découvrir les systèmes de Data Science industrialisés, et vous fait pratiquer les meilleures méthodes pour faire passer votre projet en production. Elle suit la formation Data Science : Industrialiser un projet de Data Science (OIDS), qui se concentre sur l'industrialisation première d'un projet de data science.

Objectifs opérationnels :

Savoir orchestrer, déployer et monitorer votre projet de data science industrialisé.

Objectifs pédagogiques :

À l'issue de cette formation Data Science avancé, vous aurez acquis les connaissances et compétences nécessaires pour :

  • Découvrir le découpage d’un projet de Machine Learning en différentes briques et les organiser
  • Savoir construire l'architecture applicative d'un projet Data Science
  • Déployer son application de Machine Learning en production et interagir avec
  • Faire consommer des données chaque seconde à une application de Machine Learning
  • Mesurer les performances de son application de Machine Learning

Public :

Ce cours Data Science avancé s'adresse principalement aux data scientist, data engineer, machine learning engineer et développeurs d'applications de Data Science.

Prérequis :

Pour suivre cette formation Data Science avancé, il est nécessaire :

- de posséder des connaissances de base en programmation et en scripting
- d'avoir suivi la formation Data Science : Industrialiser un projet de Data Science (OIDS) ou de savoir packager et tester une application Python
- d'avoir suivi la formation Data Scientist : Les fondamentaux de la Data Science (OFDS) ou de savoir modéliser et développer un problème de Data Science simple

Jour 1

Introduction à la CI / CD

Les différents environnements nécessaires
L’intérêt de l’intégration continue et du déploiement continu
Les outils de CI / CD existants

Mise en pratique

Mettre en place un outil d’intégration continue

Pyramide de tests

Description des différents types de tests
Focus sur les tests d’intégrations et fonctionnels
Présentation de framework de tests

Cloud

Introduction au cloud et aux différents providers
Choix d’un cloud provider pour les travaux pratiques

Orchestration

Le besoin d’orchestration dans un système de Data Science
Présentation de différents orchestrateurs

Mise en pratique

Passer d’un script Python à une série de tâches orchestrées avec Airflow

Jour 2

Architecture

Patterns d’architecture technique pour favoriser la mise en production et la maintenabilité du projet
Identification des artefacts (modèles, données, code…)
Cycles de vie des artefacts

Déploiement

La démarche
Infrastructure as code

Exposition

Méthodes pour exposer un modèle de Data Science

Mise en pratique

Interagir avec un modèle existant

Jour 3

Mise en pratique

Passer d’un modèle one-shot à un modèle qui prédit toutes les secondes

À partir d’un flux de données disponibles, mettre en place les outils nécessaires pour faire une prédiction par seconde

Feedback loops

L’intérêt des boucles de feedback
Identifier les différentes boucles de feedbacks
Mettre en place les différentes boucles de feedbacks

Monitoring

L’enjeu du monitoring
Les indicateurs à suivre
Les pratiques pour mettre en place un monitoring utile tout en respectant les contraintes de SLA

Réentraînement des modèles

Choisir le bon moment pour réentraîner un modèle
Les stratégies à mettre en place pour s’assurer que le modèle en production est toujours pertinent

Bilan et clôture

Partage et retour d’expérience
Questions / réponses
Évaluation de la session

Les travaux pratiques représentent 50% du temps de cette formation. Les participants partent d'un modèle de machine learning construit par le formateur qu'ils vont amener en production, étape par étape, en découvrant l'ensemble des briques techniques à mettre en place.

Date de mise à jour du programme : 22/09/2023

Dates et lieux

Du 17 au 19 juin 2024
En bonne voie de maintien
Lieu
Paris
Durée
3 jrs
2500 € HT


Formations Informatique
et Management
en ligne à ce jour

+
Stagiaires dans nos salles
de cours sur
l'année

%
De participants satisfaits
ou très satisfaits de nos
formations


Formateurs experts
validés par
PLB