Formation Machine Learning et Data Science : déployer, monitorer et gérer des modèles en production

Durée 3 jours
Niveau Intermédiaire
Classe à distance
Possible

Vous pouvez suivre cette formation en direct depuis votre domicile ou votre lieu de travail. Plus d'informations sur notre solution de classe à distance...

Référence MLDS

Cette formation Machine Learning et Data Science : déployer, monitorer et gérer des modèles en production a pour objectif de vous démontrer en quoi le déploiement de modèles en production constitue une étape cruciale, et par extension, en quoi sa négligence est à l'origine de l'échec de bon nombre de projets Big Data.

Vous y étudierez les bonnes pratiques et les techniques permettant de sécuriser le projet de Data Science ou Machine Learning afin que les aspects nécessaires à la mise en production de l'algorithme soient adressés dès le début du projet.

De cette manière, vous serez en mesure de garantir le succès de cette mise en production, puis d'en assurer la gestion.

Objectifs Opérationnels :

Savoir déployer avec succès des modèles de machine learning ou de data science en production.

Objectifs Pédagogiques:

  • Définir les pré-requis, une mise en production ainsi que le monitoring des modèles pour un déploiement dès la phase de cadrage du projet data
  • Choisir les outils et les technologies adaptés à votre environnement IT et aux contraintes du projet (compétences techniques, budget, maintenabilité) grâce à un aperçu des principaux outils
  • Déployer des modèles de data science et de machine learning en production
  • Mettre en place le monitoring des modèles
  • Entraîner les modèles de façon continue (retrain, re-scores, re-validates)
  • Mesurer le drift des modèles (automated model checking)
  • Remplacer l'ancien modèle en production par le nouveau modèle amélioré
  • Savoir mettre en place l'intégration continue

Public :

Ce cours Déploiement Machine Learning & Data Science cible principalement les développeurs, les ingénieurs machine learning, les data scientists, les data ops et les data engineers.

Prérequis :

Pour suivre cette formation Déploiement Machine Learning & Data Science dans des conditions optimales, il est important d'avoir des notions sur le cloud, ainsi que des connaissances de base en Data Science / Machine Learning : statistiques, algorithmie. Il est également nécessaire d'avoir des connaissances basiques en Linux / réseau / Python / bash.

Introduction et rappels

Les objectifs du machine learning : résoudre un problème
Rappels de l'écosystème Data Science : langages, outils et pratiques
Les raisons des échecs des passages en production
Les principales difficultés rencontrées pour la mise en production de modèles

État de l'art de l'organisation des projets de Data Science

Qui déploie les modèles et comment ?
Les différents rôles : le data scientist, le data engineer, le data ops
Les limites à cette organisation sur la réussite des projets data

État de l'art des solutions logiciels de déploiement de modèles de Machine Learning

État de l'art : des déploiements sans outillage
Limites techniques et coûts élevés
Maintenabilité complexe
Un exemple avec Tensorflow, PyTorch, scikit-learn, Python, Java
Un exemple dans le Cloud (AWS, GCP, Azure)

Les bonnes pratiques liées aux métiers afin de réduire les risques d'échec

Des critères d'acceptabilité (user acceptance) obligatoires par le métier : le premier pré-requis
Des moyens de tester les algorithmes avec les métiers tous les deux jours
Une communication permanente entre data scientist, data ops, IT, métiers...
Identifier les données requises et leurs disponibilités

Des solutions techniques pour faciliter et améliorer les déploiements

De nouveaux outils et logiciels : TFX, Mlfow, Kubeflow, Cloudera Data Science Workbench, Dataiku
De nouvelles compétences : l'ingénieur machine learning, le data ops
L'importance du choix d'un framework sur la continuité, la maintenabilité et l'utilisation d'un modèle

Travaux Pratiques

Déploiement d'un modèle dans GCP

Nouveaux métiers et profils : de nouvelles compétences

L'ingénieur machine learning
Le data ops

Travaux Pratiques

Jeu de rôle Agile : dans la peau du représentant métier

Le choix des outils

État de l'art des outils / frameworks utilisés par les grandes sociétés (CAC40, grandes startups, GAFAM)
Comment choisir un framework de Machine Learning ou de Data Science
Impacts sur les coûts des projets
Estimer le coût des outils (in)existants sur le projet
Estimer le coût des outils de collaboration, de déploiement, de monitoring, etc. sur les projets data

Travaux Pratiques

Simulations et retours d'expérience

Les critères d'un bon modèle pour la production

Portabilité du modèle
Scalabilité
Utilisabilité par les applications métiers
Testabilité

Les différents formats des modèles

Pickle
ONNX
PMML
POJO & MOJO

Déployer en production

Entraîner le modèle en production : batch training, real time training
Batch vs real-time prediction : impacts sur les performances, les évaluations, les infrastructures et les coûts
Monitorer et mesurer les écarts en production
Entraîner de façon continue les modèles (retrain, re-score, re-validate)
Mesurer le drift des modèles (automated model checking)
Remplacer l'ancien modèle en production par le nouveau modèle amélioré

Travaux Pratiques

Réalisation d'un modèle de Machine learning
Déploiement en production
Monitoring

Mesurer la réussite d'un déploiement en production

Comment mesurer la réussite d'un déploiement ?
La mesure de la réussite des déploiements en CI sur un projet data
Les métriques

Cette formation alterne théorie et pratique pour une meilleure assimilation des connaissances.


Formations Informatique
et Management
en ligne à ce jour

+
Stagiaires dans nos salles
de cours sur
l'année

%
De participants satisfaits
ou très satisfaits de nos
formations


Formateurs experts
validés par
PLB