Formation Maîtriser l'industrialisation d'un projet de Data Science

Acquérir les bonnes pratiques de développement et savoir orchestrer, déployer et monitorer son projet

(1 avis)

Durée 5 jours

Niveau Intermédiaire

Classe à distance

Possible

Référence MIDS

Éligible CPF Non

Référence : MIDS
Durée : 5 jours (35h)
Lieu : Au choix. À distance ou en présentiel, à Paris ou en Régions

3825€ HT

Choisir une date et Réserver

Cette formation sur-mesure Ce cours est réalisable en intra-entreprise, dans vos locaux, dans nos salles ou à distance.

Description de la formation Industrialisation Data Science

L'industrialisation d'un projet de Data Science se heurte souvent à de nombreux obstacles. Qu'ils soient budgétaires, organisationnels ou techniques, ces blocages témoignent de la difficulté à dépasser le stade des POCs (Proof of Concept). Cela est particulièrement vrai dans le domaine technique, où les freins au niveau du code et de la chaîne de traitement des données peuvent être légion. Il est donc nécessaire que le data scientist en fonction puisse mettre en œuvre toutes les méthodes lui permettant de récupérer, nettoyer, explorer, et modéliser ses données, avant le déploiement et la mise en production.

Dans un premier temps, cette formation Industrialisation Data Science commence par vous fournir les meilleures pratiques pour faire passer votre projet du stade de la recherche à celui de l'exploitation. Grâce à ces bonnes pratiques de développement, vos applications de data science seront ainsi en mesure d'apporter de la valeur en entreprise.

Une fois que le code du projet de Data Science a été industrialisé, il reste encore un certain nombre d’étapes pour industrialiser le système au complet. Il s’agira notamment de mettre en place un mécanisme d’orchestration, mais aussi d’être capable de déployer régulièrement, et de suivre le comportement du système.

Dans un second temps, ce cours Industrialisation Data Science vous propose de découvrir les systèmes de Data Science industrialisés, et vous fait pratiquer les meilleures méthodes pour faire passer votre projet en production.

ATTENTION, ce cours est constitué de deux modules distincts, les dates renseignées sont celles du premier module. Contactez notre service commercial pour connaitre les dates du second module.

Objectifs

Objectifs opérationnels :

Savoir industrialiser un projet de Data Science en respectant les bonnes pratiques de développement.
Savoir orchestrer, déployer et monitorer votre projet de data science industrialisé.

Objectifs pédagogiques :

À l'issue de cette formation Industrialisation Data Science, vous aurez acquis les connaissances et compétences nécessaires pour :

Savoir emmener votre modèle de data science en production
Apprendre à gérer les nouvelles contraintes
Minimiser le coût de transfert de l’exploration à la production
Découvrir les concepts de Software Craftsmanship (clean code) appliqués à la Data Science
Découvrir le découpage d’un projet de Machine Learning en différentes briques et les organiser
Savoir construire l'architecture applicative d'un projet Data Science
Déployer son application de Machine Learning en production et interagir avec
Faire consommer des données chaque seconde à une application de Machine Learning
Mesurer les performances de son application de Machine Learning

À qui s'adresse cette formation ?

Public :

Ce cours Industrialisation Data Science s'adresse aux analystes, statisticiens, développeurs, data scientist, data engineer, machine learning engineer et développeurs d'applications de Data Science.

Prérequis :

Pour suivre cette formation Industrialisation Data Science, il est nécessaire de posséder des connaissances de base de la Data Science (modèles, biais, variances...), des connaissances des librairies de manipulation de données en Python (pandas, numpy...) ainsi qu'une connaissance de la ligne de commande linux (bash par exemple).

Il est également demandé de posséder des connaissances de base en programmation et scripting, ainsi que de savoir développer et modéliser un problème de Data Science simple.

Les personnes souhaitant se former sur le métier de Data Scientist sont invités à suivre la formation Data Scientist : Les fondamentaux de la Data Science (OFDS).

J’évalue mes connaissances pour vérifier que je dispose des prérequis nécessaires pour profiter pleinement de cette formation en faisant ce test.

Contenu du cours Industrialisation Data Science

Jour 1

Introduction et rappels sur la Data Science

Rôle du data scientist
Convictions

Installation des environnements

Jupyter Notebook
PyCharm
Environnement anaconda

Clean code et notebook

Nettoyer son notebook
Noms des variables
Utilisation de fichiers de configuration
Programmation fonctionnelle
Immutabilité
Créer des fonctions

Mise en pratique

Appliquer les techniques de Clean code à un notebook

Tester son code

Découverte du TDD
Initiation à unittest :
- Les classes de test
- Écrire son premier test
- Les méthode setup et teardown
Intégration à setuptools

Mise en pratique

Écrire ses premiers tests

Jour 2

Documenter son projet

Découverte de Sphinx
Découverte de sphinx-quickstart

Mise en pratique

Documenter son projet

Gérer les versions

Introduction à git
Gérer les versions de code
Utilisation des tags
Stratégies de versionning
Gérer des datasets et des modèles

Rendre son code déployable

Définition du packaging
Introduction à setuptools
Installer son code en local
Gestion des dépendances
Règles simples de démarrage

Mise en pratique

Créer et installer son package

Jour 3

Introduction à la CI / CD

Les différents environnements nécessaires
L’intérêt de l’intégration continue et du déploiement continu
Les outils de CI / CD existants

Mise en pratique

Mettre en place un outil d’intégration continue

Pyramide de tests

Description des différents types de tests
Focus sur les tests d’intégrations et fonctionnels
Présentation de framework de tests

Cloud

Introduction au cloud et aux différents providers
Choix d’un cloud provider pour les travaux pratiques

Orchestration

Le besoin d’orchestration dans un système de Data Science
Présentation de différents orchestrateurs

Mise en pratique

Passer d’un script Python à une série de tâches orchestrées avec Airflow

Jour 4

Architecture

Patterns d’architecture technique pour favoriser la mise en production et la maintenabilité du projet
Identification des artefacts (modèles, données, code…)
Cycles de vie des artefacts

Déploiement

La démarche
Infrastructure as code

Exposition

Méthodes pour exposer un modèle de Data Science

Mise en pratique

Interagir avec un modèle existant

Jour 5

Mise en pratique

Passer d’un modèle one-shot à un modèle qui prédit toutes les secondes

À partir d’un flux de données disponibles, mettre en place les outils nécessaires pour faire une prédiction par seconde

Feedback loops

L’intérêt des boucles de feedback
Identifier les différentes boucles de feedbacks
Mettre en place les différentes boucles de feedbacks

Monitoring

L’enjeu du monitoring
Les indicateurs à suivre
Les pratiques pour mettre en place un monitoring utile tout en respectant les contraintes de SLA

Réentraînement des modèles

Choisir le bon moment pour réentraîner un modèle
Les stratégies à mettre en place pour s’assurer que le modèle en production est toujours pertinent

Bilan et clôture

Partage et retour d’expérience
Questions / réponses
Évaluation de la session

Travaux Pratiques

Les travaux pratiques représentent 65% du temps de cette formation.

Durant les deux premiers jours, les participants partent d'un code d'exploration préparé par le formateur et vont progressivement l'amener en production, étape par étape, en démontrant que la transition doit se faire de la manière la plus fluide possible.

Durant les trois derniers jours, les participants partent d'un modèle de machine learning construit par le formateur qu'ils vont amener en production, étape par étape, en découvrant l'ensemble des briques techniques à mettre en place.

Date de mise à jour du programme : 27/08/2025

Dates et lieux

Période souhaitée

Lieux

Du 16 au 20 mars 2026

Lieu

Paris

Durée

5 jrs

3825 € HT

Du 17 au 21 juin 2026

Lieu

Paris

Durée

5 jrs

3825 € HT

Du 12 au 16 novembre 2026

Lieu

Distanciel

Durée

5 jrs

3825 € HT

Avis des participants à la formation Maîtriser l'industrialisation d'un projet de Data Science

Note moyenne de 5/5(1)

Les avis figurant ci-dessous sont issus des fiches d’évaluation que remplissent les participants à la fin de la formation. Ils sont ensuite publiés automatiquement si les personnes ont explicitement accepté que nous les diffusions.

LE TARNEC Jérémie

5/5

Mon avis sur le contenu du stage :

"Correspond aux demandes initiales et en lien avec ma reconversion !"

Formations Informatique
et Management
en ligne à ce jour

+
Stagiaires dans nos salles
de cours sur
l'année

4,7/5
95% de nos participants
sont satisfaits ou
très satisfaits

Formateurs experts
validés par
PLB

%
Des participants
recommandent
nos formations

Formation Maîtriser l'industrialisation d'un projet de Data Science

Description de la formation Industrialisation Data Science

Objectifs

À qui s'adresse cette formation ?

Contenu du cours Industrialisation Data Science

Introduction et rappels sur la Data Science

Installation des environnements

Clean code et notebook

Tester son code

Documenter son projet

Gérer les versions

Rendre son code déployable

Introduction à la CI / CD

Pyramide de tests

Cloud

Orchestration

Architecture

Déploiement

Exposition

Feedback loops

Monitoring

Réentraînement des modèles

Bilan et clôture

Travaux Pratiques

Dates et lieux

Avis des participants à la formation Maîtriser l'industrialisation d'un projet de Data Science

Ces formations peuvent aussi vous intéresser :

Cadrage et pilotage d'un projet de Data Science

Data Science : Natural Language Processing (NLP) et Speech Recognition

Dataiku Data Science Studio (DSS) : exploitez vos données grâce aux méthodes prédictives

Jupyter Notebook : Créer et partager des documents interactifs avec Jupyter Notebook