Formation Data Science : Industrialiser un projet de Data Science Les bonnes pratiques de développement pour la Data Science

Durée 2 jours
Niveau Intermédiaire
Classe à distance
Possible

Vous pouvez suivre cette formation en direct depuis votre domicile ou votre lieu de travail. Plus d'informations sur notre solution de classe à distance...

Référence OIDS

L'industrialisation d'un projet de Data Science se heurte souvent à de nombreux obstacles. Qu'ils soient budgétaires, organisationnels ou techniques, ces blocages témoignent de la difficulté à dépasser le stade des POCs (Proof of Concept). Cela est particulièrement vrai dans le domaine technique, où les freins au niveau du code et de la chaîne de traitement des données peuvent être légion. Il est donc nécessaire que le data scientist en fonction puisse mettre en œuvre toutes les méthodes lui permettant de récupérer, nettoyer, explorer, et modéliser ses données, avant le déploiement et la mise en production.

Cette formation Data Science vous fournit les meilleures pratiques pour faire passer votre projet du stade de la recherche à celui de l'exploitation. Grâce à ces bonnes pratiques de développement, vos applications de data science seront ainsi en mesure d'apporter de la valeur en entreprise.

Objectifs opérationnels :

Savoir industrialiser un projet de Data Science en respectant les bonnes pratiques de développement.

Objectifs pédagogiques :

À l'issue de cette formation Data Science, vous aurez acquis les connaissances et compétences nécessaires pour :

  • Savoir emmener votre modèle de data science en production
  • Apprendre à gérer les nouvelles contraintes
  • Minimiser le coût de transfert de l’exploration à la production
  • Découvrir les concepts de Software Craftsmanship (clean code) appliqués à la Data Science

Public :

Ce cours Data Science s'adresse aux analystes, statisticiens et développeurs.

Prérequis :

Pour suivre cette formation Data Science, il est nécessaire de posséder des connaissances de base de la Data Science (modèles, biais, variances...), des connaissances des librairies de manipulation de données en Python (pandas, numpy...) ainsi qu'une connaissance de la ligne de commande linux (bash par exemple).

Les personnes souhaitant se former sur le métier de Data Scientist sont invités à suivre la formation Data Scientist : Les fondamentaux de la Data Science (OFDS).

Introduction et rappels sur la Data Science

Rôle du data scientist
Convictions

Installation des environnements

Jupyter Notebook
PyCharm
Environnement anaconda

Clean code et notebook

Nettoyer son notebook
Noms des variables
Utilisation de fichiers de configuration
Programmation fonctionnelle
Immutabilité
Créer des fonctions

Mise en pratique

Appliquer les techniques de Clean code à un notebook

Tester son code

Découverte du TDD
Initiation à unittest :
- Les classes de test
- Écrire son premier test
- Les méthode setup et teardown
Intégration à setuptools

Mise en pratique

Écrire ses premiers tests

Documenter son projet

Découverte de Sphinx
Découverte de sphinx-quickstart

Mise en pratique

Documenter son projet

Gérer les versions

Introduction à git
Gérer les versions de code
Utilisation des tags
Stratégies de versionning
Gérer des datasets et des modèles

Rendre son code déployable

Définition du packaging
Introduction à setuptools
Installer son code en local
Gestion des dépendances
Règles simples de démarrage

Mise en pratique

Créer et installer son package

Conclusion

Synthèse des points abordés
Partage sur la formation
Questions/Réponses additionnelles

Les cas pratiques représentent 80% du temps de cette formation. Les participants partent d'un code d'exploration préparé par le formateur et vont progressivement l'amener en production, étape par étape, en démontrant que la transition doit se faire de la manière la plus fluide possible.


Formations Informatique
et Management
en ligne à ce jour

+
Stagiaires dans nos salles
de cours sur
l'année

%
De participants satisfaits
ou très satisfaits de nos
formations


Formateurs experts
validés par
PLB