- Référence : CCDS
- Durée : 19 jours (133h)
- Lieu : Au choix. À distance ou en présentiel, à Paris ou en Régions
9890€ HT
Choisir une date et RéserverVous pouvez suivre cette formation en direct depuis votre domicile ou votre lieu de travail. Plus d'informations sur notre solution de classe à distance...
Le métier de Data Scientist est apparu ces dernières années pour faire face à la multiplication des données, à la diversité de leurs formes et de leurs sources : le Big Data. Le rôle du Data Scientist : rendre les données exploitables, les traiter pour leur donner du sens et ainsi permettre à la direction générale d'adapter la stratégie de l'entreprise.
À la croisée du statisticien, du développeur et de l'expert métier, le Data Scientist doit être capable d'appréhender les évolutions majeures des nouvelles technologies d'analyse en y intégrant une nouvelle conception des dimensions. Ce n'est qu'ainsi que son objectif final d'aide à la décision sera atteint.
Pour l'entreprise, les enjeux sont multiples : devancer les besoins des clients, anticiper les risques financiers, modifier en temps réel une politique de prix, anticiper et éviter des maladies ou une panne...
Ce cursus Data Scientist vous forme directement à cette fonction en vous donnant toutes les clés pour appréhender, manipuler et restituer les données que vous aurez à analyser dans le cadre d'un projet Big Data.
Ce cursus regroupe plusieurs cours. Les dates affichées correspondent à celles du premier module de formation.
Objectifs opérationnels :
Pouvoir endosser la fonction de Data Scientist : rendre les données exploitables, et leur donner du sens.
Savoir présenter et commenter les données : permettre à l'entreprise d'adapter sa stratégie grâce aux analyses effectuées.
Objectifs pédagogiques :
À l'issue de ce cursus Data Scientist, vous serez à même de maîtriser tous les tenants et aboutissants du Big Data grâce à l'assimilation des connaissances et compétences suivantes :
Public :
De manière générale, ce cursus Data Scientist s'adresse à toute personne amenée à évoluer vers une fonction de Data Scientist. Ce poste recoupe des profils variés : analystes, statisticiens, spécialistes BI...
Prérequis :
Pour suivre ce cursus Data Scientist, il est nécessaire de posséder des connaissances de base en statistiques (régression linéaire, échantillonnage) ainsi que des connaissances de base en programmation (variables, boucles, etc.).
Des connaissances de base en SQL et dans l'utilisation de Tableau Software sont également essentielles pour aborder sereinement le volet "Visualisation des données" de ce cursus.
Le vocabulaire de base
Calcul fondamental en statistique descriptive
Probabilités
Tests et intervalles de confiance
Visualisation des données
L’évolution des statistiques pour le Big Data
Contexte et opportunités du Big Data
Sécurité éthique et enjeux juridiques du Big Data
Open data
Les projets Big Data en entreprise
Architecture et infrastructure Big Data
L’analyse des données et la visualisation
Le développement d’applications Big Data
La visualisation des données (Dataviz)
Démonstration d’un environnement distribué Hadoop
Cas d’usage et success-stories
Présentation du logiciel R
Première prise en main du logiciel R
Les Objets
Les Fonctions et programmation R
Génération, gestion et visualisation des données
Analyses statistiques
Bilan
Organiser son travail sous R
Manipuler facilement ses données avec le package dplyr
Exercices
Manipulation des variables catégorielles avec le package forecats
Exercices
Manipuler les chaînes de caractères avec le package stringr
Exercices
Manipuler des données de date : utilisation du package lubridate
Exercices
Assemblage de tables
Exercices
Réaliser des représentations graphiques performantes avec le package ggplot2
Générer dynamiquement son rapport d’analyse avec R Markdown
Introduction à la programmation fonctionnelle avec le package purrr
Exercices
Introduction au monde du Big Data et de la Data Science
Un premier exemple de modélisation : la détection de Spams
Les différents types d'application du Machine Learning
Prise en main des outils
Mise en pratique sur un problème de classification
Mise en pratique sur un problème de régression
La validation des modèles : 1ère partie
Une approche non-supervisée : le clustering
Nettoyage des données : 1ère partie
Exploration et visualisation des donnéesLa validation des modèles : 2e partie
Le processus de création d'un modèle
Les méthodes ensemblistes
Le nettoyage des données : 2e partie
Le Feature Engineering
Ouverture sur le Deep Learning
Comprendre les spécificités du Big Data
Les concepts fondamentaux et technologies associées du Big Data (stockage, recherche, visualisation)
Gestion des données structurées ou non
La collecte et exploration des données
L’analyse des données
La visualisation des données (Dataviz)
Concepts clés de la mise en récit des données
Exercice
Analyse d’une présentation, création d’indicateurs de mesure de l’histoire
Exercice pratique
Rédaction d’un pitch et d’un schéma narratif
Mise en pratique
Exercice pratique
Prise en main de l'outil de Data Storytelling de Tableau Software, en équipe
Exercice pratique
Exercice individuel de construction et de présentation d'une histoire entre les participants
Ce cursus Data Scientist comporte de nombreux travaux pratiques favorisant l'assimilation des connaissances.
Les calculs et études de cas servent de fil conducteur aux multiples démonstrations. Ces derniers sont réalisés sur Excel ou en Python pour ceux qui le souhaitent.
Le logiciel R est également très souvent utilisé. Il est accompagné par Hive pour la gestion et l'exploration des données, par Pig ou Spark pour l'ETL et le traitement des données, et par Elastick Stack pour l'analyse et la visualisation des logs.
Formations Informatique
et Management
en ligne à ce jour
+
Stagiaires dans nos salles
de cours sur
l'année
%
De participants satisfaits
ou très satisfaits de nos
formations
Formateurs experts
validés par
PLB