Formation Sensibilisation à la Data en entreprise Les données au cœur de la transformation numérique

Durée 3 jours
Niveau Fondamental
Classe à distance
Possible

Vous pouvez suivre cette formation en direct depuis votre domicile ou votre lieu de travail. Plus d'informations sur notre solution de classe à distance...

Référence ACDE
Éligible CPF Non

Conceptuellement un système d’information se résume à des données et des traitements. Dans la pratique, les choses sont plus complexes car les données sont partout (locales, réparties, dans le cloud, embarquées sur mobile, etc.). Elles se présentent sous différents formats (fichiers texte, SGBD, NoSQL, CSV, JSON, bureautique...) qui cohabitent souvent sur un même système et dans un volume sans cesse croissant (Big Data).
Les traitements eux-mêmes évoluent (micro services, web services, API, ETL, reporting intelligent, etc.) ainsi que le besoin de traitement de flux de données (stream) en temps réel sans passer par du stockage. Au final on peut donc rencontrer beaucoup d’architectures et d’outils différents. Cette formation vous propose une approche globale de la donnée afin d'une part de démystifier les technologies et les outils associés mais aussi de comprendre tout ce que le traitement des données peut apporter aux entreprises sur un plan interne et externe (ouverture du système d'information) en comprenant les imbrications des métiers et des technologies dans les différents projets.

Objectifs pédagogiques :

À l'issue de cette formation 

  • Connaître le cycle de vie des données : conception, format, stockage, extraction, visualisation, exploitation, etc.
  • Connaître les principes de base sur les systèmes distribués et plus classique non distribués
  • Connaître les périmètres et les recouvrements des projets : Big Data, Data Science, bases de données relationnelles, BI (Business Intelligence), etc.
  • Connaître les métiers autour de la data (compétences) : administrateur de base de données, consultant BI, développeur SQL, analyste, data scientist, etc.
  • Connaître les outils et technologies standards autour de la data (SGBDR, Talend, Power BI, Hadoop, Spark, NoSQL, Kafka, etc.)

Public :

Cette formation Comprendre la Data s'adresse aux DSI, directeurs techniques, chefs de projets, architectes, consultants, administrateurs de bases de données, ingénieurs systèmes et réseaux, développeurs, data scientists, et plus généralement toute personne désirant disposer d’une vue globale et détaillée sur les concepts et technologies autour des données dans les projets.

Prérequis :

Il est recommandé d'avoir une culture générale de base en informatique (OS, base de données, etc.) pour suivre cette formation d'intiation à la Data.

Les bases de données (SQL, NoSQL)

Comment conçoit-on une base de données relationnelles ?
Exemple de MCD (Modèle Conceptuel de Données)
Les standards du marché : MySQL, PostgreSQL, Oralce, DB2, SQL Server, etc.
Comment laisser la base dans un état intègre : contraintes d’intégrité sur les données (clefs primaires/étrangères)
Notions de transactions, verrous et de visibilité des données entre les applications
Le minimum du SQL à connaître pour extraire des informations
Qu’entend-on par données non structurées ?
Spécificité du stockage distribué (notion de cluster)
Connaître le cycle de vie des données : conception, format, stockage, extraction, visualisation, exploitation, etc.

La Business Intelligence (BI)

Limites des SGBDR (Système de Gestion de Bases de Données Relationnelles) pour les besoins métiers
Que propose la BI ?
Vocabulaire conceptuel associé à la modélisation des données : fait, dimension, étoile, cubes, etc.
Vocabulaire technique : infocentre, datawarehouse, datamart, etc.
Rôle d’un ETL (Extract, Transform, Load) dans l’exploitation des données
Les outils de reporting et d’analyse : PowerBI, Tableau, Business Objects (BO), etc.

Le format des données

Pourquoi typer les données : entier, réel, date, chaîne de caractères, etc. ?
Exemples de problèmes liés au typage des données (incompatibilité, erreur de précision, erreur de conversions, etc.)
L’encodage des données : ascii, utf-8, etc.
Exemples de “problèmes rencontrés” (fichier corrompu, caractères « bizarres » dans les mails ou sur des pages web, etc.)
Ce qu'apporte les normes (ISO, ASCII, …) ?
Comment sont-elles utilisées concrètement par les développeurs ou les DBA (DataBase Administrator) ?
Intérêts et inconvénients du format binaire par rapport au “texte”
État de l’art sur la compression des données
Le standard XML (eXtensible Markup Language) pour décrire les données
Apports du format JSON
Liens entre Web Services et XML ou JSON
Exemple de flux de données dans les applications Big Data (notion de streaming)
Exemples de traitements à partir d’un fichier JSON (web service, export de données, conversion de documents en PDF, fichier de configuration, descriptions d’une page web, etc.)

Le Big Data

Les origines du Big Data
Les données au cœur des enjeux
Explosion du nombre de données
La place des objets connectés dans le Big Data
Comment disposer de données de « qualité » ?
Les limites des architectures actuelles
Définition d’un système Big Data
Différences entre BI, Big Data et Data Science ?
Philosophie des données ouvertes (Open Data)

Architecture et infrastructure Big Data

Cohabitation des solutions SGBDR et NoSQL
Exemple de traitement avec un ETL dédié Big data
L’apport d’un MDM (Master Data Manager)
Le stockage avec Hadoop : base de données Hbase, système de fichiers distribué HDFS
Les solutions Cloud : AWS (Amazon Web Services), GCP, Azure

L’analyse des données

Définition de l’analyse statistique
La nécessité de “nettoyer” les données : dataquality, datacleaning
Requêter avec Hive
Analyser les données : Pig, Mahout, etc.
Intégrer les données grâce à Sqoop

Le développement d’applications Big Data

Format des données utilisées par MapReduce : clef, valeur
Le framework Spark
Exemple d’unification de données hétérogènes (CSV, JSON) avec Spark pour pouvoir requêter en SQL
Machine learning et prédiction des données
Les outils : Scala, Spark MLibs, etc.
Comment manipuler des flux de données distribués en temps réel ?
L'exemple de la solution proposée par Kafka (vue générale)
Conclusion : quelle famille et quel type de langage/framework pour quel besoin ?

Données et Data Science

Comment peut-on faire « parler » les données ?
Liens entre Machine Learning et Data Science
Vocabulaire et technologies sous-jacentes : algorithme, statistiques, mathématiques
La mise en place de la récolte des données : ETL, APIs, data warehouses/ data lakes, etc.
Méthodes d’analyse et préparation des données
Application des algorithmes
Représenter les données avec des graphes (Data Graph)
Principes généraux des réseaux de neurones

La visualisation des données (Dataviz)

Ce que les statistiques ne disent pas
Data visualisation et cas d'usage concrets
Quels graphes pour quels usages ?
Représentation de données complexes : encodage visuel, visualisation interactive
Savoir communiquer sur les analyses de données : Data Storytelling
Quelques outils de reporting utilisés dans les projets (Power BI, Qlik Sense, Google Data Studio, etc.)

Lors de ce cours Comprendre la Data, vous assisterez à des démonstrations sur Talend, Power BI, Spark, NoSQL avec MongoDB, pour illustrer les domaines d’application et les concepts liés aux données.

Dates et lieux

1
2
3
Du 06 au 08 mars 2023
Lieu
Lyon
Durée
3 jrs
1860 € HT
Du 13 au 15 mars 2023
Lieu
Distanciel
Durée
3 jrs
1860 € HT
Du 13 au 15 mars 2023
Lieu
Paris
Durée
3 jrs
1860 € HT
Du 15 au 17 mars 2023
Lieu
Distanciel
Durée
3 jrs
1860 € HT
Du 15 au 17 mars 2023
Lieu
Paris
Durée
3 jrs
1860 € HT
Du 19 au 21 avril 2023
Lieu
Distanciel
Durée
3 jrs
1860 € HT
Du 19 au 21 avril 2023
Lieu
Paris
Durée
3 jrs
1860 € HT
Du 09 au 11 mai 2023
Lieu
Lille
Durée
3 jrs
1860 € HT
Du 15 au 17 mai 2023
Lieu
Distanciel
Durée
3 jrs
1860 € HT
Du 15 au 17 mai 2023
Lieu
Paris
Durée
3 jrs
1860 € HT
1
2
3


Formations Informatique
et Management
en ligne à ce jour

+
Stagiaires dans nos salles
de cours sur
l'année

%
De participants satisfaits
ou très satisfaits de nos
formations


Formateurs experts
validés par
PLB