Définition et contexte spécifique des projets Big Data
Les origines du Big Data
Les données au cœur des enjeux
Explosion du nombre de données
Liens entre Big Data et internet des objets (IoT)
Problématique des données structurées, semi-structurées, non structurées dans un projet Big Data
Définition d’un système Big Data
Architecture générale et fonctionnement
Les différentes offres du marché
Propriété de la donnée, environnement juridique du traitement, sécurité
Sécurité éthique et enjeux juridiques
Les données personnelles
Les informations sensibles, interdites de collecte
La CNIL régule les données numériques
Les accords intra-pays
Technologies, compétences et métiers
Ranger les technologies dans les bonnes cases (Hadoop, MapReduce, Pig, Hive, Impala, Spark, Elasticsearch, etc.)
Différences de savoir-faire pour le chef de projet avec la BI « traditionnelle »
Léger zoom sur Hadoop
Les métiers « informatiques » concernés par le Big Data (administrateur, développeur, analyste, data scientist, etc.)
Quel élargissement des compétences pour les administrateurs et les développeurs Hadoop ?
Synthèse : exemple d’une architecture Big Data en production et positionnement des métiers
La journée type du chef de projet Big Data
Conséquences financières des choix techniques
Comprendre et traiter les spécificités d’un projet Big Data au sens organisationnel, méthodologique, technologique, économique, juridique et humain
Quelle démarche méthodologique et quelles étapes clé du chantier ?
Les prérequis à réunir et points de vigilance à surveiller ?
Comment gouverner et piloter le chantier Big Data ?
Quels sont les contributeurs internes à mobiliser ? Les profils et compétences nécessaires à intégrer ?
La connaissance de la question
Composer et piloter une équipe Big Data
Hadoop dans le SI : Processus d’adoption
Comment conserver les ressources humaines « rares » dans le contexte du Big Data ?
Datalab : une équipe, un lieu, une approche
Comment élaborer un Datalab ?
Manager le processus de mise en place d’un projet Big Data
Gouvernance des Données et « Culture Données »
Définir une véritable stratégie Données
Partager les enjeux
Investir sur des initiatives ciblées et porteuses de valeur pour les métiers
Rompre avec les visions en silos
Promouvoir une « Culture Données »
Savoir communiquer (marketing digital)
Identifier les besoins et le type de données à traiter avec les métiers (use cases)
À travers différents cas d’école piochés sur l’Open Data, nous effectuons des use cases permettant de définir les indicateurs clés à déterminer
La viabilité de chaque effort est bien sûr mesurée par la détermination du ROI
La collecte et le stockage des données
Quelles données ?
Quelles sources ?
L’importance de la qualité des données (data quality)
Exemple de traitement avec un ETL dédié Big Data
Résumé : les différentes phases de la collecte dans un projet
L’exploitation des données
Données structurées, semi structurées et non structurées
La réconciliation avec le référenciel interne
La question du Master Data Management
Big Data ou Smart Data ?
L’analyse des données
Définition de l’analyse statistique
La Datascience
La place du Data scientist dans un projet Big Data
Datamining
L’implémentation d’indicateurs à destination du décisionnel
Résumé : les différentes phases et formes de l’analyse dans un projet
La visualisation des données (Dataviz)
Ce que les statistiques ne disent pas
Les objectifs de la visualisation
Quels graphes pour quels usages ?
Représentation de données complexes (encodage visuel, visualisation interactive)
Savoir communiquer sur les analyses de données (Data Storytelling)
Piloter et maîtriser les risques des projets Big Data
Différentes méthodes pour piloter un datalab :
- Business Driven
- Lean
- Scrum
Tests et analyses de performances
Stratégie pour le code de débogage MapReduce
Test local du code en utilisant LocalJobRunner
Écriture et utilisation de fichiers journaux
Études de cas / mises en situation