Formation Big Data : Architecture et Infrastructure Mise en Å“uvre du Big Data avec Hadoop et Spark

4.6 sur 5 étoiles

5 étoiles
61%
4 étoiles
38%
3 étoiles
0%
2 étoiles
0%
1 étoile
0%
Voir les 13 avis
(13 avis)
Durée 3 jours
Niveau Fondamental
Classe à distance
Possible

Vous pouvez suivre cette formation en direct depuis votre domicile ou votre lieu de travail. Plus d'informations sur notre solution de classe à distance...

Référence OAIH
Éligible CPF Non

Cette formation Big Data Architecture Infrastructure vous présente l’architecture et l’infrastructure sous-jacente d’un projet Big Data. Elle commence par définir le cadre des projets Big Data puis explique en quoi la nature des données manipulées et leur volume impactent l’architecture, que ce soit au niveau du stockage ou du traitement. Concrètement, quels sont les changements par rapport aux standards (serveur, SGBD, système de fichiers, etc.) et qu’apportent concrètement des solutions NoSQL ou des produits comme Hadoop ?

Mais quelle que soit votre architecture, se posera le problème de la « qualité » des données. Nous vous montrons donc comment la gérer avec des ETL, le master data management, les bases multiples, etc. Vous disposerez donc d’une vue claire et opérationnelle sur la façon de disposer de données « propres » pour l’analyse des données de votre infrastructure tout en étant sensibilisé aux obligations des entreprises sur les aspects éthiques, sécurité et responsabilité.

Ensuite nous vous présentons l’éventail des technologies Big Data en termes d’infrastructure pour accueillir ces données afin de vous aider à vous repérer et faire les bons choix en fonction des projets (Cloud, On premise, Hadoop, NoSQl, etc.). Le calcul distribué étant au cœur du Big Data, vous comprenez comment mettre à la disposition des développeurs des architectures distribuées scalables et performantes (HDFS, MapReduce, etc.). Parmi les standards du marché les deux solutions sont Hadoop et Spark. Aussi, vous comprenez leur complémentarité et leur concurrence dans le cadre d’une architecture complète que vous mettez en œuvre. Concrètement, vous apprenez à installer un cluster Hadoop (Cloudera ou Hortonworks au choix) à plusieurs nœuds, à le paramétrer, à le sécuriser, le surveiller (monitoring), et donc, au final, à proposer une infrastructure de qualité aux développeurs et aux analystes.

La formation se termine par le déploiement d’un traitement Hadoop/Spark sur l’architecture que nous avons conçue afin de valider votre vision globale et concrète d’une architecture Big Data.

Objectif opérationnel :

Disposer d’une vue d’ensemble d’une architecture et de l’infrastructure Big Data pour le traitement de gros volumes de données.

Objectifs pédagogiques :

À l'issue de cette formation Big Data Architecture Infrastructure, vous aurez acquis les connaissances et compétences nécessaires pour :

  • Comprendre l’écosystème Big Data dans sa globalité (concepts, technologies, architecture)
  • Analyser les risques et les difficultés propres à un projet Big Data
  • Comprendre l’origine et le format des données manipulées 
  • Appréhender les éléments de sécurité, d'éthique et les enjeux juridiques
  • Connaître les architectures distribuées dominantes du marché
  • Se repérer dans les technologies Big Data pour concevoir une architecture performante en fonction des projets 
  • Mettre en Å“uvre un cluster Hadoop et l’exploiter
  • Déployer une application Hadoop/Spark sur une architecture Big Data

Public :

Ce cours Big Data Architecture Infrastructure s'adresse principalement aux chefs de projet, développeurs, Data Ingénieur, Data Scientist amenés à concevoir et exploiter une architecture Big Data. 

Elle pourra aussi intéresser des administrateurs de base de données, architectes, ingénieur système ou toute personne qui souhaite disposer d’une vision d’ensemble sur les architectures et infrastructures Big Data.

Prérequis :

Il est recommandé d’avoir une bonne culture générale des systèmes d'information et des connaissances basiques sur les modèles relationnels (tables, lignes, colonnes, SQL simple) sont nécessaires pour mieux appréhender les données non structurées et les références au SQL durant la formation.

Il est également recommandé d’avoir des bases en programmation pour mieux appréhender l’écosystème du Big Data (Hadoop, Spark, …) et en statistiques (scolaire) lorsque l’on évoque les traitements que supportent les architectures BigData.

Jour 1

Définition et contexte spécifique des projets Big Data

Les origines du Big Data
Les données au cœur des enjeux :
-  Explosion du nombre de données
-  Liens entre Big Data et IoT (internet des objets)
-  Données structurées, semi-structurées, non structurées
Les limites des architectures actuelles
Définition d’un système Big Data
Principes de fonctionnement
Les différentes offres des marchés
Compétences et qualités requises pour un architecte Big Data
Organiser la récupération, le stockage et la gestion des données brutes
Les responsabilités de l’architecte
Risques et difficultés rencontrés dans les projets Big Data
Étude de casAnalyse des risques et des difficultés autour d’un projet Big Data

Propriété de la donnée, environnement juridique du traitement, sécurité

Sécurité éthique et enjeux juridiques
Les données personnelles
Les informations sensibles
Les données interdites de collecte
Rôle de la CNIL au quotidien
Les accords intra-pays
Les responsabilités des personnes
Problématiques spécifiques au Big Data
Travaux pratiquesQuizz autour de situations concrètes où l’on demande si « telle action devant tel jeu de données » est autorisée par la loi ou non ? »

Impacts des choix technologiques (infrastructure, architecture)

Les architectures décisionnelles « traditionnelles » (datastore, datawarehouse, datamart, …)
DataLake comme support des architectures BigData ?
Philosophie des bases NoSQL : column family, orienté document, clé-valeur, graphe
Quelques acteurs (MongoDB, Cassandra…)
Les performances de Big Table en lecture/écriture
Requêter sur un gros volume de données avec le moteur Big Query
Les database machine (Exadata)
Les bases de données vectorielles (Sybase IQ)
Hadoop un système totalement autonome ?
Les offres techniques des éditeurs Cloud (Azure, GCP, AWS)
Monter sa propre infra Big Data ou s’orienter vers des solutions Cloud ?
Utiliser un DataLake « classique » ou monter une architecture Big Data ?
L’exemple de Hadoop-as-a-Service (stockage, analyse, pipeline, Spark, Machine Learning, …)
Impacts détaillés du choix d’une offre Cloud
Méthodes Agiles et DevOps dans le contexte du Big Data
Travaux pratiquesCas d’usage, Netflix migration vers AWS
Étude détaillée de l’offre d’un éditeur Cloud et de son impact en termes de d’infrastructure et d’architecture (liens avec les sources de données, les transferts de données, les services d’analyses de données, quelles performances dans les opérations de lecture/écriture ? d’analyse de données ? quelle maîtrise de la scalabilité et de la répartition des nÅ“uds ? quels mécanismes de tolérance de panne et de reprise après sinistre ? et plus généralement quelles différences entre administrer un cluster Hadoop sur Amazon EMR par exemple par rapport à « on premise »  ?
Jour 2

Architectures distribuées et patterns

Problématiques et enjeux d’une architecture distribuée 
Des données cohérentes, disponibles et tolérantes aux pannes ?
Les architectures massivement parallèles
L’ouverture aux traitements complexes (datamining, machine learning, etc.)
Paradigmes de calculs distribués et liens avec mapreduce
Les bases NoSQL et le calcul distribué 
Compléments techniques sur les base NoSQL (clef-valeur, clef-colonne, orientée document, base graphe)
Exemples d’actions au quotidien sous MongoDB (base NoSQL)
La base distribuée de Hadoop au-dessus de HDFS (Hbase)
Les patterns d’architecture (Batch, Streaming, Lambda, Reactive
Quelques exemples en production (Google, Linkedin, Netflix, …)
Travaux pratiquesUn cahier des charges vous décrit l’organisation et les besoins d’une entreprise. 
Vous devez être force de proposition pour l’architecture Big Data préconisée.

Qualité des données (dataquality)

Liens entre infrastructure et qualité des données 
Maîtriser les formats de données (CSV, XML, JSPN, Avro, Parquet …)
Le format des messages des API et des web services
Les sources des données dans les architectures Big data
Pas de qualité pas d’analyse
Compatibilité entre qualité des données et les 5V du Big Data ?
Base à chaud, base à froid
Le Master Data Management (MDM) : phase indispensable de la réconciliation des données Big Data avec les données décisionnelles ?
Comment un ETL peut rendre « propre » les données ?
L’exemple de Talend pour le Big Data
Analyser les données en les fusionnant avec les données internes
Travaux pratiquesUtilisation d’un ETL pour formater un gros volume de données selon certains patterns (modèles)Jour 3

Mise en œuvre d’un cluster Hadoop

Vue globale de l’écosystème Hadoop (Hive, HBase, Flume, Spark, ...)
Installer Hadoop ou s’appuyer sur les offres cloud (AWS, GCP, Azure, OVH) ?
Le système de fichiers distribués (HDFS)
Prise en main des commandes HDFS
Design « type » d’un cluster Hadoop en production
Pré-requis à l’installation de Hadoop
Quelques différences entre les distributions Cloudera et Hortonworks ?
Installation de Hadoop
Gestion des logs
Gestion des autorisations et de la sécurité
Gestion des nœuds du cluster Hadoop
Exemple de problèmes sur un cluster Hadoop (nœud invalide, lenteur, etc.)
Reprise sur échec d’un name node (MRV1)
NameNode high availability (MRV2/YARN)
Les outils de monitoring (Ambari, Cloudera Manager, etc.)
Aspect avancés (taille des blocs, tuning, …)
Les TaskTracker, JobTracker pour MapReduce
Gestion des tâches via les schedulers
Travaux pratiquesInstallation de Hadoop et des composants de base.
Import de données externes (fichiers, bases de données relationnelles) vers HDFS (Sqoop, Flume)
Manipulation des fichiers HDFS en ligne de commande
Ajout de nœuds au cluster et supervision de la charge
Utilisation du benchmark GridMix pour soumettre des jobs au cluster

Architecture et traitements (Spark)

Différences techniques et conceptuelles entre Spark et Hadoop MapReduce
Les différentes associations Hadoop/Spark
Comparaison des performances
Différences concernant la reprise après incident
Configuration d’un nœud Hadoop pour le calcul MapReduce Spark
Introduction à Hadoop Streaming pour le prototypage rapide de MapReduce Spark
Exemples de programmes MapReduce Spark pour le traitement de gros volume de données
Travaux pratiquesDéploiement d’un programme Mapreduce avec Spark afin de valider notre architecture Big Data dans sa globalité et proposer ainsi un socle technique complet et réaliste pour un projet Big Data.
Le programme est fourni et commentés globalement par le formateur, il n’est pas nécessaire d’être développeur.
Date de mise à jour du programme : 06/02/2024

Dates et lieux

1
2
Du 22 au 24 mai 2024
Session garantie
Lieu
Distanciel
Durée
3 jrs
1995 € HT
Du 22 au 24 mai 2024
Session garantie
Lieu
Paris
Durée
3 jrs
1995 € HT
Du 19 au 21 juin 2024
Lieu
Distanciel
Durée
3 jrs
1995 € HT
Du 19 au 21 juin 2024
Lieu
Paris
Durée
3 jrs
1995 € HT
Du 24 au 26 juillet 2024
Lieu
Distanciel
Durée
3 jrs
1995 € HT
Du 24 au 26 juillet 2024
Lieu
Paris
Durée
3 jrs
1995 € HT
Du 18 au 20 septembre 2024
Lieu
Distanciel
Durée
3 jrs
1995 € HT
Du 18 au 20 septembre 2024
Lieu
Paris
Durée
3 jrs
1995 € HT
Du 23 au 25 octobre 2024
Lieu
Distanciel
Durée
3 jrs
1995 € HT
Du 23 au 25 octobre 2024
Lieu
Paris
Durée
3 jrs
1995 € HT
1
2

Logo partenaire action collective de l'OPCO Atlas Votre formation Architecture Big Data prise en charge jusqu'à 100% des coûts pédagogiques ! *

Depuis 2011, PLB Consultant est partenaire des Actions Collectives Atlas pour vous proposer les meilleures formations informatique et développer vos compétences dans le Numérique :

- En présentiel dans l’une de nos salles en Régions     
- Ã€ distance depuis votre bureau     
- Sessions intra-entreprise dans toute la France.

* jusqu'à 100% des coûts pédagogiques selon votre branche d'activité dans la limite des fonds mutualisés dédiés aux actions collectives et en application des critères de prise en charge en vigueur (cf conditions détaillées sur le site d'Atlas)

Avis des participants à la formation Big Data : Architecture et Infrastructure

Note moyenne de 4.6/5(13)

Les avis figurant ci-dessous sont issus des fiches d’évaluation que remplissent les participants à la fin de la formation. Ils sont ensuite publiés automatiquement si les personnes ont explicitement accepté que nous les diffusions.

DM
4/5

Mon avis sur le contenu du stage :

"Formation de très bon niveau. Dommage qu'elle ait été déséquilibrée avec le dernier jour de pratique trop dense pour une appropriation adéquate. De fait, frustrant pour ma part car beaucoup de retours à la case départ et un décrochage par rapport au groupe "

Mon avis sur le formateur :

"La formatrice a été d'un excellent niveau avec beaucoup d'apports. Dommage que la formation ait été indiquée comme à distance à cette dernière qui s'attendait à du présentiel. Un mode hybride tout de même positif. La note moyenne est plus liée au décalage avec le gap entre les 2 premiers jours et le 3ème jour."

Ce que j'ai le plus apprécié :

"Des apports théoriques très riches"

Ce que j'ai le moins apprécié :

"Un trop grand décalage entre le rythme des 2 premiers jours et le 3ème. Pas de marge pour rattraper un décrochage. Prévoir la transmission de l'ensemble des ressources en un seul endroit pour pouvoir pratiquer par la suite."

CM
5/5

Mon avis sur le contenu du stage :

"bonne alternance théorie / pratique. le 3è jour dédié à l'installation d'un cluster hadoop était peut être un peu trop technique par rapport à mes attentes. heureusement que j'avais des bases sinon ça aurait été plus difficile"

Mon avis sur le formateur :

"excellente formatrice, très pédagogue, patiente et sympathique"

Mon avis sur la salle de formation :

"j'ai assisté en présentiel et heureusement, je ne vois pas comment suivre cette formation dans de bonnes conditions en distanciel"

Ce que j'ai le plus apprécié :

"cadre de formation très agréable"

Ce que j'ai le moins apprécié :

"dommage que nous étions si peu en présentiel, cela ne favorisait pas les échanges"

BD
4/5

Mon avis sur le contenu du stage :

"Je m'attendais à ce que l'on partle beaucoup plus du métier d'architecte. Beaucoup de sujets abordés étaient déjà connus pour ma part."

Mon avis sur le formateur :

"Excellent formateur. La communication est claire et les Travaux pratiques nous permettent facilement de manipuler les différents concepts."

Ce que j'ai le plus apprécié :

"La facilité d'accès à la formation La facilité d'accès aux machines virtuelles pour les travaux pratiques."

Ce que j'ai le moins apprécié :

"Le décalage du dernier jour de formation."

AM
4/5

Mon avis sur le contenu du stage :

"dernière journée est plus technique que prévu, peut être le préciser dans le descriptif de la formation"

Ce que j'ai le plus apprécié :

"La mise à disposition de tous les outils sans problème technique "

Ce que j'ai le moins apprécié :

"La formation est plus profitable en présentiel, même si c'était intéressant à distance mais ce serait encore plus intéressant de le faire en présentiel surtout pour le workshop pour installation d'hadoop"

SIGRIST Thomas
4/5

Mon avis sur le contenu du stage :

"Très bon je pense juste que la duré de formation est trop court, une formation de 7 jour permettrai de tout voir. "

Mon avis sur le formateur :

"RAS"

Mon avis sur la salle de formation :

"Le rétroprojecteur est pas terrible, il faudrait en acheter un avec plus de lumens."

Ce que j'ai le plus apprécié :

"la coin pause DEJ"

Ce que j'ai le moins apprécié :

"rétroprojecteur "

RA
5/5

Mon avis sur le contenu du stage :

"Petit manque sur l'aspect robustesse : mise en place de la haute disponibilité, DRP, distribution cross datacenters. Maintenant à temps contraint je comprend que l'on a pa pu tout faire. Globalement la formation était très bonne :-)"

Ce que j'ai le plus apprécié :

"machine prête, administrateur disponible"

Ce que j'ai le moins apprécié :

"video projecteur pas très lisible"

VA
5/5

Mon avis sur le contenu du stage :

"On peut allier théorie et pratique assez facilement. Le lien est bien fait."

Mon avis sur le formateur :

"Agréable, patiente et surtout dynamique."

Ce que j'ai le plus apprécié :

"La participation de chacun."

Ce que j'ai le moins apprécié :

"Les petits problèmes de connexion."

MR
5/5

Mon avis sur le contenu du stage :

"Beaucoup d'exemples intéressants issue de vrais situations métiers. Peut-être pas assez de Tp pratiques, mais plus liées au faite que bigdata est un sujet très vaste, amenant beaucoup de diggressions et questions, laissant moins de place au tp "

Mon avis sur la salle de formation :

"Materiel et software pret, salles propres"

WO
5/5

Mon avis sur le contenu du stage :

"le support est complet "

Mon avis sur le formateur :

"Très bonne formatrice très pédagogue"

Ce que j'ai le plus apprécié :

"rien a dire parfait"

Ce que j'ai le moins apprécié :

"rien"

MB
5/5

Mon avis sur le contenu du stage :

"La formation m'a permis de démystifier le monde du Big data."

Mon avis sur le formateur :

"Xavier est très disponible et très motivé à nous apporter des réponses à nos questions. Il aime beaucoup échanger avec ses stagiaires"

BOUDA Stevie
5/5

Mon avis sur le contenu du stage :

"Volonté d'avoir un peu plus de théorie "

DE CARVALHO Antonio
5/5

Mon avis sur le contenu du stage :

"J'ai besoin d'une formation plus pointue encore"

RM
4/5

Mon avis sur le formateur :

"Grande disponibilité du formateur"


Formations Informatique
et Management
en ligne à ce jour

+
Stagiaires dans nos salles
de cours sur
l'année

%
De participants satisfaits
ou très satisfaits de nos
formations


Formateurs experts
validés par
PLB