Cette formation est-elle adaptée à mon niveau ?

Chaque fiche indique le niveau requis (Fondamental, Intermédiaire, Avancé) ainsi que les prérequis détaillés. En cas de doute, un test d'auto-évaluation est disponible directement sur la page.

La formation est-elle orientée théorie ou pratique ?

Nos formations alternent apports théoriques et travaux pratiques, pour mettre immédiatement en application les notions abordées.

Puis-je suivre cette formation à distance ?

Oui, la plupart de nos formations sont disponibles en présentiel et en classe à distance, avec le même contenu et le même niveau d'interaction avec le formateur.

Cette formation est-elle disponible en intra-entreprise ?

Oui. Nous pouvons l'organiser dans vos locaux, dans nos salles ou à distance, avec un programme adapté à votre contexte si nécessaire. Contactez notre service intra pour un devis.

Que se passe-t-il si une session est annulée ?

Nous nous engageons à maintenir les sessions garanties affichées. En cas d'annulation de notre part, nous vous proposons un report sur la prochaine session disponible.

Cette formation est-elle finançable via le CPF ?

Si la formation est éligible CPF, cela est indiqué sur la fiche avec le code de certification correspondant. Vous pouvez retrouver la formation directement sur Mon Compte Formation.

Mon employeur ou mon OPCO peut-il prendre en charge le coût ?

Oui. Contactez-nous pour obtenir une convention de formation et vérifier les possibilités de prise en charge via votre OPCO.

Formation Big Data : Architecture et Infrastructure

Mise en œuvre du Big Data avec Hadoop et Spark

4,6/5

Avec 30 avis

Prochaine session garantie : 07/10/2026

Description de la formation Big Data Architecture Infrastructure

Cette formation Big Data Architecture Infrastructure vous présente l’architecture et l’infrastructure sous-jacente d’un projet Big Data. Elle commence par définir le cadre des projets Big Data puis explique en quoi la nature des données manipulées et leur volume impactent l’architecture, que ce soit au niveau du stockage ou du traitement. Concrètement, quels sont les changements par rapport aux standards (serveur, SGBD, système de fichiers, etc.) et qu’apportent concrètement des solutions NoSQL ou des produits comme Hadoop ?

Mais quelle que soit votre architecture, se posera le problème de la « qualité » des données. Nous vous montrons donc comment la gérer avec des ETL, le master data management, les bases multiples, etc. Vous disposerez donc d’une vue claire et opérationnelle sur la façon de disposer de données « propres » pour l’analyse des données de votre infrastructure tout en étant sensibilisé aux obligations des entreprises sur les aspects éthiques, sécurité et responsabilité.

Ensuite nous vous présentons l’éventail des technologies Big Data en termes d’infrastructure pour accueillir ces données afin de vous aider à vous repérer et faire les bons choix en fonction des projets (Cloud, On premise, Hadoop, NoSQl, etc.). Le calcul distribué étant au cœur du Big Data, vous comprenez comment mettre à la disposition des développeurs des architectures distribuées scalables et performantes (HDFS, MapReduce, etc.). Parmi les standards du marché les deux solutions sont Hadoop et Spark. Aussi, vous comprenez leur complémentarité et leur concurrence dans le cadre d’une architecture complète que vous mettez en œuvre. Concrètement, vous apprenez à installer un cluster Hadoop à plusieurs nœuds, à le paramétrer, à le sécuriser, le surveiller (monitoring), et donc, au final, à proposer une infrastructure de qualité aux développeurs et aux analystes.

La formation se termine par le déploiement d’un traitement Hadoop/Spark sur l’architecture que nous avons conçue afin de valider votre vision globale et concrète d’une architecture Big Data.

Jour 1

Définition et contexte spécifique des projets Big Data

Les origines du Big Data
Les données au cœur des enjeux :
- Explosion du nombre de données
- Liens entre Big Data et IoT (internet des objets)
- Données structurées, semi-structurées, non structurées
Les limites des architectures actuelles
Définition d’un système Big Data
Principes de fonctionnement
Les différentes offres des marchés
Compétences et qualités requises pour un architecte Big Data
Organiser la récupération, le stockage et la gestion des données brutes
Les responsabilités de l’architecte
Risques et difficultés rencontrés dans les projets Big DataÉtude de casAnalyse des risques et des difficultés autour d’un projet Big Data

Propriété de la donnée, environnement juridique du traitement, sécurité

Sécurité éthique et enjeux juridiques
Les données personnelles
Les informations sensibles
Les données interdites de collecte
Rôle de la CNIL au quotidien
Les accords intra-pays
Les responsabilités des personnes
Problématiques spécifiques au Big DataTravaux pratiquesQuizz autour de situations concrètes où l’on demande si « telle action devant tel jeu de données » est autorisée par la loi ou non ? »

Impacts des choix technologiques (infrastructure, architecture)

Les architectures décisionnelles « traditionnelles » (datastore, datawarehouse, datamart, …)
DataLake comme support des architectures BigData ?
Philosophie des bases NoSQL : column family, orienté document, clé-valeur, graphe
Quelques acteurs (MongoDB, Cassandra…)
Les performances de Big Table en lecture/écriture
Requêter sur un gros volume de données avec le moteur Big Query
Les database machine (Exadata)
Les bases de données vectorielles (Sybase IQ)
Hadoop un système totalement autonome ?
Les offres techniques des éditeurs Cloud (Azure, GCP, AWS)
Monter sa propre infra Big Data ou s’orienter vers des solutions Cloud ?
Utiliser un DataLake « classique » ou monter une architecture Big Data ?
L’exemple de Hadoop-as-a-Service (stockage, analyse, pipeline, Spark, Machine Learning, …)
Impacts détaillés du choix d’une offre Cloud
Méthodes Agiles et DevOps dans le contexte du Big DataTravaux pratiquesCas d’usage, Netflix migration vers AWS
Étude détaillée de l’offre d’un éditeur Cloud et de son impact en termes de d’infrastructure et d’architecture (liens avec les sources de données, les transferts de données, les services d’analyses de données, quelles performances dans les opérations de lecture/écriture ? d’analyse de données ? quelle maîtrise de la scalabilité et de la répartition des nœuds ? quels mécanismes de tolérance de panne et de reprise après sinistre ? et plus généralement quelles différences entre administrer un cluster Hadoop sur Amazon EMR par exemple par rapport à « on premise » ?Jour 2

Architectures distribuées et patterns

Problématiques et enjeux d’une architecture distribuée
Des données cohérentes, disponibles et tolérantes aux pannes ?
Les architectures massivement parallèles
L’ouverture aux traitements complexes (datamining, machine learning, etc.)
Paradigmes de calculs distribués et liens avec mapreduce
Les bases NoSQL et le calcul distribué
Compléments techniques sur les base NoSQL (clef-valeur, clef-colonne, orientée document, base graphe)
Exemples d’actions au quotidien sous MongoDB (base NoSQL)
La base distribuée de Hadoop au-dessus de HDFS (Hbase)
Les patterns d’architecture (Batch, Streaming, Lambda, Reactive
Quelques exemples en production (Google, Linkedin, Netflix, …)Travaux pratiquesUn cahier des charges vous décrit l’organisation et les besoins d’une entreprise.
Vous devez être force de proposition pour l’architecture Big Data préconisée.

Qualité des données (dataquality)

Liens entre infrastructure et qualité des données
Maîtriser les formats de données (CSV, XML, JSPN, Avro, Parquet …)
Le format des messages des API et des web services
Les sources des données dans les architectures Big data
Pas de qualité pas d’analyse
Compatibilité entre qualité des données et les 5V du Big Data ?
Base à chaud, base à froid
Le Master Data Management (MDM) : phase indispensable de la réconciliation des données Big Data avec les données décisionnelles ?
Comment un ETL peut rendre « propre » les données ?
L’exemple de Talend pour le Big Data
Analyser les données en les fusionnant avec les données internesTravaux pratiquesUtilisation d’un ETL pour formater un gros volume de données selon certains patterns (modèles)Jour 3

Mise en œuvre d’un cluster Hadoop

Vue globale de l’écosystème Hadoop (Hive, HBase, Flume, Spark, ...)
Installer Hadoop ou s’appuyer sur les offres cloud (AWS, GCP, Azure, OVH) ?
Le système de fichiers distribués (HDFS)
Prise en main des commandes HDFS
Design « type » d’un cluster Hadoop en production
Pré-requis à l’installation de Hadoop
Installation de Hadoop
Gestion des logs
Gestion des autorisations et de la sécurité
Gestion des nœuds du cluster Hadoop
Exemple de problèmes sur un cluster Hadoop (nœud invalide, lenteur, etc.)
Reprise sur échec d’un name node (MRV1)
NameNode high availability (MRV2/YARN)
Les outils de monitoring (Ambari, Cloudera Manager, etc.)
Aspect avancés (taille des blocs, tuning, …)
Les TaskTracker, JobTracker pour MapReduce
Gestion des tâches via les schedulersTravaux pratiquesInstallation de Hadoop et des composants de base.
Import de données externes (fichiers, bases de données relationnelles) vers HDFS (Sqoop, Flume)
Manipulation des fichiers HDFS en ligne de commande
Ajout de nœuds au cluster et supervision de la charge
Utilisation du benchmark GridMix pour soumettre des jobs au cluster

Architecture et traitements (Spark)

Différences techniques et conceptuelles entre Spark et Hadoop MapReduce
Les différentes associations Hadoop/Spark
Comparaison des performances
Différences concernant la reprise après incident
Configuration d’un nœud Hadoop pour le calcul MapReduce Spark
Introduction à Hadoop Streaming pour le prototypage rapide de MapReduce Spark
Exemples de programmes MapReduce Spark pour le traitement de gros volume de donnéesTravaux pratiquesDéploiement d’un programme Mapreduce avec Spark afin de valider notre architecture Big Data dans sa globalité et proposer ainsi un socle technique complet et réaliste pour un projet Big Data.
Le programme est fourni et commentés globalement par le formateur, il n’est pas nécessaire d’être développeur.

Date de mise à jour du programme : 28/05/2026

Dates et lieux

Période souhaitée

Lieux

Type d'affichage

Distanciel

6 juillet - 8 juillet

2 septembre - 4 septembre

7 octobre - 9 octobre

En bonne voie de maintien

4 novembre - 6 novembre

En bonne voie de maintien

7 décembre - 9 décembre

Paris

6 juillet - 8 juillet

2 septembre - 4 septembre

7 octobre - 9 octobre

En bonne voie de maintien

4 novembre - 6 novembre

En bonne voie de maintien

7 décembre - 9 décembre

Témoignages pour cette formation

30 avis

Les avis figurant ci-dessous sont issus des fiches d'évaluation que remplissent les participants à la fin de la formation. Ils sont ensuite publiés automatiquement si les personnes ont explicitement accepté que nous les diffusions.

Avis de CY

Retour d’expérience

Mon avis sur le contenu du stage :

"Cette formation offre un contenu technique solide, particulièrement pour les aspects Hadoop (HDFS, MapReduce, YARN), Spark, et HBase, avec des exemples pratiques et des commandes détaillées . Cependant, le démarrage abrupt dans la technique dès le premier jour, sans contextualisation ni adaptation à des profils comme le mien (gestion de projet), a été un point négatif majeur. J’ai signalé ce souci en fin de journée 1, et le formateur a tenté d’ajuster en se concentrant sur les slides les jours suivants. Malheureusement, cette transition s’est traduite par une lecture monotone, rendant les sessions peu dynamiques. De plus, les slides, bien que riches en détails techniques, semblent datés et manquent de mises à jour. Pour améliorer, je suggère une introduction stratégique le premier jour, des exercices adaptés aux gestionnaires, et une refonte des supports avec des contenus actuels et interactifs."

Mon avis sur le formateur :

Ce que j'ai le moins apprécié :

"Le démarrage abrupt dans la technique dès le premier jour, sans contextualisation ni adaptation à des profils comme le mien (gestion de projet), a été un point négatif majeur."

Avis de DM

Retour d’expérience

Mon avis sur le contenu du stage :

"Formation de très bon niveau. Dommage qu'elle ait été déséquilibrée avec le dernier jour de pratique trop dense pour une appropriation adéquate. De fait, frustrant pour ma part car beaucoup de retours à la case départ et un décrochage par rapport au groupe "

Mon avis sur le formateur :

"La formatrice a été d'un excellent niveau avec beaucoup d'apports. Dommage que la formation ait été indiquée comme à distance à cette dernière qui s'attendait à du présentiel. Un mode hybride tout de même positif. La note moyenne est plus liée au décalage avec le gap entre les 2 premiers jours et le 3ème jour."

Ce que j'ai le plus apprécié :

"Des apports théoriques très riches"

Ce que j'ai le moins apprécié :

"Un trop grand décalage entre le rythme des 2 premiers jours et le 3ème. Pas de marge pour rattraper un décrochage. Prévoir la transmission de l'ensemble des ressources en un seul endroit pour pouvoir pratiquer par la suite."

Avis de CM

Retour d’expérience

Mon avis sur le contenu du stage :

"bonne alternance théorie / pratique. le 3è jour dédié à l'installation d'un cluster hadoop était peut être un peu trop technique par rapport à mes attentes. heureusement que j'avais des bases sinon ça aurait été plus difficile"

Mon avis sur le formateur :

"excellente formatrice, très pédagogue, patiente et sympathique"

Mon avis sur la salle de formation :

"j'ai assisté en présentiel et heureusement, je ne vois pas comment suivre cette formation dans de bonnes conditions en distanciel"

Ce que j'ai le plus apprécié :

"cadre de formation très agréable"

Ce que j'ai le moins apprécié :

"dommage que nous étions si peu en présentiel, cela ne favorisait pas les échanges"

Data Mesh : adopter le nouveau paragdime de l'architecture des données

Durée: Durée :2 jours
Niveau: Niveau :Fondamental
Certification: Certification :Non

2120€ HT

Prochaine session : 14/09/2026

Big Data : Concevoir et piloter un projet Big Data

Durée: Durée :3 jours
Niveau: Niveau :Fondamental
Certification: Certification :Non

Certification Big Data Foundation (CCC)

Durée: Durée :3 jours
Niveau: Niveau :Fondamental
Certification: Certification :Big Data Foundation

Gestion de la qualité des données

Durée: Durée :2 jours
Niveau: Niveau :Intermédiaire
Certification: Certification :Non

Voir toutes les formations Big Data - Fondamentaux & Gouvernance

Questions fréquentes

Avis de CY

Retour d’expérience

Mon avis sur le contenu du stage :

Mon avis sur le formateur :

Ce que j'ai le moins apprécié :

"Le démarrage abrupt dans la technique dès le premier jour, sans contextualisation ni adaptation à des profils comme le mien (gestion de projet), a été un point négatif majeur."

Formation Big Data : Architecture et Infrastructure

Description de la formation Big Data Architecture Infrastructure

Programme de la formation

Objectifs de la formation

Contenu du cours Big Data Architecture Infrastructure

Définition et contexte spécifique des projets Big Data

Propriété de la donnée, environnement juridique du traitement, sécurité

Impacts des choix technologiques (infrastructure, architecture)

Architectures distribuées et patterns

Qualité des données (dataquality)

Mise en œuvre d’un cluster Hadoop

Architecture et traitements (Spark)

Public et prérequis

Dates et lieux

Distanciel

Paris

Témoignages pour cette formation

Ces formations en Big Data - Fondamentaux & Gouvernance peuvent aussi vous intéresser

Questions fréquentes

Cette formation est-elle adaptée à mon niveau ?

La formation est-elle orientée théorie ou pratique ?

Puis-je suivre cette formation à distance ?

Cette formation est-elle disponible en intra-entreprise ?

Que se passe-t-il si une session est annulée ?

Cette formation est-elle finançable via le CPF ?

Mon employeur ou mon OPCO peut-il prendre en charge le coût ?

Témoignages pour cette formation

Ces formations en Big Data - Fondamentaux & Gouvernance peuvent aussi vous intéresser