Formation Big Data : Architecture et Infrastructure


  • MISE EN ŒUVRE DU BIG DATA AVEC HADOOP ET SPARK
REFERENCE
 
 
OAIH
DUREE
 
 
4 jours
TARIFS
 
 
2390 € HT
Niveau : Débutant
Cours à distance: Possible
OBJECTIFS :
 

Cette formation vous présente l’architecture et l’infrastructure sous-jacente d’un projet Big Data. Elle commence par définir le cadre des projets Big Data puis explique en quoi la nature des données manipulées et leur volume impactent l’architecture, que ce soit au niveau du stockage ou du traitement. Concrètement, quels sont les changements par rapport aux standards (serveur, SGBD, système de fichiers, etc.) et qu’apportent concrètement des solutions NoSQL ou des produits comme Hadoop.

Mais quelle que soit votre architecture, se posera le problème de la « qualité » des données. Nous vous montrons donc comment la gérer avec des ETL, le master data management, les bases multiples, etc. Vous disposerez donc d’une vue claire et opérationnelle sur la façon de disposer de données « propres » pour l’analyse des données de votre infrastructure.

Le calcul distribué étant au cœur du Big Data, vous comprenez comment mettre à la disposition des développeurs des architectures distribuées scalables et performantes (HDFS, MapReduce, etc.). Parmi les standards du marché les deux solutions sont Hadoop et Spark. Aussi, vous comprenez leur complémentarité et leur concurrence dans le cadre d’une architecture complète que vous mettez en œuvre. Concrètement, vous apprenez à installer un cluster Hadoop (Cloudera ou Hortonworks au choix) à plusieurs nœuds, à le paramétrer, à le sécuriser, le surveiller (monitoring), et donc, au final, à proposer une infrastructure de qualité aux développeurs et aux analystes.

La formation se termine par la mise en place d’un traitement MapReduce avec Spark pour traiter un flux de données en temps réel.

PRÉ-REQUIS :
 

Il n’est pas nécessaire de disposer d’une culture Big Data, mais il faut connaître l’administration Linux (manipulation de fichiers, service, package, etc.) pour pouvoir réaliser les travaux pratiques.

PUBLIC :
 

Ce cours est destiné aux administrateurs de clusters Hadoop, administrateurs de bases de données, ingénieurs systèmes et réseaux, développeurs.

PROGRAMME :
 

Définition et contexte spécifique des projets Big Data

Les origines du Big Data
Les données au cœur des enjeux
-  Explosion du nombre de données
-  Liens entre Big Data et IoT (internet des objets)
-  Données structurées, semi-structurées, non structurées
Les limites des architectures actuelles
Définition d’un système Big Data
Principes de fonctionnement
Les différentes offres des marchés

Propriété de la donnée, environnement juridique du traitement, sécurité

Sécurité éthique et enjeux juridiques
Les données personnelles
Les informations sensibles, interdites de collecte
La CNIL régule les données numériques
Les accords intra-pays

Impact des choix technologiques en matière d’infrastructure et d’architecture Big Data

Les architectures décisionnelles « traditionnelles » (datastore, datawarehouse, datamart…)
Philosophie des bases NoSQL : column family, orienté document, clé-valeur, graphe
Quelques acteurs (MongoDB, Cassandra…)
Big Table/ Big Query
Les database machine (Exadata)
Les bases de données vectorielles (Sybase IQ)
Hadoop un système totalement autonome ?
Conséquences techniques et financières selon les architectures

Architectures distribuées

Problématiques et enjeux d’une architecture distribuée
Des données cohérentes, disponibles et tolérantes aux pannes ?
Les architectures massivement parallèles
L’ouverture aux traitements complexes (datamining, machine learning, etc.)
Paradigmes de calculs distribués
Les bases NoSQL et le calcul distribué (exemple avec MongoDB)

Qualité des données (dataquality)

Liens entre infrastructure et qualité des données (exemples de problèmes)
Pas de qualité pas d’analyse
Les 4 V
Base à chaud, base à froid
Les apports d’un outil de Dataquality
Pourquoi utiliser un ETL ?
Illustration via Talend Data Integration
Analyser les données en les fusionnant avec les données internes
Le Master Data Management (MDM) : phase indispensable de la réconciliation des données Big Data avec les données décisionnelles ?

Préparation et configuration du cluster Hadoop

Principes de fonctionnement de Hadoop Distributed File System (HDFS)
Principes de fonctionnement de MapReduce
Design "type" du cluster
Critères de choix du matériel

Installation d'une plateforme Hadoop

Type de déploiement
Installation d'Hadoop
Installation d'autres composants (Hive, Pig, HBase, Flume...)
Quelques différences entre les distributions Cloudera, Hortonworks et MapR

Gestion d'un cluster Hadoop

Gestion des nœuds du cluster Hadoop
Les TaskTracker, JobTracker pour MapReduce
Gestion des tâches via les schedulers
Gestion des logs
Utiliser un manager

Gestion des données dans HDFS

Import de données externes (fichiers, bases de données relationnelles) vers HDFS
Manipulation des fichiers HDFS

Configuration avancée

Gestion des autorisations et de la sécurité
Reprise sur échec d'un name node (MRV1)
NameNode high availability (MRV2/YARN)

Monitoring et optimisation Tuning

Monitoring (Ambari, Ganglia...)
Benchmarking/profiling d'un cluster
Les outils Apache GridMix, Vaaidya
Choisir la taille des blocs
Autres options de tuning (utilisation de la compression, configuration mémoire...)

Architecture Hadoop avec Spark

La philosophie de Spark par rapport à Hadoop
Les différentes associations Hadoop/Spark
Comparaison des performances
Différences concernant la reprise après incident

MapReduce Spark

Maîtriser le fonctionnement de MapReduce Spark
Configuration d’un nœud Hadoop pour le calcul MapReduce Spark
Introduction à Hadoop Streaming pour le prototypage rapide de MapReduce Spark
Écriture de MapReduce Spark pour la résolution de problèmes concrets

REMARQUES :
 

Il est possible de suivre cette formation Big Data à distance. Vous participez en temps réel à la même session en même temps que les autres participants présents eux en salle de cours. Un kit spécial formation à distance vous sera envoyé avec notamment le matériel (casque micro). Vous n’avez besoin que d’un navigateur et d’une connexion internet pour suivre dans les meilleures conditions ce cours à distance Big Data. Contactez-nous pour plus d’informations sur cette formation en direct de chez vous ou depuis votre bureau.

TRAVAUX PRATIQUES :
 

Les travaux pratiques portent sur les points suivants :
- Installation d’un cluster Hadoop
- Réglages de ses principaux composants
- Ajout de nœud au cluster
- Simulation de panne de noeud
- Gestion des jobs en production
- Importer des données vers le filesystem distribué HDFS
- Sécurisation du cluster
- Surveiller son cluster Hadoop en production
- Développement d’un traitement MapReduce avec Spark.

Les avis figurant ci-dessous sont issus des fiches d’évaluation que remplissent les participants à la fin de la formation. Ils sont ensuite publiés automatiquement si les personnes ont explicitement accepté que nous les diffusions. Avis des participants à la formation Big Data : Architecture et Infrastructure : Note moyenne : 5/5
5/5
Avis certifié A suivi un cours chez PLB

MR

Mon avis sur le contenu du stage :

"Beaucoup d'exemples intéressants issue de vrais situations métiers. Peut-être pas assez de Tp pratiques, mais plus liées au faite que bigdata est un sujet très vaste, amenant beaucoup de diggressions et questions, laissant moins de place au tp "

Mon avis sur la salle de formation :

"Materiel et software pret, salles propres"

S'INSCRIRE À CETTE
FORMATION BIG DATA ARCHITECTURE INFRASTRUCTURE
Cliquez sur une date pour vous inscrire
Information pratiques sur
LA FORMATION
Lieu de la formation Paris - LA DEFENSE
Nous contacter 01 43 34 90 94
CETTE FORMATION SUR-MESURE Ce cours est réalisable en intra-entreprise, dans vos locaux ou nos salles de cours CONTACTER NOTRE SERVICE INTRA
D'autres formations
SUR LE MÊME THÈME

4 j

 
L’objectif de cette formation est de vous rendre autonome dans l’analyse et la visualisation des données dans un contexte Big Data. Un premier rappel permet de replacer les...

1 j

 
La DataViz ou encore Data Visualisation ou enfin en français la visualisation des données regroupe les techniques permettant de comprendre plus facilement la signification des...

4 j

 
Cette formation vous présente les principales technologies concernant le développement d’applications Big Data. Elle forme un ensemble cohérent dans la mesure où,...

3 j

 
Cette formation Concevoir et piloter un projet Big Data vous permet de comprendre le contexte spécifique, le vocabulaire et les enjeux du Big Data afin de bien positionner les fondations...
Plus de formations sur le même thème

Des questions ?

ON VOUS RAPPELLE

Tampon du Fafiec indiquant que PLB Consultant est partenaire de ses actions collectives

Votre formation Big Data prise en charge à 100% ! *

Depuis Janvier 2017, le Fafiec a sélectionné PLB Consultant pour vous proposer les meilleures formations autour du Big Data.

Sessions inter-entreprise sur  Paris, Lyon et Lille. 

Sessions intra-entreprise sur  toute la France.

*100% des coûts pédagogiques, offre valable dans la limite des fonds mutualisés dédiés aux actions collectives, en application des critères de prise en charge en vigueur (voir conditions détaillées sur le site du FAFIEC)

 

0

Formations
Informatique
et Management
en ligne à ce jour

+ 0

Stagiaires dans nos
salles de cours sur
l'année

0%

De participants
satisfaits ou très
satisfaits de nos
formations

0

Formateurs experts
validés PLB