Formation Hadoop - Développement Développement Hortonworks ou Cloudera

Durée 3 jours
Niveau Intermédiaire
Classe à distance
Possible

Vous pouvez suivre cette formation en direct depuis votre domicile ou votre lieu de travail. Plus d'informations sur notre solution de classe à distance...

Référence ODOP
Éligible CPF Non

La gestion des ensembles de données volumineux offre aux entreprises de toutes tailles de nouvelles opportunités et de nouveaux défis à relever. Au cours de cette formation Développement Hadoop, vous allez acquérir les compétences pratiques de programmation nécessaires pour développer des solutions compatibles avec la plateforme Hadoop d'Apache grâce auxquelles vous pourrez traiter efficacement différents types de Big Data.

Lors de cette formation, vous utiliserez plusieurs produits dédiés au Big Data, Apache Hadoop, MapReduce, le système de fichiers distribué Hadoop (HDFS), HBase, Hive et Pig. Vous étudierez aussi d'autres composants de l'écosystème dont l’apport du standard Spark dans le traitement des données.

Selon la session choisie, la distribution peut changer entre Cloudera et Hortonworks. Contactez notre service commercial pour connaître la solution choisie sur les sessions à venir.

Objectif opérationnel :

Savoir développer avec Hadoop des applications pour le traitement de gros volumes de données.

Objectifs pédagogiques :

À l'issue de cette formation Hadoop vous aurez acquis les connaissances et compétences nécessaires pour :

  • Identifier les fonctionnalités d’Hadoop et son écosystème
  • Développer des algorithmes parallèles efficaces avec MapReduce
  • Mettre en œuvre des tâches Hadoop pour extraire des éléments pertinents d'ensembles de données volumineux et variés et apporter ainsi de la valeur à votre entreprise
  • Développer des tâches parallèles MapReduce performantes
  • Charger des données en environnement HDFS et HBase (données non structurées)
  • Découvrir la puissance des traitements de données avec Spark

Public :

Ce cours Hadoop Développement s'adresse essentiellement aux chefs de projets, développeurs, data scientists et architectes amenés à développer des applications avec Hadoop dans un environnement Big Data. Il conviendra également aux ingénieurs ou à toute personne souhaitant comprendre les techniques de développement dans l'environnement Hadoop.

Prérequis :

Pour suivre cette formation Hadoop Développement dans les meilleures conditions possibles, il est recommandé d’avoir une bonne connaissance d'un langage de programmation objet (Java, C#, Python, etc.) et du scripting.

Jour 1

Introduction

Définir les fonctionnalités du framework Hadoop et son écosystème 
Identifier le projet et les modules : Hadoop Common, HDFS, YARN, MapReduce
Utilisation de Yarn pour piloter les jobs mapreduce

MapReduce

Déterminer le principe et objectifs du modèle de programmation MapReduce
Données structurées et non-structurées
Utiliser les fonctions map() et reduce().
Couples (clés, valeurs).
Implémentation par le framework Hadoop.
Étude d'exemples
Travaux PratiquesRédaction d'un premier programme et exécution avec Hadoop

Programmation

Configuration des jobs, notion de configuration.
Identifier les interfaces principales : mapper, reducer,
Importance de la configuration HDFS sur le découpage en blocs et les mappers
La chaîne de production : entrées, input splits, mapper, combiner, shuffle/sort, reducer, sortie.
Gérer le partitionnement des données afin d’équilibrer la charge sur un cluster..
Format des entrées et sorties d'un job MapReduce : InputFormat et OutputFormat.
Travaux PratiquesType personnalisés : création d'un writable spécifique. Utilisation. Contraintes.Jour 2

Outils complémentaires

Paramétrage d'un job : ToolRunner, transmission de propriétés.
Accès à des systèmes externes : S3, hdfs, har, ...
Configuration des sorties vers une unité de persistance
Travaux PratiquesRépartition du job sur la ferme au travers de yarn.

Streaming

Définir le streaming map/reduce.
Échantillonnage de données.
Définition de fenêtre temporelle en regard des données consommées.
Liaisons avec des systèmes externes.
Travaux PratiquesSuivi d'un job en streaming

HBase

Présentation des différentes interfaces disponibles
Commandes de base, syntaxe, variables, manipulation des données : create, list, put, scan, get
Désactiver une table ou l'effacer : disable (enable), drop, ...
Programmation de scripts (shell proposé par Hbase)
Gestion des tables : principe des filtres
Mise en œuvre de filtres de recherche, paramètres des tables
Présentation des espaces de nommage
Travaux PratiquesUtilisation de données structurée avec HBase en Map/Reduce. 
Traitement de données depuis un datalake vers un datalab
Jour 3

Hive

Simplification du requêtage.
Syntaxe de base.
Définition d’un mapping de données issus de HBase afin de requêter en SQL
Charger et stocker les données efficacement avec SerDes
Concevoir la disposition des données pour la performance
Automatisation de requêtes sur un flux de données
Travaux PratiquesCréation de tables. Ecriture de requêtes HiveQL.
Extraire des données en SQL avec utilisation de fonctions définies par l’utilisateur.

Introduction à Spark

Programmation de haut niveau pour le Big Data : RDD
Standard de fait : pour son approche SQL : DataFrame
Echantillonnage de données ou streaming structuré
Big Data sur les graphes : Page ranking
Machine Learning à partir de données structurées (Spark ML)
Travaux PratiquesExploitation de données CSV par une interprétation SQL Big Data
Date de mise à jour du programme : 03/04/2023

Dates et lieux

1
2
Du 24 au 26 avril 2024
Lieu
Distanciel
Durée
3 jrs
2400 € HT
Du 24 au 26 avril 2024
Lieu
Paris
Durée
3 jrs
2400 € HT
Du 29 au 31 mai 2024
Lieu
Distanciel
Durée
3 jrs
2400 € HT
Du 29 au 31 mai 2024
Lieu
Paris
Durée
3 jrs
2400 € HT
Du 26 au 28 juin 2024
Lieu
Distanciel
Durée
3 jrs
2400 € HT
Du 26 au 28 juin 2024
Lieu
Paris
Durée
3 jrs
2400 € HT
Du 31 juillet au 02 août 2024
Lieu
Distanciel
Durée
3 jrs
2400 € HT
Du 31 juillet au 02 août 2024
Lieu
Paris
Durée
3 jrs
2400 € HT
Du 25 au 27 septembre 2024
Lieu
Distanciel
Durée
3 jrs
2400 € HT
Du 25 au 27 septembre 2024
Lieu
Paris
Durée
3 jrs
2400 € HT
1
2

Logo partenaire action collective de l'OPCO Atlas Votre formation Hadoop prise en charge jusqu'à 100% des coûts pédagogiques ! *

Depuis 2011, PLB Consultant est partenaire des Actions Collectives Atlas pour vous proposer les meilleures formations informatique et développer vos compétences dans le Numérique :

- En présentiel dans l’une de nos salles en Régions     
- À distance depuis votre bureau     
- Sessions intra-entreprise dans toute la France.

* jusqu'à 100% des coûts pédagogiques selon votre branche d'activité dans la limite des fonds mutualisés dédiés aux actions collectives et en application des critères de prise en charge en vigueur (cf conditions détaillées sur le site d'Atlas)


Formations Informatique
et Management
en ligne à ce jour

+
Stagiaires dans nos salles
de cours sur
l'année

%
De participants satisfaits
ou très satisfaits de nos
formations


Formateurs experts
validés par
PLB