Formation Hadoop - HBase, mise en Å“uvre et administration

Durée 2 jours
Niveau Intermédiaire
Classe à distance
Possible

Vous pouvez suivre cette formation en direct depuis votre domicile ou votre lieu de travail. Plus d'informations sur notre solution de classe à distance...

Référence HBASE
Éligible CPF Non

HBase est un SGBD non relationnel capable de gérer de très gros volumes de données grâce au système de fichiers distribués HDFS (Hadoop Distributed Filesystem) sur lequel il repose. La formation démarre par une présentation de Hadoop et de la place de Hbase dans cet éco-système. Puis nous présentons l’architecture générale de Hbase et son mécanisme de cluster pour permettre le stockage distribué et performant des données. Ensuite vous installez Hbase dans une démarche pédagogique pour prendre en main votre environnement.

La présentation du shell de Hbase permet d’être plus autonome et efficace dans le dépannage de Hbase au quotidien. En effet, le rôle de création des bases et de leur remplissage est plus souvent effectué par programmation que par script et jamais en interactif. Mais cependant, l’interactivité du shell est un grand allié pédagogique car on obtient « tout de suite » la réponse à sa question et on peut avancer pas à pas. Nous lui consacrons donc une part importante dans la formation. Dans le chapitre dédié à la programmation autour de HBase nous vous guidons afin que tous les participants, développeurs ou non, comprennent comment HBase est exploité réellement en production.

Objectif opérationnel :

Savoir mettre en place une configuration distribuée avec HBase.

Objectifs pédagogiques :

À l'issue de cette formation Hadoop HBase, vous aurez acquis les connaissances et compétences nécessaires pour :

  • Positionner Hbase dans l’écosystème Hadoop
  • Comprendre l’architecture et le fonctionnement de HBase
  • Identifier les avantages de HBase pour le stockage distribué des données
  • Savoir dialoguer avec un système Hbase (shell)
  • Mettre en place un cluster Hbase en mode distribué
  • Comprendre comment Hbase est utilisé en production par les applications

Public :

Ce cours Hadoop HBase s'adresse en priorité aux chefs de projets, administrateurs ou développeurs.
Elle convient également à toute personne participant à un projet technique autour de Hbase.

Prérequis :

Pour suivre cette formation Hadoop HBase il est recommandé de connaitre les bases de Hadoop et des bases de données (requête SQL basique par exemple). Il n’est pas nécessaire de connaître la programmation pour le dernier chapitre car les exemples de code applicatif sont mis à disposition par le formateur.

Jour 1

Introduction à Hadoop et à Hbase

Les fonctionnalités du Framework Hadoop
Le projet et les modules : Hadoop Common, HDFS, YARN, Spark, MapReduce
Fonctionnalités : failover automatique, sharding
Hbase dans l’écosystème Hadoop
Différences logiques entre Hbase et un SGBDR 
Différences physiques avec un SGBDR (rôle de HDFS)
Précisions sur le vocabulaire et les concepts HBase (table, région, ligne, famille de colonnes, cellules…)
Travaux pratiquesCréation d’un modèle de données Hbase pour comprendre la vision de l’utilisateur sous forme de lignes et de colonnes dans un univers « sans schéma ».

Architecture Hbase et clusters

Vue générale des différents types de serveurs
Fournir des données pour les lectures/écritures aux clients (Region Servers)
Gérer l’affectation des régions et les opérations de création et suppression de tables (HBase Hmaster)
Maintenir le cluster en l’état (Zookeeper)
Fonctionnement indépendant des démons (HMaster, HRegionServer, Zookeeper)
Fonctionnement du stockage basé sur HDFS
Passage au mode distribué : mise en œuvre avec HDFS dans un environnement distribué
Rôles et structure des fichiers HFiles (table, famille de colonne, colonne, row key)
Rôles des DataNode et NameNode
Travaux pratiquesQuiz sur le rôle des différents composants d’une architecture Hbase en cluster
Création de plusieurs environnements différents en cluster 
Mise en œuvre des splits sur un exemple de tables réparties.

Installation

Choix des packages.
Installation et configuration dans le fichier conf/hbase-site.xml
Démarrage en mode standalone start-hbase.
Test de connexion avec hbase shell.
Installation en mode distribué.
Les configurations pré-installées sur Hadoop
Les distributions Hbase dans le Cloud
Travaux pratiquesCe TP a un intérêt pédagogique pour bien comprendre le contenu et le fonctionnement de Hbase car au quotidien on utilise souvent des distributions qui proposent un environnement pré-installé (comme Hadoop) ou encore une version Cloud de Hbase proposée par les principaux acteurs (Azure, AWS, GCP). 
Installation et test de connexion. Observations des différents fichiers générés. Visualisation des démons Hadoop et Hbase démarrés pour comprendre leur complémentarité. Visite de Hbase dans Azure (HDInsight Hbase) pour comprendre les points communs entre les différents packagings de Hbase sur le marché (et les différences ou non au niveau utilisateur).
Jour 2

HBase utilisation : shell

Présentation des différentes interfaces disponibles.
Commandes de base, syntaxe, variables
Prendre en main l’aide
Gestion des autorisations (grant,list_security_capabilities,revoke,user_permission)
Manipulation des données : create, list, put, scan, get
Commandes sur les tables (disponibilité, existence, liste, suppression, etc.)
Principe des filtres
Mise en œuvre de filtres de recherche, paramètres des tables.
Présentation des espaces de nommage.
Synthèse sur les commandes générales (voir les bases, informations sur les grappes)
Synthèse sur les commandes d’espaces de nom
Programmation par scripts.
Travaux pratiquesManipulation des données par shellscript (création automatique de tables dans un espace de noms, familles de colonnes associées, insertion d’un gros volume de données, vérification de nos actions via des requêtes d’informations)
Recherche de données dans notre base 
Surveillance de Hbase en production : les commandes pour constituer un tableau de bord d’exploitation

Programmation autour de Hbase

Concepts d’API
Utilisation de Hbase par un langage tiers (Java, C#, Python, etc.)
Chargement de fichiers pour remplir une base Hbase
Lien avec MapReduce.
Présentation rapide de Spark
Traitements avec Spark sur des données Hbase
Travaux pratiquesIl n’est pas nécessaire de connaître Java pour ce TP c’est surtout le concept d’ouverture de Hbase vers les applications que nous souhaitons montrer ici. Les programmes sont fournis aux participants.
Chargement d’un fichier au format tsv dans notre base Hbase puis déclenchement d’un traitement MapReduce.
TP guidé pour utiliser Spark afin de compter le nombre d’élément présent en base et de calculer des sommes de ventes de produits. L’objectif est de montrer que Spark peut être utilisé pour réaliser des traitements complexes sur les données de HBase (traitements parallèles directement là où les données sont stockées dans notre exemple).
Date de mise à jour du programme : 22/02/2024

Dates et lieux

Du 20 au 21 mars 2025
Lieu
Distanciel
Durée
2 jrs
1590 € HT
Du 20 au 21 mars 2025
Lieu
Paris
Durée
2 jrs
1590 € HT
Du 19 au 20 juin 2025
Lieu
Distanciel
Durée
2 jrs
1590 € HT
Du 19 au 20 juin 2025
Lieu
Paris
Durée
2 jrs
1590 € HT
Du 18 au 19 septembre 2025
Lieu
Distanciel
Durée
2 jrs
1590 € HT
Du 18 au 19 septembre 2025
Lieu
Paris
Durée
2 jrs
1590 € HT
Du 18 au 19 décembre 2025
Lieu
Distanciel
Durée
2 jrs
1590 € HT
Du 18 au 19 décembre 2025
Lieu
Paris
Durée
2 jrs
1590 € HT

Logo partenaire action collective de l'OPCO Atlas Votre formation HBase prise en charge jusqu'à 100% des coûts pédagogiques ! *

Depuis 2011, PLB Consultant est partenaire des Actions Collectives Atlas pour vous proposer les meilleures formations informatique et développer vos compétences dans le Numérique :

- En présentiel dans l’une de nos salles en Régions   
- Ã€ distance depuis votre bureau   
- Sessions intra-entreprise dans toute la France.

* jusqu'à 100% des coûts pédagogiques selon votre branche d'activité dans la limite des fonds mutualisés dédiés aux actions collectives et en application des critères de prise en charge en vigueur (cf conditions détaillées sur le site d'Atlas)

Ces formations peuvent aussi vous intéresser :

  • Niveau : Intermédiaire
  • Référence : OHAD

  • Niveau : Intermédiaire
  • Référence : OADC

Traiter et gérer des données de formats et de sources multiples

  • Niveau : Intermédiaire
  • Référence : BPDS

Bien comprendre le vocabulaire et le rôle de chaque brique de Hadoop

  • Niveau : Fondamental
  • Référence : CB030


Formations Informatique
et Management
en ligne à ce jour

+
Stagiaires dans nos salles
de cours sur
l'année

%
De participants satisfaits
ou très satisfaits de nos
formations


Formateurs experts
validés par
PLB