- Référence : BPDS
- Durée : 2 jours (14h)
- Lieu : Au choix. À distance ou en présentiel, à Paris ou en Régions
En intra
Vous pouvez suivre cette formation en direct depuis votre domicile ou votre lieu de travail. Plus d'informations sur notre solution de classe à distance...
Intégré à la suite Hadoop, Pig est une plate-forme de haut niveau permettant la programmation parallèle de tâches MapReduce tournant dans un cluster Hadoop. Utilisé le plus souvent pour charger des données via des fichiers HDFS ou pour gérer des échanges de données entre des applications tierces, Pig pour le big data comprend deux éléments-clé : un compilateur et un langage de script nommé Pig Latin.
Durant cette formation Développement de scripts avec Apache Pig vous comprendrez le fonctionnement de Pig, vous saurez développer des requêtes avec Pig Latin pour effectuer des transformations sur les données et des analyses de données. Pour finir vous saurez intégrer des données de différents formats.
Objectif opérationnel :
Savoir développer des scrpits à l'aide d'Apache Pig.
Objectifs pédagogiques :
À l'issue de cette formation Développement de scripts avec Apache Pig vous aurez acquis les connaissances et les compétences nécessaires pour :
Public :
Cette formation Pig pour le développement de scripts s'adresse aux chefs de projet, aux data scientists et aux développeurs souhaitant utiliser Pig pour l'analyse de données.
Prérequis :
Des connaissances en langage Java ou Python, des bases Hadoop et des notions de calculs statistiques sont nécessaires pour suivre ce cours.
Le projet Apache Pig, fonctionnalités, versions
Présentation de Pig dans l'écosystème Hadoop
Chaîne de fonctionnement
Comparatif avec l'approche Hive ou Spark
Rappels sur les commandes HDFS
Prérequis techniques, configuration de Pig
Travaux pratiques
Exécution : les différents modes : interactif ou batch
Principe de l'exécution de scripts Pig Latin avec Grunt
Modèles de données avec Pig
Intégration Pig avec MapReduce
Les requêtes Latin : chargement de données, instructions
Ordres de bases : LOAD, FOREACH, FILTER, STORE
Travaux pratiques
Création d'un ETL de base
Contrôle d'exécution
Groupements, jointures, tris, produits cartésiens
Transformation de base de la donnée
Découpages
Découpages sur filtres
Echantillonages
Filtres
Rangements avec rank et dense
Calculs : min/max, sommes, moyennes...
Travaux pratiques
Traitements de chaînes de caractères
Traitement de dates
Formats d'entrées/sorties
Interfaçage avro, json
Travaux pratiques
Chargement de données depuis HDFS vers HBase
Analyse de données Pig/Hbase
Restitution Json
Extension du Pig Latin
Création de fonctions UDF en Java
Intégration dans les scripts Pig
Travaux pratiques
Utilisation de Pig Latin depuis des programmes Python
Execution de programmes externes, streaming
Bien comprendre le vocabulaire et le rôle de chaque brique de Hadoop
Les Distributions Hadoop Data Analyst - Analyse de données en environnement Hadoop
Développement Hortonworks ou Cloudera
Formations Informatique
et Management
en ligne à ce jour
+
Stagiaires dans nos salles
de cours sur
l'année
%
De participants satisfaits
ou très satisfaits de nos
formations
Formateurs experts
validés par
PLB