Formation Pig : Développement de scripts avec Apache Pig Traiter et gérer des données de formats et de sources multiples

Durée 2 jours
Niveau Intermédiaire
Classe à distance
Possible

Vous pouvez suivre cette formation en direct depuis votre domicile ou votre lieu de travail. Plus d'informations sur notre solution de classe à distance...

Référence BPDS
Éligible CPF Non

Intégré à la suite Hadoop, Pig est une plate-forme de haut niveau permettant la programmation parallèle de tâches MapReduce tournant dans un cluster Hadoop. Utilisé le plus souvent pour charger des données via des fichiers HDFS ou pour gérer des échanges de données entre des applications tierces, Pig pour le big data comprend deux éléments-clé : un compilateur et un langage de script nommé Pig Latin.

Durant cette formation Développement de scripts avec Apache Pig vous comprendrez le fonctionnement de Pig, vous saurez développer des requêtes avec Pig Latin pour effectuer des transformations sur les données et des analyses de données. Pour finir vous saurez intégrer des données de différents formats.

Objectif opérationnel : 

Savoir développer des scrpits à l'aide d'Apache Pig. 

Objectifs pédagogiques : 

À l'issue de cette formation Développement de scripts avec Apache Pig vous aurez acquis les connaissances et les compétences nécessaires pour :

  • Comprendre le fonctionnement de Pig
  • Développer des requêtes en avec Pig Latin pour effectuer des transformations sur les données et des analyses de données
  • Intégrer des données de différents formats

Public :

Cette formation Pig pour le développement de scripts s'adresse aux chefs de projet, aux data scientists et aux développeurs souhaitant utiliser Pig pour l'analyse de données.

Prérequis :

Des connaissances en langage Java ou Python, des bases Hadoop et des notions de calculs statistiques sont nécessaires pour suivre ce cours.

Introduction à Apache Pig

Le projet Apache Pig, fonctionnalités, versions
Présentation de Pig dans l'écosystème Hadoop
Chaîne de fonctionnement
Comparatif avec l'approche Hive ou Spark

Mise en œuvre de Pig

Rappels sur les commandes HDFS
Prérequis techniques, configuration de Pig

Travaux pratiques

Exécution : les différents modes : interactif ou batch
Principe de l'exécution de scripts Pig Latin avec Grunt

Base Pig Latin

Modèles de données avec Pig
Intégration Pig avec MapReduce
Les requêtes Latin : chargement de données, instructions
Ordres de bases : LOAD, FOREACH, FILTER, STORE

Travaux pratiques

Création d'un ETL de base
Contrôle d'exécution

Transformation des données via des opérations de filtre avec Pig Latin

Groupements, jointures, tris, produits cartésiens
Transformation de base de la donnée
Découpages
Découpages sur filtres

Analyse de la donnée

Echantillonages
Filtres
Rangements avec rank et dense
Calculs : min/max, sommes, moyennes...

Travaux pratiques

Traitements de chaînes de caractères
Traitement de dates

Intégration

Formats d'entrées/sorties
Interfaçage avro, json

Travaux pratiques

Chargement de données depuis HDFS vers HBase
Analyse de données Pig/Hbase
Restitution Json

Extensions du Pig Latin

Extension du Pig Latin
Création de fonctions UDF en Java
Intégration dans les scripts Pig

Travaux pratiques

Utilisation de Pig Latin depuis des programmes Python
Execution de programmes externes, streaming

Date de mise à jour du programme : 16/10/2020

Dates et lieux

Aucune session programmée actuellement.


Formations Informatique
et Management
en ligne à ce jour

+
Stagiaires dans nos salles
de cours sur
l'année

%
De participants satisfaits
ou très satisfaits de nos
formations


Formateurs experts
validés par
PLB