Formation Talend pour le Big Data Maîtriser Talend dans un environnement Big Data

Durée 3 jours
Niveau Intermédiaire
Classe à distance
Possible

Vous pouvez suivre cette formation en direct depuis votre domicile ou votre lieu de travail. Plus d'informations sur notre solution de classe à distance...

Référence OTBD

Considéré comme un pionnier de l'open source dans l'univers de la business intelligence, Talend (Talend Open Studio for Big Data) s'est également progressivement imposé comme une référence dans le Big Data. Tirant partie des bases de données cloud (Hadoop, NoSQL), Talend pour le Big Data s'appuie par ailleurs sur les modules Hadoop (HDFS, Hive, Pig) et sur de nombreux connecteurs cloud (AWS, GCP, Azure) afin de proposer de la gestion de fichiers, de l'orchestration des flux de données, de l'importation et chargement vers un data lake et naturellement les fonctionnalités ETL et ELT.

Objectifs opérationnels

Maîtriser Talend dans un environnement Big Data.

Objectifs pédagogiques

À l'issue de cette formation Talend pour le Big Data, vous aurez acquis les connaissances et compétences nécessaires pour :

  • Maîtriser Talend dans un environnement Big Data
  • Lire et écrire des données en HDFS
  • Travailler avec les tables
  • Traiter l'analyse comportementale
  • Traiter les logs

Public :

Ce cours Talend pour le Big Data s'adresse aux consultants BI, architectes SI et chefs de projets.

Prérequis :

Pour faciliter le déroulement de cette formation Talend pour le Big Data, il est souhaitable que les participants disposent de connaissances préalables sur Hadoop, Spark et Kafka.

Concepts de bases

Ouvrir un projet
Monitorer un cluster Hadoop
Créer un cluster de métadonnées

Lire et écrire des données en HDFS

Stocker un fichier sur HDFS
Stocker plusieurs fichiers de HDFS
Lire les données de HDFS
Utiliser HBase pour sauvegarder les données charger dans HDFS

Travailler avec les tables

Importation de tables avec Sqoop
Création de tables dans HDFS avec Hive

Traitement des données et des tables en HDFS

Traitement des tables Hive avec des jobs
Traitement des données avec Pig
Traitement des données par lots

Guide de dépannage

Dépannage de votre cluster

Cas d'utilisation de clickstream (flux de clics)

Surveillance du cluster Hadoop
Créer un environnement de développement
Chargement des données dans HDFS
Enrichissement des logs
Calculer les statistiques
Conversion d'un job standard en un lot Big Data
Comprendre les jobs MapReduce
Utilisation du studio pour configurer les resource requests vers YARN

Cas d'utilisation : l'analyse comportementale

Chargement du dictionnaire et des données du fuseau horaire dans HDFS
Chargement des tweets dans HDFS
Traitement des tweets avec MapReduce
Planification de l'exécution du job

Introduction à Kafka

Surveillance du cluster Hadoop
Comprendre les bases de Kafka
Publication de messages sur un sujet Kafka
Consommer des messages

Introduction à Spark

Comprendre les bases de Spark
Analyser les données des clients
Produire et consommer des messages en temps réel

Cas d'utilisation de traitement des logs : génération des logs enrichis

Introduction au cas d'utilisation du traitement des lois
Génération de logs bruts
Génération de logs enrichis

Traitement des logs cas d'utilisation : surveillance

Surveillance des logs enrichis

Cas d'utilisation de traitement des logs : rapports

Génération de rapports basés sur les fenêtres de données

Cas d'utilisation de traitement des logs : analyse des batchs

Ingestion de flux de données
Analyser les logs avec un batch job


Formations Informatique
et Management
en ligne à ce jour

+
Stagiaires dans nos salles
de cours sur
l'année

%
De participants satisfaits
ou très satisfaits de nos
formations


Formateurs experts
validés par
PLB