Formation Hadoop - Cloudera pour Data Analyst Préparer la certification Cloudera Certified Associate Data Analyst

Durée 4 jours
Niveau Intermédiaire
Classe à distance
Possible

Vous pouvez suivre cette formation en direct depuis votre domicile ou votre lieu de travail. Plus d'informations sur notre solution de classe à distance...

Référence HCDA
Éligible CPF Non
Cours officiel Cloudera
Certification Cloudera Certified Associate Data Analyst

Spécialisée dans l'exploitation de bases de données pouvant accumuler jusqu'à plusieurs pétaoctets, Cloudera se destine à la fois au Data Warehousing, à la gestion et à l'analyse de données, mais aussi à l'exploitation des données pour le Machine Learning. Depuis sa fusion avec Hortonworks, Cloudera a revu une bonne partie de son infrastructure en intégrant notamment une couche de sécurité et de gouvernance de la donnée généralisée via SDX (Shared Data Experience) ainsi que différents services Cloud.

Cette formation Hadoop Cloudera Data Analyst se destine aux professionnels de la données amenés à accéder, manipuler, transformer et analyser des ensembles de données complexes, en utilisant SQL et les langages de script les plus courants.

Durant cette formation pour Data Analyst, vous apprendrez à appliquer vos compétences d'analyse de données et de business intelligence  aux grands outils de données comme Apache Impala (en incubation) et Apache Hive.

Ensemble, Hive et Impala rendent les données multi-structurées accessibles aux analystes, aux administrateurs de base de données et à d'autres utilisateurs, sans nécessité de connaître la programmation Java.

Objectif opérationnel :

Savoir utiliser Cloudera en tant que Data Analyst pour accéder, manipueler, transformer et analyser des ensembles de données complexes.

Objectifs pédagogiques :

À l'issue de cette formation officielle Hadoop Cloudera Data Analyst, vous aurez acquis les connaissances et compétences nécessaires pour :

  • Acquérir, stocker et analyser des données à l'aide de Hive et Impala
  • Effectuer des tâches fondamentales d'ETL avec les outils Hadoop (extraire, transformer et charger) : ingestion et traitement avec Hadoop
  • Utiliser Hive et Impala pour améliorer la productivité sur les tâches d'analyse typiques
  • Relier des jeux de données de diverses provenances pour obtenir une meilleure connaissance commerciale
  • Effectuer des requêtes complexes sur les jeux de données

Public :

Ce cours officiel Hadoop Cloudera Data Analyst s'adresse aux analystes de données, spécialistes de la business intelligence, développeurs, architectes système et administrateurs de bases de données.

Prérequis :

Pour suivre cette formation Hadoop Cloudera Data Analyst, il est nécessaire de posséder des connaissances en SQL ainsi que des connaissances de base des lignes de commandes Linux. Il est recommandé également de connaître un langage de script comme Bash scripting, Perl, Python ou Ruby.

Jour 1

Les fondamentaux d'Hadoop

Pourquoi choisir Hadoop ?
Présentation d’Hadoop
Stockage de données : HDFS
Traitement des données distribuées : YARN, MapReduce et Spark
Traitement et analyse des données : Hive et Impala
Intégration de base de données : Sqoop
Les autres outils Hadoop
Présentation des exercices

Introduction à Hive et à Impala

Présentation de Hive
Présentation d'Impala
Pourquoi utiliser Hive et Impala ?
Schéma et stockage de données
Comparaison de Hive et Impala avec les bases de données traditionnelles
Cas d'utilisation

Requêtes avec Hive et Impala

Bases de données et tables
Syntaxe de base des langages de requête Hive et Impala
Types de données
Utilisation de Hue pour exécuter des requêtes
Utilisation de Beeline (Shell Hive)
Utilisation de Impala Shell

Jour 2

Les opérateurs communs et fonctions built-in

Opérateurs
Fonctions scalaires
Fonctions d'agrégation

Gestion des données avec Hive et Impala

Stockage de données
Création de bases de données et de tables
Chargement des données
Modification des bases de données et des tables
Simplification des requêtes au moyen de vues
Enregistrement des résultats de requêtes

Stockage de données et performances

Tables partitionnées
Chargement des données dans des tables partitionnées
Quand utiliser le partitionnement
Choisir un format de fichier
Utilisation des formats de fichier Avro et Parquet

Jour 3

Analyse relationnelle de données avec Hive et Impala

Jointure de jeux de données
Fonctions communes intégrées
Agrégation et fenêtrage

Les fonctions analytiques et le fenêtrage

Utiliser des fonctions analytiques
Autres fonctions analytiques
Fenêtres glissantes

Données complexes avec Hive et Impala

Données complexes avec Hive
Données complexes avec Impala

Analyse de texte avec Hive et Impala

Utilisation d'expressions régulières avec Hive et Impala
Traitement des données textuelles dans Hive avec des SerDes
Analyse de sentiment et n-grams

Jour 4

Optimisation de Hive

Comprendre les performances des requêtes
Bucketing
Indexation des données
4Hive sur Spark

Optimisation d'Impala

Exécution de requête avec Impala
Améliorer la performance d’Impala

Extension de Hive et d'Impala

SerDes et formats de fichier personnalisés dans Hive
Transformation de données avec des scripts personnalisés dans Hive
Fonctions définies par l'utilisateur
Requêtes paramétrées

Choisir le meilleur outil

Comparaison de Pig, Hive, Impala et des bases de données relationnelles
Critères de choix

Module optionnel (en fonction de l'avancement) : Apache Kudu

Qu’est-ce que Kudu
Les tables Kudu
Utiliser Impala avec Kudu

Les travaux pratiques représentent 80% du temps de formation.

Cette formation Hadoop Cloudera Data Analyst vous prépare à la certification Cloudera Certified Associate Data Analyst. Pour l'obtenir, vous devrez passer avec succès l'examen CCA Data Analyst (CCA159).

L'examen dure deux heures et comporte 8 à 12 questions basées sur des tâches à réaliser dans un cluster Cloudera d'entreprise. Un minimum de 70% de bonnes réponses est requis pour réussir l'examen. Il se déroule en langue anglaise uniquement.

L'examen n'est pas obligatoire et n'est pas compris dans le tarif de la formation.

Dates et lieux

Du 03 au 06 avril 2023
Lieu
Distanciel
Durée
4 jrs
2700 € HT
Du 13 au 16 novembre 2023
Lieu
Distanciel
Durée
4 jrs
2700 € HT


Formations Informatique
et Management
en ligne à ce jour

+
Stagiaires dans nos salles
de cours sur
l'année

%
De participants satisfaits
ou très satisfaits de nos
formations


Formateurs experts
validés par
PLB