- Référence : HCDA
- Durée : 4 jours (28h)
- Lieu : Au choix. À distance ou en présentiel, à Paris ou en Régions
2700€ HT
Choisir une date et RéserverVous pouvez suivre cette formation en direct depuis votre domicile ou votre lieu de travail. Plus d'informations sur notre solution de classe à distance...
Spécialisée dans l'exploitation de bases de données pouvant accumuler jusqu'à plusieurs pétaoctets, Cloudera se destine à la fois au Data Warehousing, à la gestion et à l'analyse de données, mais aussi à l'exploitation des données pour le Machine Learning. Depuis sa fusion avec Hortonworks, Cloudera a revu une bonne partie de son infrastructure en intégrant notamment une couche de sécurité et de gouvernance de la donnée généralisée via SDX (Shared Data Experience) ainsi que différents services Cloud.
Cette formation Hadoop Cloudera Data Analyst se destine aux professionnels de la données amenés à accéder, manipuler, transformer et analyser des ensembles de données complexes, en utilisant SQL et les langages de script les plus courants.
Durant cette formation pour Data Analyst, vous apprendrez à appliquer vos compétences d'analyse de données et de business intelligence aux grands outils de données comme Apache Impala (en incubation) et Apache Hive.
Ensemble, Hive et Impala rendent les données multi-structurées accessibles aux analystes, aux administrateurs de base de données et à d'autres utilisateurs, sans nécessité de connaître la programmation Java.
Objectif opérationnel :
Savoir utiliser Cloudera en tant que Data Analyst pour accéder, manipueler, transformer et analyser des ensembles de données complexes.
Objectifs pédagogiques :
À l'issue de cette formation officielle Hadoop Cloudera Data Analyst, vous aurez acquis les connaissances et compétences nécessaires pour :
Public :
Ce cours officiel Hadoop Cloudera Data Analyst s'adresse aux analystes de données, spécialistes de la business intelligence, développeurs, architectes système et administrateurs de bases de données.
Prérequis :
Pour suivre cette formation Hadoop Cloudera Data Analyst, il est nécessaire de posséder des connaissances en SQL ainsi que des connaissances de base des lignes de commandes Linux. Il est recommandé également de connaître un langage de script comme Bash scripting, Perl, Python ou Ruby.
Jour 1
Pourquoi choisir Hadoop ?
Présentation d’Hadoop
Stockage de données : HDFS
Traitement des données distribuées : YARN, MapReduce et Spark
Traitement et analyse des données : Hive et Impala
Intégration de base de données : Sqoop
Les autres outils Hadoop
Présentation des exercices
Présentation de Hive
Présentation d'Impala
Pourquoi utiliser Hive et Impala ?
Schéma et stockage de données
Comparaison de Hive et Impala avec les bases de données traditionnelles
Cas d'utilisation
Bases de données et tables
Syntaxe de base des langages de requête Hive et Impala
Types de données
Utilisation de Hue pour exécuter des requêtes
Utilisation de Beeline (Shell Hive)
Utilisation de Impala Shell
Jour 2
Opérateurs
Fonctions scalaires
Fonctions d'agrégation
Stockage de données
Création de bases de données et de tables
Chargement des données
Modification des bases de données et des tables
Simplification des requêtes au moyen de vues
Enregistrement des résultats de requêtes
Tables partitionnées
Chargement des données dans des tables partitionnées
Quand utiliser le partitionnement
Choisir un format de fichier
Utilisation des formats de fichier Avro et Parquet
Jour 3
Jointure de jeux de données
Fonctions communes intégrées
Agrégation et fenêtrage
Utiliser des fonctions analytiques
Autres fonctions analytiques
Fenêtres glissantes
Données complexes avec Hive
Données complexes avec Impala
Utilisation d'expressions régulières avec Hive et Impala
Traitement des données textuelles dans Hive avec des SerDes
Analyse de sentiment et n-grams
Jour 4
Comprendre les performances des requêtes
Bucketing
Indexation des données
4Hive sur Spark
Exécution de requête avec Impala
Améliorer la performance d’Impala
SerDes et formats de fichier personnalisés dans Hive
Transformation de données avec des scripts personnalisés dans Hive
Fonctions définies par l'utilisateur
Requêtes paramétrées
Comparaison de Pig, Hive, Impala et des bases de données relationnelles
Critères de choix
Qu’est-ce que Kudu
Les tables Kudu
Utiliser Impala avec Kudu
Les travaux pratiques représentent 80% du temps de formation.
Cette formation Hadoop Cloudera Data Analyst vous prépare à la certification Cloudera Certified Associate Data Analyst. Pour l'obtenir, vous devrez passer avec succès l'examen CCA Data Analyst (CCA159).
L'examen dure deux heures et comporte 8 à 12 questions basées sur des tâches à réaliser dans un cluster Cloudera d'entreprise. Un minimum de 70% de bonnes réponses est requis pour réussir l'examen. Il se déroule en langue anglaise uniquement.
L'examen n'est pas obligatoire et n'est pas compris dans le tarif de la formation.
Formations Informatique
et Management
en ligne à ce jour
+
Stagiaires dans nos salles
de cours sur
l'année
%
De participants satisfaits
ou très satisfaits de nos
formations
Formateurs experts
validés par
PLB