Formation Développer des applications pour Apache Spark avec Python ou Scala Formation Hadoop officielle Hortonworks "HDP Developer: Enterprise Apache Spark"

5 sur 5 étoiles

5 étoiles
100%
4 étoiles
0%
3 étoiles
0%
2 étoiles
0%
1 étoile
0%
Voir les 2 avis
(2 avis)
Durée 4 jours
Niveau Intermédiaire
Classe à distance
Possible

Vous pouvez suivre cette formation en direct depuis votre domicile ou votre lieu de travail. Plus d'informations sur notre solution de classe à distance...

Référence ODAP
Cours officiel Hortonworks

Le framework de programmation Spark se démarque de MapReduce d’Hadoop par sa simplicité et ses temps d’exécution jusqu’à 100 fois plus courts. Les développeurs disposent ainsi d'un moyen pour écrire simplement des applications distribuées complexes débouchant sur des décisions plus judicieuses et plus rapides, à des actions en temps réel, dans une grande variété de cas d’utilisations, d’architecture et de secteurs d’activités.

À l'issue de cette formation Apache Spark avec Python ou Scala, les participants auront acquis les connaissances et les compétences nécessaires pour :

  • Identifier et définir les différents composants de l’écosystème Hadoop
  • Appréhender le fonctionnement de Spark
  • Développer des applications avec Apache Spark
  • Optimiser une application Spark
  • Utiliser Spark SQL et les dataframes
  • Faire de l’analyse en temps réel avec Spark streaming
  • Découvrir MLLib pour du machine learning sur Spark
  • Explorer, manipuler et visualiser vos données avec Zeppelin.

Public :

Ce stage s'adresse aux développeurs d'applications avec des contraintes temps réel, ingénieurs d’études, architectes techniques et aux chefs de projets techniques.

Prérequis :

Afin de suivre ce stage il est nécessaire que les participants aient : 

  • Des connaissances de base en programmation ou en scripting (Python/Scala)
  • Une expérience basique en ligne de commande

De plus, il est recommandé d'avoir des connaissances en SQL et en conception d'application temps réel. Aucune connaissance sur Hadoop n’est requise.

Introduction à Hadoop, Hortonworks et au Big Data

Cas d’usage pour Hadoop
Qu’est-ce que le Big Data ?
HDP, Hortonworks et l’écosystème Hadoop
Pourquoi utiliser Hortonworks ?

Introduction à Apache Spark

Qu’est-ce que Spark et d’où vient-il ?
Pourquoi utiliser Spark ?
Spark vs MapReduce
L’évolution rapide de Spark et l’engagement d’Hortonworks

Programmer avec Apache Spark

Les composants de Spark
Premiers pas avec Spark
Les RDD
Transformations et actions
Spark Hello World (wordcount)
Lazy evaluation

Travaux Pratiques :

Assurer ses premiers pas avec Apache Spark

Vue d’ensemble de HDFS et YARN

Vue d’ensemble de HDFS
Le Namenode et le Datanode
Vue d’ensemble de YARN
Composants cœur de YARN

Travaux Pratiques :

Utiliser les commandes HDFS

Programmation RDD avancée

D’autres fonctions de RDD "cœur"
Fonctions de RDD paires
Utiliser la documentation de Spark

Travaux Pratiques :

Utiliser le stockage HDFS

Programmation parallèle avec Spark

Partitionnement, jobs, stage et tasks
L’UI de Spark
Changer le niveau de parrallélisation

Travaux Pratiques :

Programmation parallèle sur Spark

Cacher et persister la donnée

Cache et persistance

Travaux Pratiques :

Cacher et persister la donnée

Exemple d’application itérative : PageRank
Checkpointing

Travaux Pratiques :

Checkpointing et RDD lineage

Créer des applications Spark

Créer une application à soumettre au cluster
Soumettre une application au cluster
Yarn client vs Yarn cluster
Points importants de configuration
Gérer/packager les dépendances

Travaux Pratiques :

Créer une application Spark standalone

Fonctionnalités avancées et amélioration des performances

Accumulateurs

Travaux Pratiques :

Utiliser les accumulateurs pour vérifier la qualité des données

Variables « broadcast »

Travaux Pratiques :

Utiliser les variables broadcast

Partitionnement avancé et opérations
Point de départ pour l’optimisation

Travailler vos données avec Zeppelin

L'exploration de données en Spark avec Zeppelin
Visualisation de données avec Zeppelin
Faire du reporting avec Zeppelin

Spark SQL

Les concepts de Spark SQL
Créer une Dataframe
Sauvegarder une Dataframe
Spark SQL et UDF

Travaux Pratiques :

Spark SQL avec utilisation d’UDF
Spark SQL avec Hive

Spark Streaming

L’architecture de Spark Streaming
Vue d’ensemble de Spark Streaming
Fiabilité des récepteurs et des sources
Transformations et opérations de sorties

Travaux Pratiques :

Wordcount en Spark Streaming

Configurer le checkpointing

Spark  MLLib

Vue d’ensemble de MLLib
Apprentissage supervisé
Apprentissage non supervisé

Les apports théoriques sont complétés par des travaux pratiques, des mises en situation, des échanges sur les contextes des participants et des retours d’expérience du formateur. 

Avis des participants à la formation Développer des applications pour Apache Spark avec Python ou Scala

Note moyenne de 5/5(2)

Les avis figurant ci-dessous sont issus des fiches d’évaluation que remplissent les participants à la fin de la formation. Ils sont ensuite publiés automatiquement si les personnes ont explicitement accepté que nous les diffusions.

LV
5/5

Mon avis sur le contenu du stage :

"Programme très complet"

Mon avis sur le formateur :

"Bonne pédagogie"

SBOUI Sirine
5/5

Mon avis sur le contenu du stage :

"une formation riche et variée "

Mon avis sur le formateur :

"un prof très généreux en info , compétent et sympa. "

Mon avis sur la salle de formation :

"La personne à l’accueil est souriante. J'aime bien ..."

Ce que j'ai le plus apprécié :

"un nombre réduit de participant "


Formations Informatique
et Management
en ligne à ce jour

+
Stagiaires dans nos salles
de cours sur
l'année

%
De participants satisfaits
ou très satisfaits de nos
formations


Formateurs experts
validés par
PLB