- Référence : ODAP
- Durée : 4 jours (28h)
- Lieu : Au choix. À distance ou en présentiel, à Paris ou en Régions
3550€ HT
Choisir une date et Réserver4.6 sur 5 étoiles
Vous pouvez suivre cette formation en direct depuis votre domicile ou votre lieu de travail. Plus d'informations sur notre solution de classe à distance...
Le framework de programmation Spark se démarque de MapReduce d’Hadoop par sa simplicité et ses temps d’exécution jusqu’à 100 fois plus courts. Les développeurs disposent ainsi d'un moyen pour écrire simplement des applications distribuées complexes débouchant sur des décisions plus judicieuses et plus rapides, à des actions en temps réel, dans une grande variété de cas d’utilisations, d’architecture et de secteurs d’activités.
Cette formation Développer des applications pour Apache Spark avec Python ou Scala vous permet d'identifier et définir les composants de l'écosystème Hadoop. Vous saurez appréhender le fonctionnement de Spark ainsi que développer des applications avec Apache Spark. Pour finir vous explorerez, manipulerez et virtualiserez vos données avec Zeppelin.
Objectif opérationnel :
Savoir développer des applications pour Apache Spark avec Python ou Scala.
Objectifs pédagogiques :
À l'issue de cette formation Développer des applications pour Apache Spark avec Python ou Scala vous aurez acquis les connaissances et les compétences nécessaires pour :
Public :
Ce stage s'adresse aux développeurs d'applications avec des contraintes temps réel, ingénieurs d’études, architectes techniques et aux chefs de projets techniques.
Prérequis :
Afin de suivre ce stage il est nécessaire que les participants aient :
De plus, il est recommandé d'avoir des connaissances en SQL et en conception d'application temps réel. Aucune connaissance sur Hadoop n’est requise.
Cas d’usage pour Hadoop
Qu’est-ce que le Big Data ?
HDP, Hortonworks et l’écosystème Hadoop
Pourquoi utiliser Hortonworks ?
Qu’est-ce que Spark et d’où vient-il ?
Pourquoi utiliser Spark ?
Spark vs MapReduce
L’évolution rapide de Spark et l’engagement d’Hortonworks
Les composants de Spark
Premiers pas avec Spark
Les RDD
Transformations et actions
Spark Hello World (wordcount)
Lazy evaluation
Travaux Pratiques :
Assurer ses premiers pas avec Apache Spark
Vue d’ensemble de HDFS
Le Namenode et le Datanode
Vue d’ensemble de YARN
Composants cœur de YARN
Travaux Pratiques :
Utiliser les commandes HDFS
D’autres fonctions de RDD "cœur"
Fonctions de RDD paires
Utiliser la documentation de Spark
Travaux Pratiques :
Utiliser le stockage HDFS
Partitionnement, jobs, stage et tasks
L’UI de Spark
Changer le niveau de parrallélisation
Travaux Pratiques :
Programmation parallèle sur Spark
Cache et persistance
Travaux Pratiques :
Cacher et persister la donnée
Exemple d’application itérative : PageRank
Checkpointing
Travaux Pratiques :
Checkpointing et RDD lineage
Créer une application à soumettre au cluster
Soumettre une application au cluster
Yarn client vs Yarn cluster
Points importants de configuration
Gérer/packager les dépendances
Travaux Pratiques :
Créer une application Spark standalone
Accumulateurs
Travaux Pratiques :
Utiliser les accumulateurs pour vérifier la qualité des données
Variables « broadcast »
Travaux Pratiques :
Utiliser les variables broadcast
Partitionnement avancé et opérations
Point de départ pour l’optimisation
L'exploration de données en Spark avec Zeppelin
Visualisation de données avec Zeppelin
Faire du reporting avec Zeppelin
Les concepts de Spark SQL
Créer une Dataframe
Sauvegarder une Dataframe
Spark SQL et UDF
Travaux Pratiques :
Spark SQL avec utilisation d’UDF
Spark SQL avec Hive
L’architecture de Spark Streaming
Vue d’ensemble de Spark Streaming
Fiabilité des récepteurs et des sources
Transformations et opérations de sorties
Travaux Pratiques :
Wordcount en Spark Streaming
Configurer le checkpointing
Vue d’ensemble de MLLib
Apprentissage supervisé
Apprentissage non supervisé
Les apports théoriques sont complétés par des travaux pratiques, des mises en situation, des échanges sur les contextes des participants et des retours d’expérience du formateur.
Les avis figurant ci-dessous sont issus des fiches d’évaluation que remplissent les participants à la fin de la formation. Ils sont ensuite publiés automatiquement si les personnes ont explicitement accepté que nous les diffusions.
Mon avis sur le contenu du stage :
"une formation riche et variée "
Mon avis sur le formateur :
"un prof très généreux en info , compétent et sympa. "
Mon avis sur la salle de formation :
"La personne à l’accueil est souriante. J'aime bien ..."
Ce que j'ai le plus apprécié :
"un nombre réduit de participant "
Mon avis sur le contenu du stage :
"Le formateur nous a permis de ne pas bloquer sur des problèmes de codage dans les exercices pour des non codeurs endurcis, mais d'appuyer sur l'apprentissage et la compréhension des principes des modules de Spark."
Ce que j'ai le plus apprécié :
"Dialogue ouvert avec le formateur."
Mon avis sur le contenu du stage :
"Programme très complet"
Mon avis sur le formateur :
"Bonne pédagogie"
Formation officielle Databricks « Apache Spark Programming with Databricks »
Formation officielle Databricks « Optimizing Apache Spark on Databricks »
BI, dashboard, tableau de bord, data visualisation, reporting
Formations Informatique
et Management
en ligne à ce jour
+
Stagiaires dans nos salles
de cours sur
l'année
%
De participants satisfaits
ou très satisfaits de nos
formations
Formateurs experts
validés par
PLB