Formation Développer des applications pour Apache Spark avec Python ou Scala

Formation Hadoop officielle Hortonworks "HDP Developer: Enterprise Apache Spark"

(9 avis)

Durée 4 jours

Niveau Intermédiaire

Classe à distance

Possible

Référence ODAP

Éligible CPF Non

Cours officiel Hortonworks

Référence : ODAP
Durée : 4 jours (28h)
Lieu : Au choix. À distance ou en présentiel, à Paris ou en Régions

3550€ HT

Choisir une date et Réserver

Cette formation sur-mesure Ce cours est réalisable en intra-entreprise, dans vos locaux, dans nos salles ou à distance.

Description de la formation Apache Spark avec Python ou Scala

Le framework de programmation Spark se démarque de MapReduce d’Hadoop par sa simplicité et ses temps d’exécution jusqu’à 100 fois plus courts. Les développeurs disposent ainsi d'un moyen pour écrire simplement des applications distribuées complexes débouchant sur des décisions plus judicieuses et plus rapides, à des actions en temps réel, dans une grande variété de cas d’utilisations, d’architecture et de secteurs d’activités.

Cette formation Développer des applications pour Apache Spark avec Python ou Scala vous permet d'identifier et définir les composants de l'écosystème Hadoop. Vous saurez appréhender le fonctionnement de Spark ainsi que développer des applications avec Apache Spark. Pour finir vous explorerez, manipulerez et virtualiserez vos données avec Zeppelin.

Objectifs

Objectif opérationnel :

Savoir développer des applications pour Apache Spark avec Python ou Scala.

Objectifs pédagogiques :

À l'issue de cette formation Développer des applications pour Apache Spark avec Python ou Scala vous aurez acquis les connaissances et les compétences nécessaires pour :

Identifier et définir les différents composants de l’écosystème Hadoop
Appréhender le fonctionnement de Spark
Développer des applications avec Apache Spark
Optimiser une application Spark
Utiliser Spark SQL et les dataframes
Faire de l’analyse en temps réel avec Spark streaming
Découvrir MLLib pour du machine learning sur Spark
Explorer, manipuler et visualiser vos données avec Zeppelin.

À qui s'adresse cette formation ?

Public :

Ce stage s'adresse aux développeurs d'applications avec des contraintes temps réel, ingénieurs d’études, architectes techniques et aux chefs de projets techniques.

Prérequis :

Afin de suivre ce stage il est nécessaire que les participants aient :

Des connaissances de base en programmation ou en scripting (Python/Scala)
Une expérience basique en ligne de commande

De plus, il est recommandé d'avoir des connaissances en SQL et en conception d'application temps réel. Aucune connaissance sur Hadoop n’est requise.

J’évalue mes connaissances pour vérifier que je dispose des prérequis nécessaires pour profiter pleinement de cette formation en faisant ce test.

Contenu du cours Apache Spark avec Python ou Scala

Introduction à Hadoop, Hortonworks et au Big Data

Cas d’usage pour Hadoop
Qu’est-ce que le Big Data ?
HDP, Hortonworks et l’écosystème Hadoop
Pourquoi utiliser Hortonworks ?

Introduction à Apache Spark

Qu’est-ce que Spark et d’où vient-il ?
Pourquoi utiliser Spark ?
Spark vs MapReduce
L’évolution rapide de Spark et l’engagement d’Hortonworks

Programmer avec Apache Spark

Les composants de Spark
Premiers pas avec Spark
Les RDD
Transformations et actions
Spark Hello World (wordcount)
Lazy evaluation

Travaux Pratiques :

Assurer ses premiers pas avec Apache Spark

Vue d’ensemble de HDFS et YARN

Vue d’ensemble de HDFS
Le Namenode et le Datanode
Vue d’ensemble de YARN
Composants cœur de YARN

Travaux Pratiques :

Utiliser les commandes HDFS

Programmation RDD avancée

D’autres fonctions de RDD "cœur"
Fonctions de RDD paires
Utiliser la documentation de Spark

Travaux Pratiques :

Utiliser le stockage HDFS

Programmation parallèle avec Spark

Partitionnement, jobs, stage et tasks
L’UI de Spark
Changer le niveau de parrallélisation

Travaux Pratiques :

Programmation parallèle sur Spark

Cacher et persister la donnée

Cache et persistance

Travaux Pratiques :

Cacher et persister la donnée

Exemple d’application itérative : PageRank
Checkpointing

Travaux Pratiques :

Checkpointing et RDD lineage

Créer des applications Spark

Créer une application à soumettre au cluster
Soumettre une application au cluster
Yarn client vs Yarn cluster
Points importants de configuration
Gérer/packager les dépendances

Travaux Pratiques :

Créer une application Spark standalone

Fonctionnalités avancées et amélioration des performances

Accumulateurs

Travaux Pratiques :

Utiliser les accumulateurs pour vérifier la qualité des données

Variables « broadcast »

Travaux Pratiques :

Utiliser les variables broadcast

Partitionnement avancé et opérations
Point de départ pour l’optimisation

Travailler vos données avec Zeppelin

L'exploration de données en Spark avec Zeppelin
Visualisation de données avec Zeppelin
Faire du reporting avec Zeppelin

Spark SQL

Les concepts de Spark SQL
Créer une Dataframe
Sauvegarder une Dataframe
Spark SQL et UDF

Travaux Pratiques :

Spark SQL avec utilisation d’UDF
Spark SQL avec Hive

Spark Streaming

L’architecture de Spark Streaming
Vue d’ensemble de Spark Streaming
Fiabilité des récepteurs et des sources
Transformations et opérations de sorties

Travaux Pratiques :

Wordcount en Spark Streaming

Configurer le checkpointing

Spark MLLib

Vue d’ensemble de MLLib
Apprentissage supervisé
Apprentissage non supervisé

Travaux Pratiques

Les apports théoriques sont complétés par des travaux pratiques, des mises en situation, des échanges sur les contextes des participants et des retours d’expérience du formateur.

Date de mise à jour du programme : 03/11/2023

Dates et lieux

Période souhaitée

Lieux

Du 26 au 29 mai 2026

Lieu

Distanciel

Durée

4 jrs

3550 € HT

Du 26 au 29 mai 2026

Lieu

Paris

Durée

4 jrs

3550 € HT

Du 25 au 28 août 2026

Lieu

Distanciel

Durée

4 jrs

3550 € HT

Du 25 au 28 août 2026

Lieu

Paris

Durée

4 jrs

3550 € HT

Du 24 au 27 novembre 2026

Lieu

Distanciel

Durée

4 jrs

3550 € HT

Du 24 au 27 novembre 2026

Lieu

Paris

Durée

4 jrs

3550 € HT

Avis des participants à la formation Développer des applications pour Apache Spark avec Python ou Scala

Note moyenne de 4.7/5(9)

Les avis figurant ci-dessous sont issus des fiches d’évaluation que remplissent les participants à la fin de la formation. Ils sont ensuite publiés automatiquement si les personnes ont explicitement accepté que nous les diffusions.

SBOUI Sirine

5/5

Mon avis sur le contenu du stage :

"une formation riche et variée "

Mon avis sur le formateur :

"un prof très généreux en info , compétent et sympa. "

Mon avis sur la salle de formation :

"La personne à l’accueil est souriante. J'aime bien ..."

Ce que j'ai le plus apprécié :

"un nombre réduit de participant "

5/5

Mon avis sur le contenu du stage :

"Le formateur nous a permis de ne pas bloquer sur des problèmes de codage dans les exercices pour des non codeurs endurcis, mais d'appuyer sur l'apprentissage et la compréhension des principes des modules de Spark."

Ce que j'ai le plus apprécié :

"Dialogue ouvert avec le formateur."

5/5

Mon avis sur le formateur :

"le formateur maitrise bien le sujet, et ila proposé beaucoup de TP et il a abordé des sujet non inclu dans la formation de base comme le cluster et machine learning etc"

Lire la suite des avis

5/5

Mon avis sur le contenu du stage :

"Programme très complet"

Mon avis sur le formateur :

"Bonne pédagogie"

POIMBOEUF Johann

5/5

4/5

DIRION Corine

5/5

4/5

Formations Informatique
et Management
en ligne à ce jour

+
Stagiaires dans nos salles
de cours sur
l'année

4,7/5
95% de nos participants
sont satisfaits ou
très satisfaits

Formateurs experts
validés par
PLB

%
Des participants
recommandent
nos formations

Formation Développer des applications pour Apache Spark avec Python ou Scala

Description de la formation Apache Spark avec Python ou Scala

Objectifs

À qui s'adresse cette formation ?

Contenu du cours Apache Spark avec Python ou Scala

Introduction à Hadoop, Hortonworks et au Big Data

Introduction à Apache Spark

Programmer avec Apache Spark

Vue d’ensemble de HDFS et YARN

Programmation RDD avancée

Programmation parallèle avec Spark

Cacher et persister la donnée

Créer des applications Spark

Fonctionnalités avancées et amélioration des performances

Travailler vos données avec Zeppelin

Spark SQL

Spark Streaming

Spark MLLib

Travaux Pratiques

Dates et lieux

Avis des participants à la formation Développer des applications pour Apache Spark avec Python ou Scala

Ces formations peuvent aussi vous intéresser :

Spark, développer des applications pour le Big Data

Apache Spark : Programmer avec Apache Spark de Databricks

Apache Spark : Optimiser Apache Spark sur Databricks

Apache Storm - Traitement de flux de données avec Storm