Cette formation est-elle adaptée à mon niveau ?

Chaque fiche indique le niveau requis (Fondamental, Intermédiaire, Avancé) ainsi que les prérequis détaillés. En cas de doute, un test d'auto-évaluation est disponible directement sur la page.

La formation est-elle orientée théorie ou pratique ?

Nos formations alternent apports théoriques et travaux pratiques, pour mettre immédiatement en application les notions abordées.

Puis-je suivre cette formation à distance ?

Oui, la plupart de nos formations sont disponibles en présentiel et en classe à distance, avec le même contenu et le même niveau d'interaction avec le formateur.

Cette formation est-elle disponible en intra-entreprise ?

Oui. Nous pouvons l'organiser dans vos locaux, dans nos salles ou à distance, avec un programme adapté à votre contexte si nécessaire. Contactez notre service intra pour un devis.

Que se passe-t-il si une session est annulée ?

Nous nous engageons à maintenir les sessions garanties affichées. En cas d'annulation de notre part, nous vous proposons un report sur la prochaine session disponible.

Cette formation est-elle finançable via le CPF ?

Si la formation est éligible CPF, cela est indiqué sur la fiche avec le code de certification correspondant. Vous pouvez retrouver la formation directement sur Mon Compte Formation.

Mon employeur ou mon OPCO peut-il prendre en charge le coût ?

Oui. Contactez-nous pour obtenir une convention de formation et vérifier les possibilités de prise en charge via votre OPCO.

Formation Développer des applications pour Apache Spark avec Python ou Scala

Formation Hadoop officielle Hortonworks "HDP Developer: Enterprise Apache Spark"

4,6/5

Avec 7 avis

Description de la formation Apache Spark Python ou Scala

Le framework de programmation Spark se démarque de MapReduce d’Hadoop par sa simplicité et ses temps d’exécution jusqu’à 100 fois plus courts. Les développeurs disposent ainsi d'un moyen pour écrire simplement des applications distribuées complexes débouchant sur des décisions plus judicieuses et plus rapides, à des actions en temps réel, dans une grande variété de cas d’utilisations, d’architecture et de secteurs d’activités.

Cette formation Développer des applications pour Apache Spark avec Python ou Scala vous permet d'identifier et définir les composants de l'écosystème Hadoop. Vous saurez appréhender le fonctionnement de Spark ainsi que développer des applications avec Apache Spark. Pour finir vous explorerez, manipulerez et virtualiserez vos données avec Zeppelin.

Introduction à Hadoop, Hortonworks et au Big Data

Cas d’usage pour Hadoop
Qu’est-ce que le Big Data ?
HDP, Hortonworks et l’écosystème Hadoop
Pourquoi utiliser Hortonworks ?

Introduction à Apache Spark

Qu’est-ce que Spark et d’où vient-il ?
Pourquoi utiliser Spark ?
Spark vs MapReduce
L’évolution rapide de Spark et l’engagement d’Hortonworks

Programmer avec Apache Spark

Les composants de Spark
Premiers pas avec Spark
Les RDD
Transformations et actions
Spark Hello World (wordcount)
Lazy evaluation

Travaux Pratiques :

Assurer ses premiers pas avec Apache Spark

Vue d’ensemble de HDFS et YARN

Vue d’ensemble de HDFS
Le Namenode et le Datanode
Vue d’ensemble de YARN
Composants cœur de YARN

Travaux Pratiques :

Utiliser les commandes HDFS

Programmation RDD avancée

D’autres fonctions de RDD "cœur"
Fonctions de RDD paires
Utiliser la documentation de Spark

Travaux Pratiques :

Utiliser le stockage HDFS

Programmation parallèle avec Spark

Partitionnement, jobs, stage et tasks
L’UI de Spark
Changer le niveau de parrallélisation

Travaux Pratiques :

Programmation parallèle sur Spark

Cacher et persister la donnée

Cache et persistance

Travaux Pratiques :

Cacher et persister la donnée

Exemple d’application itérative : PageRank
Checkpointing

Travaux Pratiques :

Checkpointing et RDD lineage

Créer des applications Spark

Créer une application à soumettre au cluster
Soumettre une application au cluster
Yarn client vs Yarn cluster
Points importants de configuration
Gérer/packager les dépendances

Travaux Pratiques :

Créer une application Spark standalone

Fonctionnalités avancées et amélioration des performances

Accumulateurs

Travaux Pratiques :

Utiliser les accumulateurs pour vérifier la qualité des données

Variables « broadcast »

Travaux Pratiques :

Utiliser les variables broadcast

Partitionnement avancé et opérations
Point de départ pour l’optimisation

Travailler vos données avec Zeppelin

L'exploration de données en Spark avec Zeppelin
Visualisation de données avec Zeppelin
Faire du reporting avec Zeppelin

Spark SQL

Les concepts de Spark SQL
Créer une Dataframe
Sauvegarder une Dataframe
Spark SQL et UDF

Travaux Pratiques :

Spark SQL avec utilisation d’UDF
Spark SQL avec Hive

Spark Streaming

L’architecture de Spark Streaming
Vue d’ensemble de Spark Streaming
Fiabilité des récepteurs et des sources
Transformations et opérations de sorties

Travaux Pratiques :

Wordcount en Spark Streaming

Configurer le checkpointing

Spark MLLib

Vue d’ensemble de MLLib
Apprentissage supervisé
Apprentissage non supervisé

Date de mise à jour du programme : 03/11/2023

Dates et lieux

Période souhaitée

Lieux

Type d'affichage

Distanciel

25 août - 28 août

24 novembre - 27 novembre

Paris

25 août - 28 août

24 novembre - 27 novembre

Témoignages pour cette formation

7 avis

Les avis figurant ci-dessous sont issus des fiches d'évaluation que remplissent les participants à la fin de la formation. Ils sont ensuite publiés automatiquement si les personnes ont explicitement accepté que nous les diffusions.

Avis de BG

Retour d’expérience

Mon avis sur le contenu du stage :

"Le formateur nous a permis de ne pas bloquer sur des problèmes de codage dans les exercices pour des non codeurs endurcis, mais d'appuyer sur l'apprentissage et la compréhension des principes des modules de Spark."

Ce que j'ai le plus apprécié :

"Dialogue ouvert avec le formateur."

Avis de SBOUI Sirine

Retour d’expérience

Mon avis sur le contenu du stage :

"une formation riche et variée "

Mon avis sur le formateur :

"un prof très généreux en info , compétent et sympa. "

Mon avis sur la salle de formation :

"La personne à l’accueil est souriante. J'aime bien ..."

Ce que j'ai le plus apprécié :

"un nombre réduit de participant "

SBOUI Sirine

Avis de FC

Retour d’expérience

Mon avis sur le formateur :

"le formateur maitrise bien le sujet, et ila proposé beaucoup de TP et il a abordé des sujet non inclu dans la formation de base comme le cluster et machine learning etc"

Spark, développer des applications pour le Big Data

Durée: Durée :3 jours
Niveau: Niveau :Intermédiaire
Certification: Certification :Non

2090€ HT

Prochaine session : 24/08/2026

Apache Spark : Programmer avec Apache Spark de Databricks

Durée: Durée :2 jours
Niveau: Niveau :Intermédiaire
Certification: Certification :Non

Apache Spark : Optimiser Apache Spark sur Databricks

Durée: Durée :2 jours
Niveau: Niveau :Avancé
Certification: Certification :Non

Apache Spark pour les développeurs Java

Durée: Durée :3 jours
Niveau: Niveau :Intermédiaire
Certification: Certification :Non

Voir toutes les formations Data Engineering

Formation Développer des applications pour Apache Spark avec Python ou Scala

Description de la formation Apache Spark Python ou Scala

Programme de la formation

Objectifs de la formation

Contenu du cours Apache Spark Python ou Scala

Introduction à Hadoop, Hortonworks et au Big Data

Introduction à Apache Spark

Programmer avec Apache Spark

Vue d’ensemble de HDFS et YARN

Programmation RDD avancée

Programmation parallèle avec Spark

Cacher et persister la donnée

Créer des applications Spark

Fonctionnalités avancées et amélioration des performances

Travailler vos données avec Zeppelin

Spark SQL

Spark Streaming

Spark MLLib

Public et prérequis

Travaux pratiques

Dates et lieux

Distanciel

Paris

Témoignages pour cette formation

Ces formations en Data Engineering peuvent aussi vous intéresser

Questions fréquentes

Cette formation est-elle adaptée à mon niveau ?

La formation est-elle orientée théorie ou pratique ?

Puis-je suivre cette formation à distance ?

Cette formation est-elle disponible en intra-entreprise ?

Que se passe-t-il si une session est annulée ?

Cette formation est-elle finançable via le CPF ?

Mon employeur ou mon OPCO peut-il prendre en charge le coût ?

Témoignages pour cette formation

Ces formations en Data Engineering peuvent aussi vous intéresser