Cette formation est-elle adaptée à mon niveau ?

Chaque fiche indique le niveau requis (Fondamental, Intermédiaire, Avancé) ainsi que les prérequis détaillés. En cas de doute, un test d'auto-évaluation est disponible directement sur la page.

La formation est-elle orientée théorie ou pratique ?

Nos formations alternent apports théoriques et travaux pratiques, pour mettre immédiatement en application les notions abordées.

Puis-je suivre cette formation à distance ?

Oui, la plupart de nos formations sont disponibles en présentiel et en classe à distance, avec le même contenu et le même niveau d'interaction avec le formateur.

Cette formation est-elle disponible en intra-entreprise ?

Oui. Nous pouvons l'organiser dans vos locaux, dans nos salles ou à distance, avec un programme adapté à votre contexte si nécessaire. Contactez notre service intra pour un devis.

Que se passe-t-il si une session est annulée ?

Nous nous engageons à maintenir les sessions garanties affichées. En cas d'annulation de notre part, nous vous proposons un report sur la prochaine session disponible.

Cette formation est-elle finançable via le CPF ?

Si la formation est éligible CPF, cela est indiqué sur la fiche avec le code de certification correspondant. Vous pouvez retrouver la formation directement sur Mon Compte Formation.

Mon employeur ou mon OPCO peut-il prendre en charge le coût ?

Oui. Contactez-nous pour obtenir une convention de formation et vérifier les possibilités de prise en charge via votre OPCO.

Formation Apache Spark pour les développeurs Java

Développer des applications distribuées avec Apache Spark et Java pour traiter efficacement de grands volumes de données

Description de la formation Apache Spark Java

Qu'est-ce qu'Apache Spark ?

Apache Spark est un moteur de calcul distribué conçu pour traiter rapidement de grands volumes de données. Grâce à ses capacités de traitement batch, streaming, analytique et machine learning, Spark est devenu l'un des composants majeurs des architectures Big Data et Data Engineering modernes.

Pourquoi suivre une formation Apache Spark pour les développeurs Java ?

Les développeurs Java intervenant sur des plateformes Data doivent être capables de concevoir des traitements distribués performants, d'exploiter les APIs Spark et de comprendre les mécanismes d'optimisation propres aux architectures Big Data. Cette formation permet d'acquérir les compétences nécessaires pour développer, déployer et optimiser des applications Spark en Java dans des environnements de production.

Jour 1

Découvrir Spark et son modèle de calcul distribué

Présentation d'Apache Spark et de son écosystème
Comparaison avec Hadoop MapReduce
Modules Spark Core, SQL, Streaming, MLlib et GraphX
Architecture Driver, Executors et Cluster Manager
Notions de Job, Stage et Task
Projet Maven et SparkSessionTravaux pratiquesObjectif : Comprendre le fonctionnement général de Spark et préparer l'environnement de développement.
Description : Installation de l'environnement, configuration du projet Java et réalisation d'un premier traitement de comptage sur le jeu de données des arbres de Paris. Les participants découvrent le modèle distribué de Spark et valident les premiers traitements.

Maîtriser les RDD, la brique fondatrice

Création et manipulation des RDD
Transformations et actions
Évaluation paresseuse et lineage
Accumulateurs et variables broadcastées
Gestion des partitionsTravaux pratiquesObjectif : Comprendre les mécanismes fondamentaux du calcul distribué.
Description : Agrégations et jointures sur les arbres de Paris via l'API RDD. Mesure de l'impact du partitionnement sur les performances et analyse de la tolérance aux pannes.Jour 2

Exploiter des données structurées avec Spark SQL

DataFrames et Datasets
Spark SQL et optimiseur Catalyst
Sources CSV, JSON, Parquet et JDBC
Interopérabilité RDD et DataFrames
Lecture et écriture de donnéesTravaux pratiquesObjectif : Manipuler efficacement des données structurées avec Spark.
Description : Requêtes SQL, jointures sur les archives météo NOAA, connexion JDBC à une base externe et écriture des résultats au format Parquet.Architectures Standalone et YARN
Packaging Maven
Gestion des dépendances
Déploiement avec spark-submit
Configuration des ressourcesTravaux pratiquesObjectif : Déployer une application Spark sur un cluster.
Description : Packaging du traitement météo, génération de l'artefact exécutable et soumission sur un cluster Spark standalone avec analyse de l'utilisation des ressources.Jour 3

Optimiser et fiabiliser les traitements

Lecture du DAG dans Spark UI
Narrow et Wide Dependencies
Shuffles et coûts associés
Cache et Persist
Repartition, Coalesce et Broadcast Joins
Localité des donnéesTravaux pratiquesObjectif : Diagnostiquer et optimiser les performances d'un traitement Spark.
Description : Profilage d'un job lent à l'aide de Spark UI, identification des goulots d'étranglement et optimisation mesurée avant/après.

Aller plus loin : temps réel, graphes et machine learning

Structured Streaming
Intégration Kafka
Fenêtres temporelles
Introduction à GraphX
Spark MLlib
Classification et régression
Construction d'un pipeline MLTravaux pratiquesObjectif : Découvrir les capacités avancées de Spark.
Description : Mise en œuvre d'un pipeline de streaming consommant des événements en temps réel puis entraînement d'un modèle MLlib simple sur les données météo.

Date de mise à jour du programme : 10/06/2026

Dates et lieux

Période souhaitée

Lieux

Type d'affichage

Distanciel

9 septembre - 11 septembre

2 décembre - 4 décembre

Paris

9 septembre - 11 septembre

2 décembre - 4 décembre

Python avancé sur Databricks : notebooks, PySpark, SQL, visualisation et MLflow

Durée: Durée :4 jours
Niveau: Niveau :Avancé
Certification: Certification :Non

Intra uniquement

Aucune session prévue

Apache Storm - Traitement de flux de données avec Storm

Durée: Durée :2 jours
Niveau: Niveau :Intermédiaire
Certification: Certification :Non

Apache Iceberg

Durée: Durée :3 jours
Niveau: Niveau :Intermédiaire
Certification: Certification :Non

Apache Flink : Traitement de flux en temps réel

Durée: Durée :4 jours
Niveau: Niveau :Fondamental
Certification: Certification :Non

Voir toutes les formations Data Engineering