• FNE
  • FSE

Formation Apache Spark : Programmer avec Apache Spark de Databricks

Durée 2 jours
Niveau Intermédiaire
Classe à distance
Possible

Vous pouvez suivre cette formation en direct depuis votre domicile ou votre lieu de travail. Plus d'informations sur notre solution de classe à distance...

Référence APSK
Éligible CPF Non

Apache Spark est un moteur d'analyses unifiées ultra-rapide pour le big data et le machine learning. Depuis sa sortie, il a connu une adoption rapide par les entreprises de secteurs très divers. Des acteurs majeurs du monde de l'internet tels que Netflix, Yahoo et eBay l’ont déployé à très grande échelle, traitant ensemble plusieurs peta-octets de données sur des clusters de plus de 8 000 nœuds.

En deux jours, cette formation propose un panorama pratique de la solution Apache Spark en alternant des présentations théoriques et des exercices pratiques. Ce module couvre les APIs de base de Spark, les fondamentaux et les mécanismes du framework, mais aussi les outils de plus haut-niveau, dont SQL, ainsi que ses capacités de traitement en streaming et l’API de machine learning.

À l’issue de la session, les notebooks peuvent être conservés et être réutilisés dans le service cloud gratuit Databricks Community Edition, pour lequel la compatibilité est garantie. Il est également possible d’exporter le notebook sous forme de code source pour exécution sur n’importe quel environnement Spark.

Objectif opérationnel :

Savoir utiliser Apache Spark dans le cadre d'un projet Big Data.

Objectifs pédagogiques :

À l'issue de cette formation Apache Spark, vous aurez acquis les connaissances et compétences nécessaires pour :

  • Décrire les concepts fondamentaux d'Apache Spark (Architecture, RDD, DataFrames, Spark SQL, PySpark).
  • Exploiter les APIs Spark (principalement DataFrame et Spark SQL) pour ingérer, transformer et manipuler des données.
  • Identifier les composants clés de la plateforme Databricks et son architecture.
  • Utiliser l'espace de travail Databricks pour organiser le code (Notebooks, Repos/Git) et gérer les ressources de calcul (Clusters).
  • Expliquer les caractéristiques et les avantages du format de stockage Delta Lake.
  • Mettre en Å“uvre les opérations clés de Delta Lake (création de tables, transactions ACID : MERGE, UPDATE) et utiliser le "Time Travel"

Public :

Ce cours Apache Spark s'adresse principalement aux data engineers et data analysts ayant l'expérience des traitements Big Data, souhaitant apprendre à utiliser Apache Spark, à construire des jobs Spark et à déboguer des applications Spark.

Prérequis :

Pour suivre cette formation Apache Spark dans de bonnes conditions, une expérience de programmation en langage objet ou fonctionnel est impérative. Une première expérience avec Apache Spark et Spark DataFrames sont également souhaitables, en particulier si vous visez la certification associée.

J’évalue mes connaissances pour vérifier que je dispose des prérequis nécessaires pour profiter pleinement de cette formation en faisant ce test.

Jour 1

Introduction et environnement Databricks

Introduction à Spark :
- Historique
- Place dans le Big Data
La plateforme Databricks :
- Vue d'ensemble de l'architecture
- Le Workspace
- Gestion des clusters 
Le Notebook Databricks :
- Prise en main et bonne pratique

Architecture et concepts de Spark

Les concepts fondamentaux :
- RDD
- SparkContext
- Driver/Executor
Le modèle d'exécution :
- Stages
- Tasks
- Shuffles
- Transformations vs Actions
PySpark vs Spark SQL :
- Dans quel cas utiliser quelle solution

Les APIs Spark Dataframes

Le DataFrame :
- Création
- Lecture et écriture de données (formats CSV, JSON, Parquet)

Spark SQL

Filtrage et projection :
- Clauses where(), select() et withColumn()
Jointures (joins) :
- Types de jointures
- Les meilleures pratiques
Jour 2

Le cœur du lakehouse : Delta Lake

Présentation de Delta Lake :
- Le format open source
- La gestion des métadonnées
Les avantages clés :
- ACID
- Gestion des schémas
- Time Travel
Opérations Delta :
- Création de tables
- Manipulation de données avec MERGE, UPDATE et DELETE

Meilleures pratiques de Data Engineering sur Databricks

Modélisation par couches (Bronze, Silver, Gold) :
- L'architecture LakeHouse et ses principes
Gestion des versions et collaboration :
- Utilisation des repos Databricks (intégration Git)
Tests unitaires basiques :
- Écriture de code "Spark testable"

Optimisation et diagnostics

Analyse de la performance :
- Lecture et interprétation du Spark UI (Stages, Tasks, Exécuteurs)
Optimisation des requêtes :
- Les techniques de base (coalesce/repartition, taille du fichier)
Date de mise à jour du programme : 10/12/2025

Dates et lieux

Du 26 au 27 mars 2026
Lieu
Paris
Durée
2 jrs
1780 € HT
Du 25 au 26 juin 2026
Lieu
Paris
Durée
2 jrs
1780 € HT
Du 16 au 17 novembre 2026
Lieu
Paris
Durée
2 jrs
1780 € HT

Ces formations peuvent aussi vous intéresser :

  • Niveau : Avancé
  • Cours officiel : Databricks
  • Référence : APSO

  • Niveau : Intermédiaire
  • Référence : ASFD

  • Niveau : Intermédiaire
  • Référence : ICEB

Exploitez la puissance d’Apache Flink pour le traitement de données massives en streaming temps réel

  • Niveau : Fondamental
  • Référence : FLIN


Formations Informatique
et Management
en ligne à ce jour

+
Stagiaires dans nos salles
de cours sur
l'année

4,7/5
94% de nos participants
sont satisfaits ou
très satisfaits


Formateurs experts
validés par
PLB

%
Des participants
recommandent
nos formations