Python avancé sur Databricks : notebooks, PySpark, SQL, visualisation et MLflow
- Durée
- Durée :4 jours
- Niveau
- Niveau :Avancé
- Certification
- Certification :Non
Apache Spark est un moteur d'analyses unifiées ultra-rapide pour le big data et le machine learning. Depuis sa sortie, il a connu une adoption rapide par les entreprises de secteurs très divers. Des acteurs majeurs tels que Netflix, Yahoo et eBay l'ont déployé à très grande échelle, traitant ensemble plusieurs péta-octets de données sur des clusters de plus de 8 000 nœuds.
Dans cette formation Apache Spark Optimisation, les apprenants exploreront les cinq problèmes majeurs de performance rencontrés dans une application Apache Spark : skew, spill, shuffle, stockage et serialization.
Au travers d'exemples basés sur des datasets de 100Go à 1To, le focus sera mis sur investigation et la réalisation de diagnostic des différentes sources de goulets d'étranglement avec Spark UI, ainsi que sur l'appropriation de stratégies de résolution efficaces.
Enfin, un temps sera également consacré à la découverte des nouvelles fonctionnalités proposées par Spark 3.x qui adressent automatiquement ces problèmes de performance communs.
Objectif opérationnel :
Savoir optimiser Apache Spark sur Databricks.
Objectifs pédagogiques :
À l'issue de cette formation Apache Spark Optimisation, vous aurez acquis les connaissances et compétences nécessaires pour :
Public cible :
Ce cours Apache Spark Optimisation s'adresse aux développeurs Spark et data engineers.
Prérequis :
Pour suivre cette formation Apache Spark Optimisation, une bonne expérience de développement avec Apache Spark et Python ou Scala est nécessaire.
Les participants sont par ailleurs vivement encouragés à suivre au préalable la formation Apache Spark : Programmer avec Apache Spark de Databricks (APSK).
J'évalue mes connaissances pour vérifier que je dispose des prérequis nécessaires pour profiter pleinement de cette formation en faisant le test de prérequis.
Date de mise à jour du programme : 10/12/2025
Python avancé sur Databricks : notebooks, PySpark, SQL, visualisation et MLflow
Apache Storm - Traitement de flux de données avec Storm
Apache Iceberg
Apache Flink : Traitement de flux en temps réel