Aller au contenu principal

Apache Spark : Optimiser Apache Spark sur Databricks

REF : APSO
Regroupe des participants de différentes entreprises autour d'un même programme, à dates fixes.
Durée :
2 jours
Niveau :
Avancé
Lieu :
À définir
Format :
Présentiel

Sur demande


Description de la formation Apache Spark Optimisation

Apache Spark est un moteur d'analyses unifiées ultra-rapide pour le big data et le machine learning. Depuis sa sortie, il a connu une adoption rapide par les entreprises de secteurs très divers. Des acteurs majeurs tels que Netflix, Yahoo et eBay l'ont déployé à très grande échelle, traitant ensemble plusieurs péta-octets de données sur des clusters de plus de 8 000 nœuds.

Dans cette formation Apache Spark Optimisation, les apprenants exploreront les cinq problèmes majeurs de performance rencontrés dans une application Apache Spark : skew, spill, shuffle, stockage et serialization.
Au travers d'exemples basés sur des datasets de 100Go à 1To, le focus sera mis sur investigation et la réalisation de diagnostic des différentes sources de goulets d'étranglement avec Spark UI, ainsi que sur l'appropriation de stratégies de résolution efficaces.

Enfin, un temps sera également consacré à la découverte des nouvelles fonctionnalités proposées par Spark 3.x qui adressent automatiquement ces problèmes de performance communs.

Programme de la formation

Date de mise à jour du programme : 10/12/2025

Questions fréquentes