Formation Apache Spark : Optimiser Apache Spark sur Databricks Formation officielle Databricks « Optimizing Apache Spark on Databricks »

Durée 2 jours
Niveau Avancé
Classe à distance
Non

Vous ne pouvez pas suivre cette formation en direct depuis votre domicile ou votre lieu de travail. Plus d'informations sur notre solution de classe à distance...

Référence APSO
Éligible CPF Non
Cours officiel Databricks

Apache Spark est un moteur d'analyses unifiées ultra-rapide pour le big data et le machine learning. Depuis sa sortie, il a connu une adoption rapide par les entreprises de secteurs très divers. Des acteurs majeurs tels que Netflix, Yahoo et eBay l'ont déployé à très grande échelle, traitant ensemble plusieurs péta-octets de données sur des clusters de plus de 8 000 nœuds.

Dans cette formation Apache Spark Optimisation, les apprenants exploreront les cinq problèmes majeurs de performance rencontrés dans une application Apache Spark : skew, spill, shuffle, stockage et serialization.
Au travers d'exemples basés sur des datasets de 100Go à 1To, le focus sera mis sur investigation et la réalisation de diagnostic des différentes sources de goulets d'étranglement avec Spark UI, ainsi que sur l'appropriation de stratégies de résolution efficaces.

Enfin, un temps sera également consacré à la découverte des nouvelles fonctionnalités proposées par Spark 3.x qui adressent automatiquement ces problèmes de performance communs.

Objectif opérationnel :

Savoir optimiser Apache Spark sur Databricks.

Objectifs pédagogiques :

À l'issue de cette formation Apache Spark Optimisation, vous aurez acquis les connaissances et compétences nécessaires pour :

  • S'approprier les cinq problématiques de performances les plus communes dans une application Spark et leurs principales méthodes de résolution
  • Investiguer, identifier et traiter des problèmes de performances les plus communs associés à l'ingestion de données
  • Appréhender les nouvelles fonctionnalités de Spark 3.x permettant de traiter les problèmes de performance dans vos applications Spark
  • Configurer des clusters Spark pour une performance maximale pour des besoins métier spécifiques

Public :

Ce cours Apache Spark Optimisation s'adresse aux développeurs Spark et data engineers.

Prérequis :

Pour suivre cette formation Apache Spark Optimisation, une bonne expérience de développement avec Apache Spark et Python ou Scala est nécessaire.

Les participants sont par ailleurs vivement encouragés à suivre au préalable la formation Apache Spark : Programmer avec Apache Spark de Databricks (APSK).

Jour 1

Rappel du fonctionnement d'Apache Spark

Revue de l'architecture de Spark et de Spark UI
Skew
Spill
Shuffle
Storage
Serialization
Jour 2

Méthodes d'optimisation

Les bases de l'ingestion
Prédire et anticiper les goulets d'étranglement
Partitionnement de disque
Z-ordering
Bucketing
Optimisation avec Adaptive Query Execution (AQE)
Concevoir et configurer des clusters à haute performance
Date de mise à jour du programme : 20/06/2023

Dates et lieux

Aucune session programmée actuellement.


Formations Informatique
et Management
en ligne à ce jour

+
Stagiaires dans nos salles
de cours sur
l'année

%
De participants satisfaits
ou très satisfaits de nos
formations


Formateurs experts
validés par
PLB