Description de la formation Apache Spark Databricks

Apache Spark est un moteur d'analyses unifiées ultra-rapide pour le big data et le machine learning. Depuis sa sortie, il a connu une adoption rapide par les entreprises de secteurs très divers. Des acteurs majeurs du monde de l'internet tels que Netflix, Yahoo et eBay l’ont déployé à très grande échelle, traitant ensemble plusieurs peta-octets de données sur des clusters de plus de 8 000 nœuds.

En deux jours, cette formation propose un panorama pratique de la solution Apache Spark en alternant des présentations théoriques et des exercices pratiques. Ce module couvre les APIs de base de Spark, les fondamentaux et les mécanismes du framework, mais aussi les outils de plus haut-niveau, dont SQL, ainsi que ses capacités de traitement en streaming et l’API de machine learning.

À l’issue de la session, les notebooks peuvent être conservés et être réutilisés dans le service cloud gratuit Databricks Community Edition, pour lequel la compatibilité est garantie. Il est également possible d’exporter le notebook sous forme de code source pour exécution sur n’importe quel environnement Spark.

Objectifs

Objectif opérationnel :

Savoir utiliser Apache Spark dans le cadre d'un projet Big Data.

Objectifs pédagogiques :

À l'issue de cette formation Apache Spark, vous aurez acquis les connaissances et compétences nécessaires pour :

Décrire les fondamentaux de Spark
Exploiter les APIs de base de Spark pour manipuler des données
Concevoir et implémenter des cas d’usage typiques de Spark
Construire des pipelines de données et requêter de larges jeux de données grâce à Spark SQL et aux DataFrames
Analyser les jobs Sparks à l’aide des interfaces d’administration et des logs au sein des environnements Databricks
Créer des jobs de type Structured Streaming
Découvrir les bases du fonctionnement interne de Spark
Découvrir le pattern Deltalake

À qui s'adresse cette formation ?

Public :

Ce cours Apache Spark s'adresse principalement aux data engineers et data analysts ayant l'expérience des traitements Big Data, souhaitant apprendre à utiliser Apache Spark, à construire des jobs Spark et à déboguer des applications Spark.

Prérequis :

Pour suivre cette formation Apache Spark dans de bonnes conditions, une expérience de programmation en langage objet ou fonctionnel est impérative.
Une première expérience avec Apache Spark et Spark DataFrames sont également souhaitables, en particulier si vous visez la certification associée.

Contenu du cours Apache Spark Databricks

Jour 1

Aperçu de Spark et DataFrames

Introduction
L’écosystème Databricks
Spark SQL
Lecture et écriture de données
Dataframe et colonnes

Transformations et manipulations de données

Agrégations
Datetimes
Types complexes
Fonctions additionnelles
UDF : User Defined Functions

Jour 2

Optimisation de Spark

Architecture
Shuffle et Cache
Optimisation des requêtes
Spark UI
Gestion des partitions

Structured Streaming

Exposés
Streaming et requêtes
Processing streaming
Agrégations
Deltalake

Conclusion

Databricks Certified Associate Developer for Apache Spark 3.0

Cete formation vous prépare à l'examen de certification Databricks Certified Associate Developer for Apache Spark 3.0. Cette certification atteste de votre compréhension de l'architecture de Spark et de votre capacité à appliquer Spark DataFrame API pour compléter des tâches de manipulation de données.

L'examen est constitué de 60 questions à choix multiples s'étalant sur une durée de 120 minutes. Un score minimal de 42 bonnes réponses est nécessaire pour obtenir la certification.

Le passage de l'examen s'effectue ultérieurement à la formation et n'est pas inclus dans son prix de vente.

Date de mise à jour du programme : 31/10/2024

Dates et lieux

Période souhaitée

Lieux

Du 24 au 25 novembre 2025

Lieu

Distanciel

Durée

2 jrs

1780 € HT

Formation Apache Spark : Programmer avec Apache Spark de Databricks

Description de la formation Apache Spark Databricks

Objectifs

À qui s'adresse cette formation ?

Contenu du cours Apache Spark Databricks

Aperçu de Spark et DataFrames

Transformations et manipulations de données

Optimisation de Spark

Structured Streaming

Conclusion

Databricks Certified Associate Developer for Apache Spark 3.0

Dates et lieux

Ces formations peuvent aussi vous intéresser :

Apache Spark : Optimiser Apache Spark sur Databricks

Apache Iceberg

Apache Storm - Traitement de flux de données avec Storm

Apache Superset