Formation Apache Spark : Programmer avec Apache Spark de Databricks Formation officielle Databricks « Apache Spark Programming with Databricks »

Durée 2 jours
Niveau Intermédiaire
Classe à distance
Possible

Vous pouvez suivre cette formation en direct depuis votre domicile ou votre lieu de travail. Plus d'informations sur notre solution de classe à distance...

Référence APSK
Éligible CPF Non
Cours officiel Databricks
Certification Databricks Certified Associate Developer for Apache Spark 3.0

Apache Spark est un moteur d'analyses unifiées ultra-rapide pour le big data et le machine learning. Depuis sa sortie, il a connu une adoption rapide par les entreprises de secteurs très divers. Des acteurs majeurs du monde de l'internet tels que Netflix, Yahoo et eBay l’ont déployé à très grande échelle, traitant ensemble plusieurs peta-octets de données sur des clusters de plus de 8 000 nœuds.

En deux jours, cette formation propose un panorama pratique de la solution Apache Spark en alternant des présentations théoriques et des exercices pratiques. Ce module couvre les APIs de base de Spark, les fondamentaux et les mécanismes du framework, mais aussi les outils de plus haut-niveau, dont SQL, ainsi que ses capacités de traitement en streaming et l’API de machine learning.

À l’issue de la session, les notebooks peuvent être conservés et être réutilisés dans le service cloud gratuit Databricks Community Edition, pour lequel la compatibilité est garantie. Il est également possible d’exporter le notebook sous forme de code source pour exécution sur n’importe quel environnement Spark.

Objectif opérationnel :

Savoir utiliser Apache Spark dans le cadre d'un projet Big Data.

Objectifs pédagogiques :

À l'issue de cette formation Apache Spark, vous aurez acquis les connaissances et compétences nécessaires pour :

  • Décrire les fondamentaux de Spark
  • Exploiter les APIs de base de Spark pour manipuler des données
  • Concevoir et implémenter des cas d’usage typiques de Spark
  • Construire des pipelines de données et requêter de larges jeux de données grâce à Spark SQL et aux DataFrames
  • Analyser les jobs Sparks à l’aide des interfaces d’administration et des logs au sein des environnements Databricks
  • Créer des jobs de type Structured Streaming
  • Découvrir les bases du fonctionnement interne de Spark
  • Découvrir le pattern Deltalake

Public :

Ce cours Apache Spark s'adresse principalement aux data engineers et data analysts ayant l'expérience des traitements Big Data, souhaitant apprendre à utiliser Apache Spark, à construire des jobs Spark et à déboguer des applications Spark.

Prérequis :

Pour suivre cette formation Apache Spark dans de bonnes conditions, une expérience de programmation en langage objet ou fonctionnel est impérative.
Une première expérience avec Apache Spark et Spark DataFrames sont également souhaitables, en particulier si vous visez la certification associée.

Jour 1

Aperçu de Spark et DataFrames

Introduction
L’écosystème Databricks
Spark SQL
Lecture et écriture de données
Dataframe et colonnes

Transformations et manipulations de données

Agrégations
Datetimes
Types complexes
Fonctions additionnelles
UDF : User Defined Functions

Jour 2

Optimisation de Spark

Architecture
Shuffle et Cache
Optimisation des requêtes
Spark UI
Gestion des partitions

Structured Streaming

Exposés
Streaming et requêtes
Processing streaming
Agrégations
Deltalake

Conclusion

Cete formation vous prépare à l'examen de certification Databricks Certified Associate Developer for Apache Spark 3.0. Cette certification atteste de votre compréhension de l'architecture de Spark et de votre capacité à appliquer Spark DataFrame API pour compléter des tâches de manipulation de données.

L'examen est constitué de 60 questions à choix multiples s'étalant sur une durée de 120 minutes. Un score minimal de 42 bonnes réponses est nécessaire pour obtenir la certification.

Le passage de l'examen s'effectue ultérieurement à la formation et n'est pas inclus dans son prix de vente.

Date de mise à jour du programme : 22/09/2023

Dates et lieux

Du 04 au 05 juillet 2024
Lieu
Paris
Durée
2 jrs
1780 € HT


Formations Informatique
et Management
en ligne à ce jour

+
Stagiaires dans nos salles
de cours sur
l'année

%
De participants satisfaits
ou très satisfaits de nos
formations


Formateurs experts
validés par
PLB