- Référence : APSK
- Durée : 2 jours (14h)
- Lieu : Au choix. À distance ou en présentiel, à Paris ou en Régions
1780€ HT
Choisir une date et RéserverVous pouvez suivre cette formation en direct depuis votre domicile ou votre lieu de travail. Plus d'informations sur notre solution de classe à distance...
Apache Spark est un moteur d'analyses unifiées ultra-rapide pour le big data et le machine learning. Depuis sa sortie, il a connu une adoption rapide par les entreprises de secteurs très divers. Des acteurs majeurs du monde de l'internet tels que Netflix, Yahoo et eBay l’ont déployé à très grande échelle, traitant ensemble plusieurs peta-octets de données sur des clusters de plus de 8 000 nœuds.
En deux jours, cette formation propose un panorama pratique de la solution Apache Spark en alternant des présentations théoriques et des exercices pratiques. Ce module couvre les APIs de base de Spark, les fondamentaux et les mécanismes du framework, mais aussi les outils de plus haut-niveau, dont SQL, ainsi que ses capacités de traitement en streaming et l’API de machine learning.
À l’issue de la session, les notebooks peuvent être conservés et être réutilisés dans le service cloud gratuit Databricks Community Edition, pour lequel la compatibilité est garantie. Il est également possible d’exporter le notebook sous forme de code source pour exécution sur n’importe quel environnement Spark.
Objectif opérationnel :
Savoir utiliser Apache Spark dans le cadre d'un projet Big Data.
Objectifs pédagogiques :
À l'issue de cette formation Apache Spark, vous aurez acquis les connaissances et compétences nécessaires pour :
Public :
Ce cours Apache Spark s'adresse principalement aux data engineers et data analysts ayant l'expérience des traitements Big Data, souhaitant apprendre à utiliser Apache Spark, à construire des jobs Spark et à déboguer des applications Spark.
Prérequis :
Pour suivre cette formation Apache Spark dans de bonnes conditions, une expérience de programmation en langage objet ou fonctionnel est impérative.
Une première expérience avec Apache Spark et Spark DataFrames sont également souhaitables, en particulier si vous visez la certification associée.
Jour 1
Introduction
L’écosystème Databricks
Spark SQL
Lecture et écriture de données
Dataframe et colonnes
Agrégations
Datetimes
Types complexes
Fonctions additionnelles
UDF : User Defined Functions
Jour 2
Architecture
Shuffle et Cache
Optimisation des requêtes
Spark UI
Gestion des partitions
Exposés
Streaming et requêtes
Processing streaming
Agrégations
Deltalake
Cete formation vous prépare à l'examen de certification Databricks Certified Associate Developer for Apache Spark 3.0. Cette certification atteste de votre compréhension de l'architecture de Spark et de votre capacité à appliquer Spark DataFrame API pour compléter des tâches de manipulation de données.
L'examen est constitué de 60 questions à choix multiples s'étalant sur une durée de 120 minutes. Un score minimal de 42 bonnes réponses est nécessaire pour obtenir la certification.
Le passage de l'examen s'effectue ultérieurement à la formation et n'est pas inclus dans son prix de vente.
Formation officielle Databricks « Optimizing Apache Spark on Databricks »
Formations Informatique
et Management
en ligne à ce jour
+
Stagiaires dans nos salles
de cours sur
l'année
%
De participants satisfaits
ou très satisfaits de nos
formations
Formateurs experts
validés par
PLB