Python avancé sur Databricks : notebooks, PySpark, SQL, visualisation et MLflow
- Durée
- Durée :4 jours
- Niveau
- Niveau :Avancé
- Certification
- Certification :Non
Qu'est-ce qu'Apache Spark ?
Apache Spark est un moteur de calcul distribué conçu pour traiter rapidement de grands volumes de données. Grâce à ses capacités de traitement batch, streaming, analytique et machine learning, Spark est devenu l'un des composants majeurs des architectures Big Data et Data Engineering modernes.
Pourquoi suivre une formation Apache Spark pour les développeurs Java ?
Les développeurs Java intervenant sur des plateformes Data doivent être capables de concevoir des traitements distribués performants, d'exploiter les APIs Spark et de comprendre les mécanismes d'optimisation propres aux architectures Big Data. Cette formation permet d'acquérir les compétences nécessaires pour développer, déployer et optimiser des applications Spark en Java dans des environnements de production.
Objectif opérationnel :
Savoir développer, déployer et optimiser des applications Apache Spark en Java afin de traiter efficacement des données massives dans un environnement distribué.
Objectif pédagogiques :
À l'issue de cette formation Apache Spark pour les développeurs Java, vous aurez acquis les connaissances et compétences nécessaires pour :
Public cible :
Ce cours s'adresse aux développeurs Java, développeurs Big Data, Data Engineers et architectes techniques souhaitant développer des applications distribuées avec Apache Spark.
Prérequis :
Pour suivre cette formation, il est nécessaire de maîtriser le langage Java ainsi que les concepts de programmation orientée objet. Des connaissances de base en SQL sont recommandées.
J'évalue mes connaissances pour vérifier que je dispose des prérequis nécessaires pour profiter pleinement de cette formation en faisant le test de prérequis.
Les travaux pratiques représentent environ 60 % de la formation. Les participants développent progressivement une application Spark complète exploitant différents jeux de données réels.
Date de mise à jour du programme : 10/06/2026
Python avancé sur Databricks : notebooks, PySpark, SQL, visualisation et MLflow
Apache Storm - Traitement de flux de données avec Storm
Apache Iceberg
Apache Flink : Traitement de flux en temps réel