Formation Spark, développer des applications pour le Big Data

4 sur 5 étoiles

5 étoiles
0%
4 étoiles
100%
3 étoiles
0%
2 étoiles
0%
1 étoile
0%
Voir l'avis
(1 avis)
Durée 3 jours
Niveau Intermédiaire
Classe à distance
Possible

Vous pouvez suivre cette formation en direct depuis votre domicile ou votre lieu de travail. Plus d'informations sur notre solution de classe à distance...

Référence OSHD
Éligible CPF Non

Objectif opérationnel : 

Savoir utiliser Spark pour intégrer des données, les manipuler et utiliser les outils appropriés à chaque situation.

Objectifs pédagogiques : 

Plus concrètement, à l'issue de cette formation Spark, vous aurez acquis les connaissances et compétences nécessaires pour :

  • Comprendre la philosophie de Spark et ses limites
  • Utiliser Spark avec Hadoop
  • Développer avec Spark streaming pour de l’analyse de flux en temps réel
  • Développer des applications réparties avec Spark (parallélisme sur Cluster)
  • Accéder à des données structurées dans vos applications (Spark SQL)
  • Découvrir le machine learning avec Spark ML

Public :

Ce cours Spark s’adresse à des chefs de projet, développeurs, data scientists ou architectes.

Prérequis :

Pour suivre cette formation Spark, il est essentiel d’avoir des connaissances de base en développement dans les univers Java ou Python. Si vous connaissez un autre langage vous serez moins autonome pour réaliser les TP mais la formation gardera un sens au niveau des concepts et des librairies présentées.

Jour 1

Introduction à Hadoop et son écosystème

Introduction générale à hadoop
La place de mapreduce
Le traitement de données avec Hadoop
Les composants d’un cluster Hadoop
Un système de fichiers distribué (HDFS)
Traitement distribué sur un cluster Hadoop (mapreduce)
Travailler avec Yarn
En quoi Spark complète-t-il Hadoop ?
Travaux PratiquesManipulation de fichiers HDFS pour prendre en main l’environnement Hadoop
Exemples de traitement avec mapreduce pour introduire concrètement Spark Streaming

Architecture de Spark

Un framework offrant de nombreux services… 
… mais pas de stockage (Hadoop, AWS S3, Cassandra, MongoDB, etc.)
Rôle du cœur de Spark (moteur)
RDD, la couche d’abstraction des données (Resilient Distributed Datasets)
Accéder aux données avec Spark SQL
Traiter les données en pseudo temps réel avec Spark Streaming
Développer des applications distribuées de machine learning (Spark MLib)
Quels liens entre Spark et les langages de programmation (Java, Python, R, …) ?
Manipuler les graphes avec GraphX
Limites de Spark
Travaux PratiquesQuiz sur le rôle des composants du framework Spark, leurs fonctionnements, et leurs complémentarités
Premiers pas avec la console Spark (scripts simples permettant de manipuler par l’exemple les concepts présentés dans ce chapitre)

Les RDD, structures fondamentales de Spark

Introduction aux RDD
Les sources de données de RDD
Créer et sauvegarder des RDD
Les opérations sur les RDD
Écrire et passer des fonctions de transformation
Fonctionnement des transformations de Spark
Les RDD clé-valeur
Map-Reduce : principe et usage dans Spark
Autres opérations sur les RDD de paires
Exécuter des requêtes SQL (Spark SQL)
Interopérabilité avec les RDD
Travaux PratiquesTransformer les données avec des RDD
Agrégation de données avec les RDD de paires
Soumissions de travaux
Exécution de requêtes SQL
Jour 2

Manipuler les données avec les Dataframe et Datasets

Créer des DataFrames depuis diverses sources de données
Les schémas des DataFrames
Afficher le Dataframe en mode texte (take)
Visualiser graphiquement le DataFrame (display)
Sauvegarder des DataFrames
Requêter des DataFrames avec des expressions sur les colonnes nommées
Les requêtes de groupement et d’aggrégation
Les jointures
Les différences entre Datasets et DataFrames
Créer des Datasets
Charger et sauvegarder des Datasets
Les opérations sur les Datasets
Conversion entre RDD et DataFrames
Travaux PratiquesSynthèse RDD, DataSet, Dataframe  : 
Analyse du fonctionnement de Spark dans l’exécution de nos requêtes d’extraction de données
Création de dataframe à partir de fichiers CSV et Json, affichage et visualisation
Créer explicitement un DataFrame à partir de RDD 
Manipuler des dataframe avec SQL catalyst
Écriture de requêtes SQL
Manipulations de Datasets

Machine learning avec Spark

Introduction au machine learning.
Les différentes classes d'algorithmes.
Présentation de SparkML et MLlib.
Implémentations des différents algorithmes dans MLlib.
Travaux pratiquesMise en œuvre d’apprentissage supervisé au travers d’une classification.Jour 3

Analyser en temps réel avec Spark Streaming

Comprendre l’architecture du streaming.
Présentation des Discretized Streams (DStreams).
Les différents types de sources.
Manipulation de l'API (agrégations, watermarking...).
Machine Learning en temps réel.
Travaux pratiquesCréation de statistiques en temps réel à partir d’une source de données et prédictions à l’aide du machine learning vu dans le TP précédent.

Écriture d'une application compilée

Écrire, configurer et lancer des applications spark
Écrire une application Spark
Compiler et lancer une application
Le mode de déploiement d’une application
L’interface utilisateur web des applications Spark
Configurer les propriétés d’une application
Travaux pratiquesDéploiement d’une application Spark
Date de mise à jour du programme : 07/04/2023

Dates et lieux

Du 13 au 15 novembre 2024
Session garantie
Lieu
Distanciel
Durée
3 jrs
1995 € HT
Du 13 au 15 novembre 2024
Session garantie
Lieu
Paris
Durée
3 jrs
1995 € HT

Logo partenaire action collective de l'OPCO Atlas Votre formation Spark prise en charge jusqu'à 100% des coûts pédagogiques ! *

Depuis 2011, PLB Consultant est partenaire des Actions Collectives Atlas pour vous proposer les meilleures formations informatique et développer vos compétences dans le Numérique :

- En présentiel dans l’une de nos salles en Régions      
- Ã€ distance depuis votre bureau      
- Sessions intra-entreprise dans toute la France.

* jusqu'à 100% des coûts pédagogiques selon votre branche d'activité dans la limite des fonds mutualisés dédiés aux actions collectives et en application des critères de prise en charge en vigueur (cf conditions détaillées sur le site d'Atlas)

Avis des participants à la formation Spark, développer des applications pour le Big Data

Note moyenne de 4/5(1)

Les avis figurant ci-dessous sont issus des fiches d’évaluation que remplissent les participants à la fin de la formation. Ils sont ensuite publiés automatiquement si les personnes ont explicitement accepté que nous les diffusions.

AA
4/5


Formations Informatique
et Management
en ligne à ce jour

+
Stagiaires dans nos salles
de cours sur
l'année

%
De participants satisfaits
ou très satisfaits de nos
formations


Formateurs experts
validés par
PLB