• NEW

Formation AWS Glue : Intégration et traitement de données

Maîtriser AWS Glue pour construire des pipelines ETL serverless performants sur AWS
Durée 3 jours
Niveau Intermédiaire
Classe à distance
Possible

Vous pouvez suivre cette formation en direct depuis votre domicile ou votre lieu de travail. Plus d'informations sur notre solution de classe à distance...

Référence GLUE
Éligible CPF Non

Qu’est-ce que AWS Glue ?

AWS Glue est un service d’intégration de données serverless proposé par Amazon Web Services. Il permet d'extraire, transformer et charger (ETL) des données à partir de diverses sources vers des data lakes, entrepôts de données ou autres services analytiques de l'écosystème AWS. Ce service facilite la préparation de données pour les analyses ou le machine learning en automatisant de nombreuses tâches répétitives.

Pourquoi suivre une formation AWS Glue ?

Dans un contexte où les organisations doivent exploiter d’importants volumes de données de façon agile, AWS Glue s'impose comme un outil essentiel pour orchestrer des workflows de données efficaces. Suivre cette formation permet de comprendre les bonnes pratiques de transformation de données dans le cloud AWS, tout en s'initiant aux architectures modernes orientées données. Elle est idéale pour tout professionnel souhaitant accélérer et fiabiliser les projets analytiques ou de data science.

Objectif opérationnel :

Savoir concevoir et gérer des pipelines ETL serverless à l’aide d’AWS Glue.

Objectif pédagogiques :

À l'issue de cette formation AWS Glue : Intégration et traitement de données, vous aurez acquis les connaissances nécessaires pour :

  • Comprendre l’architecture et les composants d’AWS Glue
  • Créer et exécuter des jobs ETL avec AWS Glue Studio
  • Gérer les catalogues de données Glue Data Catalog
  • Intégrer AWS Glue avec d'autres services AWS (S3, Redshift, Athena…)
  • Automatiser les workflows avec Glue Workflows et Triggers
  • Déboguer, surveiller et optimiser les jobs Glue

Public :

Ce cours s'adresse aux data engineers, architectes cloud, développeurs et professionnels de la donnée travaillant sur AWS.

Prérequis :

Avoir une connaissance de base des services AWS (comme S3, IAM), des principes ETL et des langages SQL et Python. Ces prérequis sont essentiels pour tirer pleinement parti des fonctionnalités avancées de Glue.

Jour 1

Introduction à AWS Glue et son écosystème

 Vue d’ensemble du service AWS Glue
Concepts ETL dans le cloud
Architecture serverless Glue
Présentation des cas d’usage
Travaux pratiquesObjectif : Comprendre les composants de Glue et son intégration AWS
Description : Création d’un premier compte Glue, exploration de l’interface console, tour d’horizon des services interconnectés (S3, IAM, Athena)

Glue Data Catalog

Structure des bases et tables Glue
Crawlers : configuration, exécution et gestion
Partitions et schéma des données
Travaux pratiquesObjectif : Créer et automatiser un catalogue de données
Description : Utilisation d’un Crawler pour indexer un bucket S3 contenant des données brutes, puis interrogation avec Athena
Jour 2

Conception de jobs ETL avec AWS Glue Studio

Interface Glue Studio
Création de workflows visuels
Connexion aux sources de données multiples
Transformation de données avec PySpark
Travaux pratiquesObjectif : Développer un job ETL complet sur Glue
Description : Création d’un job visuel transformant un CSV en format Parquet, avec enrichissement des données

Automatisation avec Triggers et Workflows

Déclencheurs (on-demand, cron, event-based)
Création et exécution de workflows
Gestion des dépendances entre jobs
Travaux pratiquesObjectif : Automatiser des flux de traitement multi-jobs
Description : Construction d’un workflow déclenché quotidiennement, orchestrant plusieurs étapes ETL
Jour 3

Optimisation et monitoring des jobs Glue

Logs et debugging via CloudWatch
Suivi des performances
Gestion des erreurs
Bonnes pratiques de conception
Travaux pratiquesObjectif : Identifier et résoudre des erreurs sur un pipeline Glue
Description : Simulation de cas d’erreur, exploration des logs, ajout de gestion d’exception dans le code PySpark

Intégration avancée AWS

Interaction avec Redshift, RDS, DynamoDB
Utilisation avec AWS Lake Formation
Sécurité : rôles IAM, encryption, audit
Travaux pratiquesObjectif : Connecter Glue à un entrepôt de données AWS
Description : Création d’un job ETL alimentant Redshift à partir de fichiers S3 en appliquant un contrôle d’accès sécurisé

Utilisation de AWS Glue Studio, Glue Console, Amazon S3, Athena. Environ 50% du temps est dédié aux exercices pratiques guidés sur un environnement AWS.

Date de mise à jour du programme : 03/07/2025

Dates et lieux

Du 08 au 10 septembre 2025
Lieu
Distanciel
Durée
3 jrs
1990 € HT
Du 08 au 10 septembre 2025
Lieu
Paris
Durée
3 jrs
1990 € HT
Du 24 au 26 novembre 2025
Lieu
Distanciel
Durée
3 jrs
1990 € HT
Du 24 au 26 novembre 2025
Lieu
Paris
Durée
3 jrs
1990 € HT

Ces formations peuvent aussi vous intéresser :

  • Niveau : Fondamental
  • Cours officiel : AWS
  • Référence : IAAW

  • Niveau : Fondamental
  • Cours officiel : AWS
  • Référence : AWDA

Building Batch Data Analytics Solutions on AWS

  • Niveau : Intermédiaire
  • Cours officiel : Amazon Web Services (AWS)
  • Référence : ILOT

Building Data Analytics Solutions Using Amazon Redshift

  • Niveau : Intermédiaire
  • Cours officiel : Amazon Web Services (AWS)
  • Référence : IRED


Formations Informatique
et Management
en ligne à ce jour

+
Stagiaires dans nos salles
de cours sur
l'année

%
De participants satisfaits
ou très satisfaits de nos
formations


Formateurs experts
validés par
PLB