• FNE
  • FSE

Formation Apache Airflow : Automatisation et orchestration de flux de données

Durée 2 jours
Niveau Intermédiaire
Classe à distance
Possible

Vous pouvez suivre cette formation en direct depuis votre domicile ou votre lieu de travail. Plus d'informations sur notre solution de classe à distance...

Référence AIRF
Éligible CPF Non

Qu'est-ce qu'Apache Airflow ? 

Apache Airflow est un outil open-source de gestion des flux de travail, permettant la création, la planification et la surveillance des workflows programmatiques. Utilisé principalement dans le domaine de l'ingénierie des données, il offre une solution robuste pour orchestrer des pipelines de données complexes de manière efficiente et réplicable.

Pourquoi suivre une formation Apache Airflow ?

Dans un environnement où les données sont essentielles à la prise de décision, maîtriser Apache Airflow devient crucial pour automatiser et gérer des workflows complexes. Cette formation permet de comprendre et d'implémenter des pipelines de données dynamiques et modulaires, assurant la fiabilité et la scalabilité des processus. En acquérant ces compétences, les professionnels augmentent leur valeur ajoutée et leur capacité à gérer des projets de data engineering avancés.

Objectif opérationnel :

Savoir utiliser Apache Airflow pour créer, gérer et surveiller des workflows de données automatisés.

Objectifs pédagogiques :

À l'issue de cette formation Apache Airflow, vous aurez acquis les connaissances nécessaires pour :

  • Comprendre et configurer les workflows avec Apache Airflow
  • Créer, optimiser et superviser des DAGs complexes
  • Intégrer Airflow dans un environnement de production sécurisé
  • Utiliser les meilleures pratiques pour garantir des workflows robustes et maintenables

Public :

Ce cours s'adresse aux développeurs, DevOps, Administrateurs système ou toute personne souhaitant automatiser des workflows.

Prérequis :

Pour suivre cette formation, il est nécessaire d’avoir une expérience de base en programmation Python et de maîtriser les concepts de workflows et pipelines de données. 

Introduction à Apache Airflow

Historique et rôle d'Apache Airflow dans l'orchestration de workflows
Comparaison avec d’autres orchestrateurs : Apache NiFi, Luigi, etc.
Cas d’utilisation courants (ETL, automatisation des processus, etc.)

Architecture d’Airflow

Composants principaux : Scheduler, Webserver, Metadata Database, Worker
Flux de travail interne (DAGs et Tasks)
Installation et configuration de base (Airflow CLI et configuration initiale)

DAGs : Directed Acyclic Graphs

Structure d’un DAG : définition et configuration
Comprendre les opérateurs : BashOperator, PythonOperator, DummyOperator
Programmation d’un premier DAG simple

Exécution des tâches et dépendances

Gestion des dépendances entre tâches
Définition de schémas d’exécution (sequential, parallel, etc.)
Gestion du scheduling avec cron et intervalles de temps (TimeDelta, catchup, etc.)

Monitoring et interface web d’Airflow

Exploration des fonctionnalités clés : Gantt chart, log des tâches, exécution manuelle
Résolution des erreurs et gestion des retards
Travaux pratiquesCréation d’un DAG avec des opérateurs multiples

Personnalisation et opérateurs avancés

Développement d’opérateurs personnalisés (PythonOperator avancé)
Utilisation d’opérateurs préconstruits : BranchPythonOperator, SubDagOperator
Introduction aux Sensors pour surveiller des événements (FileSensor, ExternalTaskSensor)

XComs et communication entre tâches

Transfert de données entre tâches via XComs
Meilleures pratiques pour limiter les erreurs

Extensions et intégrations

Connexions avec des bases de données (Postgres, MySQL, etc.)
Intégration avec des outils cloud (AWS, GCP, Azure)

Airflow en production

Configuration avancée : pools, SLA et gestion des priorités
Mise en place de la haute disponibilité
Stratégies de monitoring et alertes

Bonnes pratiques de développement et de gestion des workflows

Structuration des DAGs pour la maintenabilité
Debugging et optimisation des workflows
Gestion des versions et migration
Travaux pratiquesMise en œuvre d’un projet complet : orchestration d’un pipeline multi-étapes
Optimisation d’un workflow existant
Date de mise à jour du programme : 04/06/2025

Dates et lieux

Du 01 au 03 septembre 2025
Lieu
Distanciel
Durée
2 jrs
1775 € HT
Du 01 au 03 septembre 2025
Lieu
Paris
Durée
2 jrs
1775 € HT
Du 01 au 03 décembre 2025
Lieu
Distanciel
Durée
2 jrs
1775 € HT
Du 01 au 03 décembre 2025
Lieu
Paris
Durée
2 jrs
1775 € HT

Ces formations peuvent aussi vous intéresser :

  • Niveau : Intermédiaire
  • Référence : JUPY

Hadoop, MapReduce, Spark, Machine Learning, R, Python, Dataviz

  • Niveau : Fondamental
  • Référence : ODAB

  • Niveau : Fondamental
  • Référence : ODAN

Formation Hadoop officielle Hortonworks "HDP Developer: Enterprise Apache Spark"

  • Niveau : Intermédiaire
  • Cours officiel : Hortonworks
  • Référence : ODAP


Formations Informatique
et Management
en ligne à ce jour

+
Stagiaires dans nos salles
de cours sur
l'année

%
De participants satisfaits
ou très satisfaits de nos
formations


Formateurs experts
validés par
PLB