Description de la formation Apache Flink

Qu’est-ce qu’Apache Flink ?

Apache Flink est un framework open source de traitement de flux à grande échelle. Conçu pour gérer de grands volumes de données en temps réel, il permet d’analyser les événements au moment où ils se produisent. Sa capacité à traiter des données continues avec faible latence en fait un outil stratégique pour les architectures Big Data modernes.

Pourquoi suivre une formation Apache Flink ?

Dans un contexte où le traitement de données en temps réel devient incontournable, maîtriser Apache Flink permet de concevoir des pipelines de données puissants, réactifs et scalables. Cette formation vous donne les compétences pour intégrer Flink dans des architectures de streaming, réaliser des traitements complexes, et tirer parti des connecteurs et APIs du framework. Elle est essentielle pour les développeurs, architectes et data engineers souhaitant bâtir des solutions de streaming performantes et fiables.

Objectifs

Objectif opérationnel :

Savoir développer, déployer et monitorer des applications de traitement de flux en temps réel avec Apache Flink.

Objectif pédagogiques :

À l'issue de cette formation Apache Flink : Traitement de flux en temps réel, vous aurez acquis les connaissances nécessaires pour :

Comprendre l’architecture et les concepts fondamentaux d’Apache Flink.
Développer des applications Flink pour le traitement de données en streaming.
Exploiter les APIs DataStream et Table/SQL.
Intégrer Flink avec Kafka et d'autres sources de données.
Mettre en œuvre des fenêtres temporelles, jointures, et fonctions d’état.
Déployer et monitorer des jobs Flink en production.

À qui s'adresse cette formation ?

Public :

Cette formation est destinée aux développeurs Big Data, ingénieurs données, architectes logiciels, et administrateurs de systèmes distribués.

Prérequis :

Bonne maîtrise de Java ou Scala et connaissance des architectures Big Data distribuées (ex. Spark, Kafka). Une expérience préalable avec les systèmes de messagerie ou les bases de données temps réel est un plus pour tirer pleinement profit de la formation.

J’évalue mes connaissances pour vérifier que je dispose des prérequis nécessaires pour profiter pleinement de cette formation en faisant ce test.

Contenu du cours Apache Flink

Jour 1

Introduction à Apache Flink et au traitement de flux

Concepts de base du traitement par flux vs traitement par batch
Architecture et modèle d’exécution de Flink
Environnement de développement Flink
Lancement et exécution de jobs Flink simplesTravaux pratiquesObjectif :Comprendre l’exécution d’un job Flink simple
Description :Création d’un premier job en DataStream API pour lire un flux simulé. Quelle différence entre traitement batch et stream ?

Développement avec l’API DataStream

Source, transformations et sinks
Fonctions Map, Filter, FlatMap
Définir un pipeline de traitement
Configuration du contexte d’exécutionTravaux pratiquesObjectif :Manipuler les transformations de base
Description :Construction d’un pipeline de nettoyage de données en continu. Test sur un flux textuel simulé.Jour 2

Gestion du temps et fenêtres temporelles

Temps d’événement vs temps de traitement
Watermarks et gestion des retards
Fenêtres glissantes, tumbling et session
Fonctions de réduction et d’agrégationTravaux pratiquesObjectif :Appliquer des traitements par fenêtre
Description :Création de tableaux de bord en temps réel basés sur des fenêtres de 10 secondes. Que faire en cas de données en retard ?

États, Keyed Streams et traitement complexe

Utilisation de stateful functions
Gestion de l’état et backend d’état
Opérateurs RichFunction
Patterns CEP (Complex Event Processing)Travaux pratiquesObjectif :Implémenter un détecteur de fraude simple
Description :Détection de comportements anormaux avec Flink CEP. Simulation de flux d'événements clients.Jour 3

SQL et Table API dans Flink

Table API vs DataStream API
Requêtes SQL sur des flux de données
Déclaration de tables connectées (Kafka, CSV…)
Fonctions UDF en SQLTravaux pratiquesObjectif :Réaliser une analyse SQL temps réel
Description :Écriture de requêtes SQL sur un flux Kafka simulé. À quoi ressemble une jointure temporelle SQL dans Flink ?

Connecteurs et intégration avec Kafka

Introduction à Apache Kafka
Connecteurs sources/sinks
Configuration d’un job Flink + Kafka
Cas d'usage : pipeline Kafka-FlinkTravaux pratiquesObjectif :Lire et écrire dans Kafka avec Flink
Description :Intégration complète d’un job Flink avec un broker Kafka local. Traitement, enrichissement et publication.Jour 4

Déploiement et monitoring

Modes de déploiement (standalone, YARN, Kubernetes)
Utilisation de Flink Dashboard
Gestion des sauvegardes/checkpoints
Redémarrage automatique et tolérance aux pannesTravaux pratiquesObjectif :Déployer un job sur un cluster local
Description :Déploiement d’un job avec checkpointing activé. Comment Flink gère-t-il les pannes ?

Cas pratique de bout en bout

Construction d’une architecture de streaming
Traitement d’un use-case métier réel (analyse logs, détection incidents)
Suivi de la performance et monitoringTravaux pratiquesObjectif :Réaliser une application de A à Z
Description :Mise en œuvre complète d’une solution streaming avec ingestion, traitement et restitution. Quels outils pour monitorer l’état du pipeline ?

Travaux Pratiques

Environ 60 % de la formation est consacrée aux travaux pratiques. Les exercices utilisent Flink en environnement local avec des jeux de données simulés et connecteurs standards (Kafka, fichiers, etc.).

Date de mise à jour du programme : 27/08/2025

Dates et lieux

Période souhaitée

Lieux

Du 03 au 06 novembre 2025

Lieu

Distanciel

Durée

4 jrs

2490 € HT