• NEW

Formation Apache Iceberg

Durée 3 jours
Niveau Intermédiaire
Classe à distance
Possible

Vous pouvez suivre cette formation en direct depuis votre domicile ou votre lieu de travail. Plus d'informations sur notre solution de classe à distance...

Référence ICEB
Éligible CPF Non

Qu'est-ce qu'Apache Iceberg ?

Apache Iceberg est un format de table open source conçu pour les grands data lakes. Il permet une gestion fiable, performante et évolutive des données, en assurant la compatibilité avec de nombreux moteurs de traitement comme Apache Spark, Trino, Flink ou Dremio. Grâce à sa structure innovante et sa gestion des métadonnées, Iceberg répond aux problématiques de versioning, de partitionnement évolutif et de time travel.

Pourquoi suivre une formation Apache Iceberg ?

Avec l’explosion des volumes de données, les architectures data lake classiques atteignent leurs limites. Apache Iceberg permet de structurer et d’optimiser les accès aux données en assurant la conformité ACID, une gestion fine des partitions et une gouvernance robuste. Suivre cette formation Apache Iceberg vous permettra de concevoir et d’implémenter des solutions performantes de data lakehouse, interopérables avec vos outils de traitement distribués. C’est un véritable levier pour moderniser vos infrastructures et maîtriser le cycle de vie des données à grande échelle.

Objectif opérationnel :

Savoir utiliser Apache Iceberg pour créer, gérer et optimiser des tables de données dans un environnement de data lakehouse.

Objectifs pédagogiques :

À l'issue de cette formation Apache Iceberg, vous aurez acquis les connaissances et compétences nécessaires pour :

  • Comprendre les principes fondamentaux d’Apache Iceberg et son architecture
  • Créer, manipuler et versionner des tables Iceberg avec différents moteurs
  • Optimiser les performances des requêtes et des traitements de données
  • Intégrer Iceberg avec Spark, Dremio, Trino ou AWS Glue
  • Appliquer les meilleures pratiques de gouvernance et de sécurité sur les données

Public :

Ce cours s'adresse aux data engineers, architectes data, développeurs Big Data et plus globalement à toute personne en charge de la gestion des données dans un environnement data lake.

Prérequis :

Une bonne maîtrise du langage SQL et des notions sur les architectures data lake sont attendues pour suivre cette formation.

Jour 1

Introduction à Apache Iceberg

Présentation d’Apache Iceberg en tant que format de table open source pour data lakes modernes
Identification des limitations des formats historiques comme Hive, Delta Lake ou Hudi
En quoi Iceberg révolutionne-t-il la gestion des données dans un data lake ?
Découverte des concepts clés : tables immuables, time travel, conformité ACID
Présentation de l’interopérabilité d’Iceberg avec les principaux moteurs de traitement de données

Architecture et composants

Présentation de la structure interne : couches de données et de métadonnées
Exploration des fichiers de manifestes et listes de manifestes
Comment Iceberg gère-t-il les métadonnées sans alourdir les traitements
Introduction au fonctionnement des catalogues : Hive, Glue, REST
Compréhension du rôle du snapshot dans le contrôle de version
Travaux pratiquesObjectif : Créer une table Apache Iceberg avec Spark et explorer sa structure
Description : Utilisation de Spark pour initialiser une table Iceberg
Définition d’un schéma, insertion de données et lecture via le catalogue
Exécution de la commande DESCRIBE HISTORY pour visualiser les snapshots
Vérification de la structure générée (manifestes, métadonnées)
Jour 2

Manipulation des données

Utilisation des opérations de base : INSERT, DELETE, UPDATE, MERGE
Gestion des versions avec snapshot et rollback
Comment restaurer une table à un état antérieur avec Iceberg ?
Utilisation de la commande TIME TRAVEL pour accéder à un état précédent
Présentation des mécanismes de schéma évolutif

Optimisation et maintenance

Mise en place du compactage automatique des petits fichiers
Optimisation du partitionnement grâce au partitionnement caché
Quelles sont les bonnes pratiques pour maintenir les performances des tables Iceberg ?
Utilisation de expireSnapshots pour limiter les métadonnées inutiles
Présentation des opérations de réécriture des manifestes pour optimiser les lectures
Travaux pratiquesObjectif : Manipuler une table Iceberg et mettre en œuvre des opérations de maintenance
Description : Réalisation d’opérations MERGE INTO et DELETE
Création de snapshots intermédiaires et restauration d’un état antérieur
Compactage des fichiers via Spark et suppression des anciens snapshots
Visualisation des améliorations via des plans d’exécution
Jour 3

Intégration avec moteurs et plateformes

Connexion d’Apache Iceberg à Apache Spark, Trino, Dremio et AWS Glue
Comparaison des syntaxes DDL entre les moteurs supportés
Quels moteurs peuvent interagir avec la même table Iceberg sans conversion ?
Démonstration d’interopérabilité Spark ↔ Trino
Configuration des catalogues Hive et REST pour la lecture et l’écriture

Gouvernance et sécurité

Présentation des pratiques de gouvernance sur les données Iceberg
Mise en œuvre de stratégies d’accès avec Apache Ranger ou AWS Lake Formation
Comment gérer les droits d’accès sur les tables Iceberg dans un environnement multi-utilisateurs ?
Gestion des accès au niveau du catalogue et des moteurs
Sensibilisation aux bonnes pratiques de documentation, traçabilité et conformité
Travaux pratiquesObjectif : Intégrer Apache Iceberg avec plusieurs moteurs et appliquer des règles d’accès
Description : Création d’une table accessible depuis Spark et Trino
Configuration d’un catalogue partagé (Hive Metastore)
Attribution de droits simulés via des groupes utilisateurs fictifs
Exécution de requêtes différenciées selon les profils
Date de mise à jour du programme : 18/04/2025

Dates et lieux

Du 07 au 09 juillet 2025
Lieu
Distanciel
Durée
3 jrs
1990 € HT
Du 07 au 09 juillet 2025
Lieu
Paris
Durée
3 jrs
1990 € HT
Du 01 au 03 décembre 2025
Lieu
Distanciel
Durée
3 jrs
1990 € HT
Du 01 au 03 décembre 2025
Lieu
Paris
Durée
3 jrs
1990 € HT

Ces formations peuvent aussi vous intéresser :

BI, dashboard, tableau de bord, data visualisation, reporting

  • Niveau : Intermédiaire
  • Référence : ASUP

Splunk

- 4 jrs

  • Niveau : Intermédiaire
  • Référence : SPLU

  • Niveau : Intermédiaire
  • Certification : Splunk Core Certified Advanced Power User
  • Cours officiel : SPLUNK
  • Référence : SPPU

  • Niveau : Fondamental
  • Référence : ELSE


Formations Informatique
et Management
en ligne à ce jour

+
Stagiaires dans nos salles
de cours sur
l'année

%
De participants satisfaits
ou très satisfaits de nos
formations


Formateurs experts
validés par
PLB