• NEW

Formation Starburst : Optimisation et analyse de données distribuées avec Starburst

Interrogez, analysez et optimisez vos données distribuées à grande échelle
Durée 3 jours
Niveau Intermédiaire
Classe à distance
Possible

Vous pouvez suivre cette formation en direct depuis votre domicile ou votre lieu de travail. Plus d'informations sur notre solution de classe à distance...

Référence STAR
Éligible CPF Non

Qu'est-ce que Starburst ?

Starburst est une plateforme analytique distribuée, basée sur Trino (anciennement PrestoSQL), conçue pour interroger efficacement de vastes ensembles de données réparties sur plusieurs sources sans les déplacer. Elle permet une fédération de données moderne et puissante, adaptée aux environnements Big Data et cloud hybrides.

Pourquoi suivre une formation Optimisation et analyse de données distribuées avec Starburst ?

Dans un contexte où les données proviennent de sources toujours plus nombreuses et hétérogènes, maîtriser Starburst permet de centraliser les analyses sans déplacer les données. Cette formation vous aide à concevoir des requêtes performantes, comprendre les plans d'exécution et utiliser au mieux les capacités distribuées de Starburst. Elle s'adresse à toute personne souhaitant optimiser l’accès aux données et améliorer la rapidité d’analyse dans un environnement analytique moderne.

Objectif opérationnel :

Savoir interroger, analyser et optimiser des données distribuées avec Starburst.

Objectifs pédagogiques :

À l'issue de la formation, vous aurez les connaissances nécessaires pour :

  • Comprendre l’architecture et les principes de fonctionnement de Starburst
  • Savoir interroger différentes sources de données à l’aide de SQL via Starburst
  • Analyser et optimiser les performances des requêtes
  • Intégrer Starburst dans un écosystème analytique d’entreprise
  • Sécuriser et administrer les accès aux sources de données

Public :

Ce cours s'adresse aux ingénieurs data, analystes, architectes Big Data et administrateurs de plateformes analytiques.

Prérequis :

Une bonne maîtrise du SQL, des notions d’architecture Big Data (par exemple Hadoop, Data Lake) et une compréhension des concepts de bases de données relationnelles et distribuées sont nécessaires pour suivre cette formation.

Jour 1

Introduction à Starburst et à l’architecture distribuée

Présentation de Trino et Starburst
Fonctionnement de l’architecture fédérée
Connecteurs disponibles et intégration multi-sources
Interface Web, CLI et outils SQL
Travaux pratiquesObjectifs : Découvrir l’interface Starburst, se connecter à plusieurs sources, exécuter ses premières requêtes.
Description : Création d’un workspace, connexion à des sources de données (PostgreSQL, S3), et exécution de requêtes simples. Que permet réellement une fédération de données efficace ?

SQL avancé dans Starburst

Jointures inter-sources
Fonctions analytiques et agrégations
Fonctions spécifiques à Starburst
Gestion des formats de données (Parquet, ORC, etc.)
Travaux pratiquesObjectifs : Maîtriser les fonctions SQL avancées sur des données distribuées.
Description : Création de requêtes complexes, calculs analytiques et filtres sur des jeux de données multi-sources. Comment optimiser une jointure sur des données volumineuses ?

 

Jour 2

Optimisation des requêtes et performance

Analyse des plans d’exécution
Principes de partitionnement et parallélisme
Utilisation de cache et mémoire
Bonnes pratiques d’écriture SQL avec Starburst
Travaux pratiquesObjectifs : Améliorer les temps d'exécution des requêtes.
Description : Étude de cas de lenteurs, comparaison de différents plans d'exécution. Quelles requêtes sont les plus coûteuses et pourquoi ?

Sécurité et gouvernance

Contrôle des accès et rôles
Configuration de la sécurité (LDAP, SSO)
Audits et monitoring
Intégration avec Ranger ou autres outils
Travaux pratiquesObjectifs : Sécuriser l’accès aux données et suivre l’activité.
Description : Mise en place de rôles, tests d’accès restreints, consultation des logs de requêtes. Comment garantir la confidentialité dans un environnement partagé ?

 

Jour 3

Cas d’usage d’entreprise et intégration

Architecture d’intégration typique
Utilisation avec BI : Tableau, Power BI, Superset
Exposition via API REST
Automatisation des workflows d’analyse
Travaux pratiquesObjectifs : Intégrer Starburst dans un écosystème analytique réel.
Description : Connexion avec Tableau, création de dashboards, exportation automatisée des résultats. Comment valoriser les données distribuées dans des outils métiers ?

Projet final : analyse de données interconnectées

Choix d’un cas réel : client, log, ou IoT
Conception d’une requête fédérée complexe
Analyse, visualisation et recommandations
Présentation des résultats
Travaux pratiquesObjectifs : Mobiliser l’ensemble des compétences acquises.
Description : Projet en autonomie, encadré par le formateur, avec revue finale. Quel est l’impact de la fédération sur la performance globale d’un projet analytique ?
Date de mise à jour du programme : 06/06/2025

Dates et lieux

Du 09 au 11 juillet 2025
Lieu
Distanciel
Durée
3 jrs
2 090 € HT
Du 09 au 11 juillet 2025
Lieu
Paris
Durée
3 jrs
2 090 € HT
Du 08 au 10 septembre 2025
Lieu
Distanciel
Durée
3 jrs
2 090 € HT
Du 08 au 10 septembre 2025
Lieu
Paris
Durée
3 jrs
2 090 € HT
Du 12 au 14 novembre 2025
Lieu
Distanciel
Durée
3 jrs
2 090 € HT
Du 12 au 14 novembre 2025
Lieu
Paris
Durée
3 jrs
2 090 € HT

Ces formations peuvent aussi vous intéresser :

  • Niveau : Intermédiaire
  • Référence : AIRF

  • Niveau : Intermédiaire
  • Référence : JUPY

Hadoop, MapReduce, Spark, Machine Learning, R, Python, Dataviz

  • Niveau : Fondamental
  • Référence : ODAB

  • Niveau : Fondamental
  • Référence : ODAN


Formations Informatique
et Management
en ligne à ce jour

+
Stagiaires dans nos salles
de cours sur
l'année

%
De participants satisfaits
ou très satisfaits de nos
formations


Formateurs experts
validés par
PLB

lunmarmerjeuvensamdim
262728293031123456789101112131415161718192021222324252627282930123456