• FNE

Formation Data Engineering on Google Cloud Platform

Durée 4 jours
Niveau Intermédiaire
Classe à distance
Possible

Vous pouvez suivre cette formation en direct depuis votre domicile ou votre lieu de travail. Plus d'informations sur notre solution de classe à distance...

Référence GCPDF
Éligible CPF Non
Cours officiel Google

Qu'est-ce que Data Engineering on Google Cloud Platform ?
La Data Engineering sur Google Cloud Platform (GCP) est une discipline clé pour la conception de systèmes de traitement de données sur le cloud. Elle englobe la construction de pipelines de données, le stockage optimisé, et le traitement efficace des flux de données structurées et non structurées. Les ingénieurs utilisent des outils comme BigQuery, Cloud Storage, et Dataflow pour gérer les processus de transformation, de chargement et de nettoyage des données.

Pourquoi suivre une formation Data Engineering on Google Cloud Platform ?
Dans un environnement où les volumes de données augmentent de manière exponentielle, une formation sur GCP permet de maîtriser la gestion des flux de données à grande échelle. Elle permet d’automatiser les pipelines, d’optimiser la gestion des ressources et d’accroître la scalabilité des infrastructures cloud. De plus, elle apporte des compétences précieuses en machine learning et en analytique, ouvrant des opportunités dans les domaines de la data science et de l’intelligence artificielle.

Objectif opérationnel : 

Savoir développer des compétences pour concevoir et gérer des systèmes de traitement de données à grande échelle sur Google Cloud.

Objectifs pédagogiques : 

À l'issue de cette Data Engineering on Google Cloud Platform vous aurez acquis les connaissances et les compétences nécessaires pour :

  • Conception et déploiement de pipelines et d’architectures pour le traitement des données
  • Création et déploiement de workflows de machine learning
  • Interrogation des ensembles de données
  • Visualisation des résultats des requêtes et création de rapports

Public :

Ce cours s'adresse aux développeurs expérimentés qui sont responsables de la gestion des transformations des mégadonnées, notamment: l’extraction, le chargement, la transformation, le nettoyage et la validation des données.

Prérequis :

Pour suivre ce cours "Google Cloud Platform : L'Essentiel du Big Data et du Machine Learning", il est recommandé de : 

  • Avoir suivi le cours Google Cloud Fundamentals: Big Data & Machine Learning ou avoir une expérience équivalente
  • Avoir des compétences de base avec un langage de requête commun tel que SQL
  • Avoir une experience avec la modélisation de données et l ‘ETL
  • Développement d’applications à l’aide d’un langage de programmation commun tel que Python
  • Avoir des connaissances du machine learning et / ou des statistiques

Introduction à l’ingénierie des données

Explorez le rôle d’un data engineer
Analyser les défis d’ingénierie des données
Introduction à BigQuery
Data lakes et data warehouses
Démo: requêtes fédérées avec BigQuery
Bases de données transactionnelles vs data warehouses
Démo: recherche de données personnelles dans votre jeu de données avec l’API DLP
Travailler efficacement avec d’autres équipes de données
Gérer l’accès aux données et gouvernance
Construire des pipelines prêts pour la production
Etude de cas d’un client GCP
Lab: Analyse de données avec BigQuery

Construire un Data Lake​

Introduction aux data lakes
Stockage de données et options ETL sur GCP
Construction d’un data lake à l’aide de Cloud Storage
Démo: optimisation des coûts avec les classes et les fonctions cloud de Google Cloud Storage
Sécurisation de Cloud Storage
Stocker tous les types de données
Démo: exécution de requêtes fédérées sur des fichiers Parquet et ORC dans BigQuery
Cloud SQL en tant que data lake relationnel

Construire un Data Warehouse

Le data warehouse moderne
Introduction à BigQuery
Démo: Requêter des TB + de données en quelques secondes
Commencer à charger des données
Démo: Interroger Cloud SQL à partir de BigQuery
Lab: Chargement de données avec la console et la CLI
Explorer les schémas
Exploration des jeux de données publics BigQuery avec SQL à l’aide de INFORMATION_SCHEMA
Conception de schéma
Démo: Exploration des jeux de données publics BigQuery avec SQL à l’aide de INFORMATION_SCHEMA
Champs imbriqués et répétés dans BigQuery
Lab: tableaux et structures
Optimiser avec le partitionnement et le clustering
Démo: Tables partitionnées et groupées dans BigQuery
Aperçu: Transformation de données par lots et en continu

Introduction à la construction de pipelines de données par lots EL, ELT, ETL

Considérations de qualité
Comment effectuer des opérations dans BigQuery
Démo: ELT pour améliorer la qualité des données dans BigQuery
Des lacunes
ETL pour résoudre les problèmes de qualité des données

Exécution de Spark sur Cloud Dataproc

L’écosystème Hadoop
Exécution de Hadoop sur Cloud Dataproc GCS au lieu de HDFS
Optimiser Dataproc
Atelier: Exécution de jobs Apache Spark sur Cloud Dataproc

Traitement de données sans serveur avec Cloud Dataflow

Cloud Dataflow
Pourquoi les clients apprécient-ils Dataflow?
Pipelines de flux de données
Lab: Pipeline de flux de données simple (Python / Java)
Lab: MapReduce dans un flux de données (Python / Java)
Lab: Entrées latérales (Python / Java)
Templates Dataflow
Dataflow SQL

Gestion des pipelines de données avec Cloud Data Fusion et Cloud Composer

Création visuelle de pipelines de données par lots avec Cloud Data Fusion: composants, présentation de l’interface utilisateur, construire un pipeline, exploration de données en utilisant Wrangler
Lab: Construction et exécution d’un graphe de pipeline dans Cloud Data Fusion
Orchestrer le travail entre les services GCP avec Cloud Composer – Apache Airflow Environment: DAG et opérateurs, planification du flux de travail
Démo: Chargement de données déclenché par un événement avec Cloud Composer, Cloud Functions, Cloud Storage et BigQuery
Lab: Introduction à Cloud Composer

Introduction au traitement de données en streaming

Traitement des données en streaming

Serverless messaging avec Cloud Pub/Sub

Cloud Pub/Sub
Lab: Publier des données en continu dans Pub/Sub

Fonctionnalités streaming de Cloud Dataflow

Fonctionnalités streaming de Cloud Dataflow
Lab: Pipelines de données en continu

Fonctionnalités Streaming à haut débit BigQuery et Bigtable

Fonctionnalités de streaming BigQuery
Lab: Analyse en continu et tableaux de bord
Cloud Bigtable
Lab: Pipelines de données en continu vers Bigtable

Fonctionnalité avancées de BigQuery et performance

Analytic Window Functions
Utiliser des clauses With
Fonctions SIG
Démo: Cartographie des codes postaux à la croissance la plus rapide avec BigQuery GeoViz
Considérations de performance
Lab: Optimisation de vos requêtes BigQuery pour la performance
Lab: Création de tables partitionnées par date dans BigQuery

Introduction à l’analytique et à l’IA

Qu’est-ce que l’IA?
De l’analyse de données ad hoc aux décisions basées sur les données
Options pour modèles ML sur GCP

API de modèle ML prédéfinies pour les données non structurées

Les données non structurées sont difficiles à utiliser
API ML pour enrichir les données
Lab: Utilisation de l’API en langage naturel pour classer le texte non structuré

Big Data Analytics avec les notebooks Cloud AI Platform

Qu’est-ce qu’un notebook
BigQuery Magic et liens avec Pandas
Lab: BigQuery dans Jupyter Labs sur IA Platform

Pipelines de production ML avec Kubeflow

Façons de faire du ML sur GCP
Kubeflow AI Hub
Lab: Utiliser des modèles d’IA sur Kubeflow

Création de modèles personnalisés avec SQL dans BigQuery ML

BigQuery ML pour la construction de modèles rapides
Démo: Entraîner un modèle avec BigQuery ML pour prédire les tarifs de taxi à New York
Modèles pris en charge
Lab: Prédire la durée d’une sortie en vélo avec un modèle de régression dans BigQuery ML
Lab: Recommandations de film dans BigQuery ML

Création de modèles personnalisés avec Cloud AutoML

Pourquoi Auto ML?
Auto ML Vision
Auto ML NLP
Auto ML Tables
Date de mise à jour du programme : 10/10/2024

Dates et lieux

Le 15 octobre 2024
Lieu
Distanciel
Durée
4 jrs
2800 € HT
Du 12 au 15 novembre 2024
Lieu
Distanciel
Durée
4 jrs
2800 € HT
Du 18 au 21 novembre 2024
Lieu
Distanciel
Durée
4 jrs
2800 € HT
Du 18 au 21 novembre 2024
Lieu
Paris
Durée
4 jrs
2800 € HT
Du 28 février au 03 mars 2025
Lieu
Distanciel
Durée
4 jrs
2800 € HT
Du 14 au 17 avril 2025
Lieu
Distanciel
Durée
4 jrs
2800 € HT
Du 24 au 27 juin 2025
Lieu
Distanciel
Durée
4 jrs
2800 € HT
Du 22 au 25 septembre 2025
Lieu
Distanciel
Durée
4 jrs
2800 € HT
Du 01 au 04 décembre 2025
Lieu
Distanciel
Durée
4 jrs
2800 € HT


Formations Informatique
et Management
en ligne à ce jour

+
Stagiaires dans nos salles
de cours sur
l'année

%
De participants satisfaits
ou très satisfaits de nos
formations


Formateurs experts
validés par
PLB