Formation Google Cloud Plateform : Ingénierie de Données

Apprenez à concevoir et à construire des systèmes de traitement de données.

Durée 4 jours

Niveau Avancé

Classe à distance

Possible

Référence GCPID

Éligible CPF Non

Cours officiel Google

Référence : GCPID
Durée : 4 jours (28h)
Lieu : Au choix. À distance ou en présentiel, à Paris ou en Régions

3190€ HT

Choisir une date et Réserver

Cette formation sur-mesure Ce cours est réalisable en intra-entreprise, dans vos locaux, dans nos salles ou à distance.

Description de la formation Google Cloud Platorm Data Engineering

L'ingénierie de données sur Google Cloud Platform se concentre sur les services Big Data et Machine Learning de la plate-forme cloud de Google.

L'objectif de cette formation Google Cloud Platform : Ingénerie des données est d'apprendre aux participants à concevoir des systèmes de traitement de données, à créer des pipelines de données de bout en bout, à analyser des données et à effectuer un apprentissage automatique. Les démonstrations s'appuient sur les différents services proposés par Google Cloud Platform : BigQuery, Dataflow, Tensorflow, CloudML, Dataproc...

Objectifs

Objectif opérationnel :

Savoir concevoir des systèmes de traitement de données, créer des pipelines de données de bout en bout, analyser des données et effectuer un apprentissage automatique.

Objectifs pédagogiques :

À l'issue de cette formation Google Cloud Platform : Ingénerie de données vous aurez acquis les connaissances et les compétences nécessaires pour :

Concevoir et déployer des pipelines et des architectures pour le traitement des données
Créer et déployer des workflows de machine learning
Interroger des ensembles de données
Visualiser des résultats de requêtes et création de rapports

À qui s'adresse cette formation ?

Public :

Ce stage s'adresse prioritairement aux développeurs expérimentés en charge de la gestion des grandes transformations de données, notamment en ce qui a trait à : l'extraction, le chargement, la transformation, le nettoyage et la validation des données ; la conception de pipelines et d'architectures pour le traitement de données ; la création et le maintien d'un apprentissage automatique et des modèles statistiques ou encore l'interrogation de jeux de données, visualisation des résultats de requête et création de rapports.

Prérequis :

Pour suivre ce cours, il est nécessaire d'avoir préalablement assisté à la formation Google Cloud Platform : l'essentiel du Big Data et du Machine Learning (GCP100B) ou d'avoir de solides connaissances équivalentes. Il est par ailleurs demandé de connaître un langage de requête commun tel que SQL, d'avoir une expérience de la modélisation, de l'extraction, de la transformation et du chargement de données, de savoir développer des applications en utilisant un langage de programmation commun tel que Python et d'être familiarisé avec le machine learning ou les statistiques.

Contenu du cours Google Cloud Platorm Data Engineering

Introduction à l’ingénierie des données

Explorez le rôle d’un data engineer
Analyser les défis d’ingénierie des données
Introduction à BigQuery
Data lakes et data warehouses
Démo : requêtes fédérées avec BigQuery
Bases de données transactionnelles vs data warehouses
Démo : recherche de données personnelles dans votre jeu de données avec l’API DLP
Travailler efficacement avec d’autres équipes de données
Gérer l’accès aux données et gouvernance
Construire des pipelines prêts pour la production
Étude de cas d’un client GCPTravaux pratiquesAnalyse de données avec BigQuery

Construire un Data Lake

Introduction aux data lakes
Stockage de données et options ETL sur GCP
Construction d’un data lake à l’aide de Cloud Storage
Démo : optimisation des coûts avec les classes et les fonctions cloud de Google Cloud Storage
Sécurisation de Cloud Storage
Stocker tous les types de données
Démo : exécution de requêtes fédérées sur des fichiers Parquet et ORC dans BigQuery
Cloud SQL en tant que data lake relationnel

Construire un Data Warehouse

Le data warehouse moderne
Introduction à BigQuery
Démo : Requêter des TB + de données en quelques secondes
Commencer à charger des données
Démo : Interroger Cloud SQL à partir de BigQueryTravaux pratiquesChargement de données avec la console et la CLIExplorer les schémas
Exploration des jeux de données publics BigQuery avec SQL à l’aide de INFORMATION_SCHEMA
Conception de schéma
Démo : Exploration des jeux de données publics BigQuery avec SQL à l’aide de INFORMATION_SCHEMA
Champs imbriqués et répétés dans BigQueryTravaux pratiquesTableaux et structuresOptimiser avec le partitionnement et le clustering
Démo : Tables partitionnées et groupées dans BigQuery
Aperçu: Transformation de données par lots et en continu

Introduction à la construction de pipelines de données par lots EL, ELT, ETL

Considérations de qualité
Comment effectuer des opérations dans BigQuery
Démo : ELT pour améliorer la qualité des données dans BigQuery
Des lacunes
ETL pour résoudre les problèmes de qualité des données

Exécution de Spark sur Cloud Dataproc

L’écosystème Hadoop
Exécution de Hadoop sur Cloud Dataproc GCS au lieu de HDFS
Optimiser DataprocTravaux pratiquesExécution de jobs Apache Spark sur Cloud Dataproc

Traitement de données sans serveur avec Cloud Dataflow

Cloud Dataflow
Pourquoi les clients apprécient-ils Dataflow ?
Pipelines de flux de donnéesTravaux pratiquesPipeline de flux de données simple (Python / Java)
MapReduce dans un flux de données (Python / Java)
Entrées latérales (Python / Java)Templates Dataflow
Dataflow SQL

Gestion des pipelines de données avec Cloud Data Fusion et Cloud Composer

Création visuelle de pipelines de données par lots avec Cloud Data Fusion : composants, présentation de l’interface utilisateur, construire un pipeline, exploration de données en utilisant WranglerTravaux pratiquesConstruction et exécution d’un graphe de pipeline dans Cloud Data FusionOrchestrer le travail entre les services GCP avec Cloud Composer - Apache Airflow Environment: DAG et opérateurs, planification du flux de travail
Démo : Chargement de données déclenché par un événement avec Cloud Composer, Cloud Functions, Cloud Storage et BigQueryTravaux pratiquesIntroduction à Cloud Composer

Introduction au traitement de données en streaming

Traitement des données en streaming

Serverless messaging avec Cloud Pub/Sub

Cloud Pub/SubTravaux pratiquesPublier des données en continu dans Pub/Sub

Fonctionnalités streaming de Cloud Dataflow

Fonctionnalités streaming de Cloud DataflowTravaux pratiquesPipelines de données en continu

Fonctionnalités Streaming à haut débit BigQuery et Bigtable

Fonctionnalités de streaming BigQueryTravaux pratiquesAnalyse en continu et tableaux de bordCloud BigtableTravaux pratiquesPipelines de données en continu vers Bigtable

Fonctionnalité avancées de BigQuery et performance

Analytic Window Functions
Utiliser des clauses With
Fonctions SIG
Démo : Cartographie des codes postaux à la croissance la plus rapide avec BigQuery GeoViz
Considérations de performanceTravaux pratiquesOptimisation de vos requêtes BigQuery pour la performance
Création de tables partitionnées par date dans BigQuery

Introduction à l’analytique et à l’IA

Qu’est-ce que l’IA ?
De l’analyse de données ad hoc aux décisions basées sur les données
Options pour modèles ML sur GCP

API de modèle ML prédéfinies pour les données non structurées

Les données non structurées sont difficiles à utiliser
API ML pour enrichir les donnéesTravaux pratiquesUtilisation de l’API en langage naturel pour classer le texte non structuré

Big Data Analytics avec les notebooks Cloud AI Platform

Qu’est-ce qu’un notebook
BigQuery Magic et liens avec PandasTravaux pratiquesBigQuery dans Jupyter Labs sur IA Platform

Pipelines de production ML avec Kubeflow

Façons de faire du ML sur GCP
Kubeflow AI HubTravaux pratiquesUtiliser des modèles d’IA sur Kubeflow

Création de modèles personnalisés avec SQL dans BigQuery ML

BigQuery ML pour la construction de modèles rapides
Démo : Entraîner un modèle avec BigQuery ML pour prédire les tarifs de taxi à New York
Modèles pris en chargeTravaux pratiquesPrédire la durée d’une sortie en vélo avec un modèle de régression dans BigQuery ML
Recommandations de film dans BigQuery ML

Création de modèles personnalisés avec Cloud AutoML

Pourquoi Auto ML?
Auto ML Vision
Auto ML NLP
Auto ML Tables

Date de mise à jour du programme : 10/10/2024

Dates et lieux

Période souhaitée

Lieux

Du 22 au 25 septembre 2025

Lieu

Distanciel

Durée

4 jrs

3190 € HT

Du 18 au 21 novembre 2025

Lieu

Distanciel

Durée

4 jrs

3190 € HT

Ces formations peuvent aussi vous intéresser :

Google Cloud Platform : Analyse et Visualisation de Données

- 3 jrs

From Data to Insights with Google Cloud Platform and BigQuery

Niveau : Intermédiaire
Cours officiel : Google

Référence : GCPVD

2250 € HT

Google Cloud Platform : Développement d'Applications

- 3 jrs

Apprenez à concevoir, développer et déployer des applications dans Google Cloud Platform

Niveau : Intermédiaire
Cours officiel : Google

Référence : GCPDEV

2370 € HT

Google Cloud Platform : Débuter avec Google Kubernetes Engine

- 1 jr

Apprendre à déployer et à utiliser des conteneurs Docker avec Google Kubernetes Engine.

Niveau : Fondamental
Cours officiel : Google

Référence : GCPKE

790 € HT

Data Warehousing with BigQuery : Storage Design, Query Optimization, and Administration

- 3 jrs

Découvrez l'architecture de BigQuery et les bonnes pratiques de conception, de lecture, d'optimisation et d'administration de votre entrepôt de données

Niveau : Intermédiaire
Cours officiel : Google

Référence : BIGQ

2100 € HT

> D'autres formations sur le même thème

Formations Informatique
et Management
en ligne à ce jour

+
Stagiaires dans nos salles
de cours sur
l'année

%
De participants satisfaits
ou très satisfaits de nos
formations

Formateurs experts
validés par
PLB

Formation Google Cloud Plateform : Ingénierie de Données

Description de la formation Google Cloud Platorm Data Engineering

Objectifs

À qui s'adresse cette formation ?

Contenu du cours Google Cloud Platorm Data Engineering

Introduction à l’ingénierie des données

Construire un Data Lake​

Construire un Data Warehouse

Introduction à la construction de pipelines de données par lots EL, ELT, ETL

Exécution de Spark sur Cloud Dataproc

Traitement de données sans serveur avec Cloud Dataflow

Gestion des pipelines de données avec Cloud Data Fusion et Cloud Composer

Introduction au traitement de données en streaming

Serverless messaging avec Cloud Pub/Sub

Fonctionnalités streaming de Cloud Dataflow

Fonctionnalités Streaming à haut débit BigQuery et Bigtable

Fonctionnalité avancées de BigQuery et performance

Introduction à l’analytique et à l’IA

API de modèle ML prédéfinies pour les données non structurées

Big Data Analytics avec les notebooks Cloud AI Platform

Pipelines de production ML avec Kubeflow

Création de modèles personnalisés avec SQL dans BigQuery ML

Création de modèles personnalisés avec Cloud AutoML

Dates et lieux

Ces formations peuvent aussi vous intéresser :

Google Cloud Platform : Analyse et Visualisation de Données

Google Cloud Platform : Développement d'Applications

Google Cloud Platform : Débuter avec Google Kubernetes Engine

Data Warehousing with BigQuery : Storage Design, Query Optimization, and Administration

Construire un Data Lake