Formation IBM InfoSphere BigInsights : les bases

Durée 3 jours
Niveau Fondamental
Classe à distance
Possible

Vous pouvez suivre cette formation en direct depuis votre domicile ou votre lieu de travail. Plus d'informations sur notre solution de classe à distance...

Référence DW613G
Éligible CPF Non
Cours officiel IBM

Cette formation IBM InfoSphere BigInsights Les bases présente aux participants une vue d'ensemble de la stratégie Big Data d'IBM et de la solution BigInsights en tant que plateforme pour gérer et obtenir des informations de données. Lors de ce cours les participants vont découvrir la valeur ajoutée à BigInsights incluant Big SQL, BigSheets et Big R. Ils verront ensuite en quoi IBM Open Platform (IOP) avec Apache Hadoop est une plateforme collaborative permettant à des solutions Big Data d'être développées sur un ensemble commun de technologies Apache Hadoop.
Il est également réalisé une présentation détaillée des composants principaux du noyau ODP, à savoir Apache Hadoop (y compris HDFS, YARN et MapReduce) et Apache Ambari, ainsi que leurs traitements.

Objectif opérationnel : 

Savoir appréhender les bases d'IBM InfoSphere BigInsights.

Objectifs pédagogiques : 

À l'issue de cette formation IBM InfoSphere BigInsights Les Bases, vous aurez acquis les connaissances et compétences nécessaires pour :

  • Comprendre les objectifs des big data et savoir en quoi c'est important
  • Lister les sources de données
  • Décrire la solution IBM BigInsights
  • Utiliser les nombreux outils IBM BigInsights incluant Big SQL, BigSheets, Big R, Jaql et AQL
  • Lister et décrire les composants majeurs d'une pile open-source Apache Hadoop et des approches de l'Open Data Foundation.
  • Gérer et contrôler les clusters Hadoop avec Apache Ambari et les composants associés
  • Explorer Hadoop Distributed File System (HDFS) en lançant les commandes Hadoop
  • Comprendre les differences entre Hadoop 1 (avec MapReduce 1) et Hadoop 2 (avec YARN et MapReduce 2)
  • Créer et exécuter des tâches basiques MapReduce en ligne de commande
  • Expliquer comment Spark s'intègre dans l'écosystème Hadoop
  • Exécuter des algorythmes itératifs avec Spark RDD.
  • Expliquer le rôle de coordination, de gestion, et de gouvernance dans l'écosystème Hadoop en utilisant Apache Zookeeper, Apache Slider, et Apache Knox.
  • Explorer les méthodes communes pour assurer le mouvement des données
  • Configurer Flume pour le chargement de données et de fichiers logs 
  • Déplacer les données dans HDFS depuis des bases relationnelles avec Sqoop
  • Comprendre quels formats de stockage de données utiliser (flat files, CSV/delimited, Avro/Sequence files, Parquet, etc.)
  • Etudier les différences entre les langages de programmation open-source généralement utilisés avec Hadoop (Pig, Hive) et pour la Data Science (Python, R)
  • Requêter des données depuis Hive
  • Assurer un accès aléatoire sur des données stockées dans HBase
  • Explorer les concepts avancés, incluant Oozie et Solr.

Public :

Cette formation est destinée aux professionnels intéressés par le Big Data et la solution IBM BigInsight. Elle concerne plus précisément les ingénieurs data, les data scientists, les développeurs et les administrateurs souhaitant en savoir plus sur la plateforme IBM Open Platform avec Apache Hadoop.

Prérequis :

Afin de profiter pleinement de ce cours, il est recommandé d'avoir des connaissances sur Linux.

Introduction to Big Data

Atelier :

Setting up the lab environment

Introduction to IBM BigInsights

Atelier : 

Getting started with IBM BigInsights

IBM BigInsights for Analysts

Atelier :

Working with Big SQL and BigSheets

IBM BigInsights for Data Scientist

Atelier :

Analyzing data with Big R, Jaql, and AQL

IBM BigInsights for Enterprise Management

IBM Open Platform with Apache Hadoop

Atelier :

Exploring the HDFS

Apache Ambari

Atelier :

Managing Hadoop clusters with Apache Ambari

Hadoop Distributed File System

Atelier :

File access & basic commands with HDFS

MapReduce and Yarn

Introduction to MapReduce based on MR1
Limitations of MR1
YARN and MR2

Atelier :

Creating and coding a simple MapReduce job (Possibly a more complex second Exercise)

Apache Spark

Atelier :

Working with Spark's RDD to a Spark job

Coordination, management, and governance

Atelier :

Apache ZooKeeper, Apache Slider, Apache Knox

Data Movement

Atelier :

Moving data into Hadoop with Flume and Sqoop

Storing and Accessing Data

Representing Data :  CSV, XML, JSON, and YAML
Open Source Programming Languages: Pig, Hive, and Other (R, Python, etc.)
NoSQL Concepts
Accessing Hadoop data using Hive

Atelier :

Performing CRUD operations using the HBase shell

Querying Hadoop data using Hive

Atelier :

Using Hive to Access Hadoop / HBase Data

Advanced Topics

Controlling job workflows with Oozie
Search using Apache Solr No lab exercises

Date de mise à jour du programme : 25/10/2022

Dates et lieux

Aucune session programmée actuellement.


Formations Informatique
et Management
en ligne à ce jour

+
Stagiaires dans nos salles
de cours sur
l'année

%
De participants satisfaits
ou très satisfaits de nos
formations


Formateurs experts
validés par
PLB