Introduction à Hadoop, Hortonworks et au Big Data
Cas d’usage pour Hadoop
Qu’est-ce que le Big Data ?
HDP, Hortonworks et l’écosystème Hadoop
Pourquoi utiliser Hortonworks ?
Introduction à Apache Spark
Qu’est-ce que Spark et d’où vient-il ?
Pourquoi utiliser Spark ?
Spark vs MapReduce
L’évolution rapide de Spark et l’engagement d’Hortonworks
Programmer avec Apache Spark
Les composants de Spark
Premiers pas avec Spark
Les RDD
Transformations et actions
Spark Hello World (wordcount)
Lazy evaluation
Travaux Pratiques :
Assurer ses premiers pas avec Apache Spark
Vue d’ensemble de HDFS et YARN
Vue d’ensemble de HDFS
Le Namenode et le Datanode
Vue d’ensemble de YARN
Composants cœur de YARN
Travaux Pratiques :
Utiliser les commandes HDFS
Programmation RDD avancée
D’autres fonctions de RDD "cœur"
Fonctions de RDD paires
Utiliser la documentation de Spark
Travaux Pratiques :
Utiliser le stockage HDFS
Programmation parallèle avec Spark
Partitionnement, jobs, stage et tasks
L’UI de Spark
Changer le niveau de parrallélisation
Travaux Pratiques :
Programmation parallèle sur Spark
Cacher et persister la donnée
Cache et persistance
Travaux Pratiques :
Cacher et persister la donnée
Exemple d’application itérative : PageRank
Checkpointing
Travaux Pratiques :
Checkpointing et RDD lineage
Créer des applications Spark
Créer une application à soumettre au cluster
Soumettre une application au cluster
Yarn client vs Yarn cluster
Points importants de configuration
Gérer/packager les dépendances
Travaux Pratiques :
Créer une application Spark standalone
Fonctionnalités avancées et amélioration des performances
Accumulateurs
Travaux Pratiques :
Utiliser les accumulateurs pour vérifier la qualité des données
Variables « broadcast »
Travaux Pratiques :
Utiliser les variables broadcast
Partitionnement avancé et opérations
Point de départ pour l’optimisation
Travailler vos données avec Zeppelin
L'exploration de données en Spark avec Zeppelin
Visualisation de données avec Zeppelin
Faire du reporting avec Zeppelin
Spark SQL
Les concepts de Spark SQL
Créer une Dataframe
Sauvegarder une Dataframe
Spark SQL et UDF
Travaux Pratiques :
Spark SQL avec utilisation d’UDF
Spark SQL avec Hive
Spark Streaming
L’architecture de Spark Streaming
Vue d’ensemble de Spark Streaming
Fiabilité des récepteurs et des sources
Transformations et opérations de sorties
Travaux Pratiques :
Wordcount en Spark Streaming
Configurer le checkpointing
Spark MLLib
Vue d’ensemble de MLLib
Apprentissage supervisé
Apprentissage non supervisé