- Référence : KM404G
- Durée : 3 jours (21h)
- Lieu : Au choix. À distance ou en présentiel, à Paris ou en Régions
2395€ HT
Choisir une date et RéserverVous pouvez suivre cette formation en direct depuis votre domicile ou votre lieu de travail. Plus d'informations sur notre solution de classe à distance...
Cette formation IBM InfoSphere Advanced DataStage est consacrée aux techniques avancées de développement de jobs en parallèle dans DataStage v11.5. Vous approfondissez votre connaissance de l'architecture de DataStage, ainsi que de ses environnements de développement et d'exécution. Vous pourrez ainsi créer des tâches en parallèle robustes, plus fiables, réutilisables et optimisées pour de meilleures performances.
Objectif opérationnel :
Savoir maîtriser les techniques avancées dans DataStage.
Objectifs pédagogiques :
À l'issue de cette formation IBM InfoSphere Advanced DataStage, vous aurez acquis les connaissances et compétences nécessaires pour :
Public :
Ce cours est destiné aux développeurs DataStage expérimentés souhaitant perfectionner leurs techniques de jobs et comprendre l'architecture du framework Parallel.
Prérequis :
Pour suivre ce cours, il est nécessaire d'avoir suivi la formation InfoSphere DataStage Essentials et d'avoir au minimum une année d'expérience en développement de jobs parallèles avec DataStage.
Comprendre l'architecture de Parallel
Comprendre le pipeline et la partition
Comprendre le rôle du fichier de configuration
Créer un job de test de données robuste
Connaître les parties principales du fichier de configuration
Connaître le processus de compilation et l'OSH
Connaître le rôle et les parties principales du Score
Connaître le processus d'exécution des tâches
Comprendre le partitionnement dans le framework
Voir le partitionnement dans Score
Sélectionner les algorithmes de partitionnement
Générer des séquences de nombres (clés de substitution) dans un environnement parallèle partitionné
Trier les données dans Parallel
Trouver des types de tris dans le Score
Réduire le nombre de tris
Optimiser les tâches Fork-Join
Utiliser la fonction Sort stages pour déterminer la dernière ligne d'un groupe
Décrire les clés de tri et la logique de la clé de partition dans Parallel
Comprendre le fonctionnement des buffers dans les jobs en parallèle
Régler les buffers
Éviter les restrictions de buffers
Connaître les ensembles de données virtuelles
Connaître les schémas
Connaître le mapping et les conversions de types de données
Comprendre le traitement des données externes
Gérer les valeurs nulles
Travailler avec des données complexes
Créer un fichier Schéma
Lire un fichier séquentiel en utlisant un schéma
Connaître Runtime Column Propagation (RCP)
Activer et désactiver RCP
Créer et utiliser des containers partagés
Activer la fonction Balanced Optimization dans Designer
Connaître le déroulement de l'optimisation équilibrée
Connaître les différentes options de la fonction d'optimisation
Pousser le stage processing vers une source de données
Pousser le stage processing vers une cible de données
Optimiser ses tâches à l'aide d'Hadoop HDFS
Comprendre les limites de l'optimisation équilibrée.
Formations Informatique
et Management
en ligne à ce jour
+
Stagiaires dans nos salles
de cours sur
l'année
%
De participants satisfaits
ou très satisfaits de nos
formations
Formateurs experts
validés par
PLB