Formation Big Data - Python pour l'analyse de données (cours dédié aux actions collectives Atlas)

Durée 3 jours
Niveau Intermédiaire
Classe à distance
Possible

Vous pouvez suivre cette formation en direct depuis votre domicile ou votre lieu de travail. Plus d'informations sur notre solution de classe à distance...

Référence OAPO
Éligible CPF Non

Cette formation sur l’analyse de données en Python permet aux participants dans un premier temps de découvrir et apprendre le langage Python puis de comprendre pourquoi Python est particulièrement bien adapté à toutes sortes de problèmes d’analyse de données.

Lors de ce cours les participants aborderont donc le traitement de différents formats de données structurées ou non (tableau, matrice, série, CSV, flux XML ou JSON, etc.) tout en les rendant opérationnel dans l’utilisation des principales bibliothèques Python comme NumPy, Pandas, Matplotlib, IPython, SciPy, etc…

Objectif opérationnel :

Savoir utiliser Python pour la manipulation de différents types de données statistiques.

Objectifs pédagogiques :

À l'issue de cette formation Big Data Python, vous aurez acquis les connaissances et compétences nécessaires pour :

  • Utiliser le langage Python dans la modélisation statistique
  • Utiliser les outils d’analyse des données en Python
  • Préparer différents types de données à l’analyse (nettoyage)
  • Extraire les données de différentes sources (fichier, base de données, etc.)
  • Déterminer les fonctions à utiliser selon le type de données
  • Évaluer les performances prédictives d’un algorithme
  • Utiliser Python dans un environnement Big Data
  • Apprendre à mettre en place un modèle d'apprentissage simple Choisir entre la régression et la classification en fonction du type de données
  • Créer des sélections et des classements dans de grands volumes de données pour dégager des tendances
  • Connaître les possibilités de représentations graphiques en Python

Public :

Ce cours Big Data Python convient parfaitement aux développeurs, programmeurs et data analysts ou scientists qui doivent utiliser Python pour l’analyse statistique.
Elle peut également être suivie par toute personne souhaitant utiliser Python pour développer des applications de calcul scientifique ou d’analyse de données.

Prérequis :

Il est nécessaire de connaître la programmation Python et d'avoir de bonnes bases en mathématiques et statistiques.

Jour 1

Rappels des bases de Python

Les caractéristiques du langage Python
Pourquoi choisir Python pour l’analyse de données ?
Philosophie de Python (indentation, objet, etc.)
Les types de données
Appels de fonctions et méthodes
Structures de contrôles (boucle, test, exceptions)
Structures de données et séquences (tuple, liste, primitives, dict)
Les principales bibliothèques de Python (NumPy, Pandas, Matplotlib, Ipython, SciPy)
AtelierTP de synthèse mettant en œuvre les bibliothèques NumPy, Pandas et SciPy. On utilise un gros fichier CSV des naissances que l’on transforme en tableau (Pandas) et on calcule des statistiques comme le « nombre de Laurent nés en telle année selon les départements », « la moyenne des naissances nationales annuelle et l’écart type par région », etc.

Aspects avancés en Python

Espace de noms, périmètre et fonctions locales
Manipuler les fonctions comme des objets
Les fonctions anonymes (lambda)
Fonction à nombre variable d’arguments (*args, **kwargs)
AtelierÉcriture d’une fonction de tri recevant un nombre arbitraire d’arguments
Passage de la fonction heuristique du tri (celle qui précise si un objet est « plus petit » qu’un autre) à la fonction précédente

Acquisition des données

Lecture de fichiers de manière générique et spécifiquement de différents formats courants : CSV, XML, JSON
Utilisation de la bibliothèque requests pour l’acquisition de données externes stockées sur un serveur de l’entreprise ou sur internet
AtelierCet atelier donnera l’occasion aux participants de mettre au point un moteur de recherche simple dans le système de fichiers. Une fois le système de fichiers indexé, il y sera possible de rechercher par mot-clef un fichier et son contenu automatiquementJour 2

Bibliothèques d’Analyses Statistiques

Présentation des principales bibliothèques d’analyse de données Python : Pandas, SciPy, IPython (Jupyter)
Fonctions de manipulation et de calcul matriciel (Numpy)
Fonctions de Statistiques Descriptives (SciPy) : quantiles et des fonctions de répartition pour
différentes lois statistiques
Fonctions de comparaison de populations, mesures d’association
Fonctions de classification automatique (SciPy) : k-means
AtelierCet atelier permettra aux participants d’appliquer leurs connaissances à la réalisation d’un « mini atelier » d’Analyse Technique pour la Finance des Marchés :
- Collecte automatique de séries financières
- Calcul d’indicateurs : d’indicateurs simples (moyennes mobiles) à des indicateurs avancés (tel que le RSI et les Bandes de Bollinger)
- Visualisation des résultats

Visualisation de données

Introduction aux bases de la visualisation de données
Focalisation sur la génération de graphes grâce à la librairie Matplotlib : démonstration de l’application de graphes Matplotlib à la visualisation de problèmes concrets
AtelierCet atelier permettra de poursuivre les travaux de l’atelier précédent en générant des visualisations graphiques illustrant les analyses de données réalisées (les appels à la bibliothèque Matplotlib sont fournis par le formateur afin de rester concentrer principalement sur l’analyse des données)Jour 3

Régression, Classification et Évaluation des Résultats

Établissement d’un modèle de classification et d’un modèle de régression avec Python pour résoudre deux problèmes distincts
Évaluation du modèle dans son contexte, faux positifs, faux négatifs, matrice de confusion, différents scores de précision
AtelierMise en œuvre d’un modèle de classification et de régression en Python

Deep Learning & Frameworks

Différence entre le machine learning et le deep learning
Introduction aux réseaux de neurones et à la descente de gradient
Introduction aux frameworks de deep learning Tensorflow et Keras de Google
AtelierCet atelier permettra d’étudier un modèle de deep learning en fonctionnement sur un problème de classification d’image. L’objectif est de se familiariser avec la notion de couche de neurones, d’hyperparamètres et d’entraînement de modèle

Big Data & Traitement de gros volumes de données

Introduction à l’algorithme de MapReduce
Introduction à la parallélisation du code dans le but d’améliorer les performances de calcul
Introduction à Spark
La composante Spark ML
AtelierMise en œuvre d’un programme Spark ML en Python afin d’être sensibilisé aux possibilités d’auto apprentissage simple en Python
Date de mise à jour du programme : 17/04/2024

Dates et lieux

Du 19 au 21 juin 2024
Lieu
Distanciel
Durée
3 jrs
1995 € HT
Du 19 au 21 juin 2024
Lieu
Paris
Durée
3 jrs
1995 € HT
Du 23 au 25 octobre 2024
Lieu
Distanciel
Durée
3 jrs
1995 € HT
Du 23 au 25 octobre 2024
Lieu
Paris
Durée
3 jrs
1995 € HT
Du 18 au 20 décembre 2024
Lieu
Distanciel
Durée
3 jrs
1995 € HT
Du 18 au 20 décembre 2024
Lieu
Paris
Durée
3 jrs
1995 € HT

Logo partenaire action collective de l'OPCO Atlas Votre formation Python prise en charge jusqu'à 100% des coûts pédagogiques ! *

Depuis 2011, PLB Consultant est partenaire des Actions Collectives Atlas pour vous proposer les meilleures formations informatique et développer vos compétences dans le Numérique :

- En présentiel dans l’une de nos salles en Régions    
- Ã€ distance depuis votre bureau    
- Sessions intra-entreprise dans toute la France.

* jusqu'à 100% des coûts pédagogiques selon votre branche d'activité dans la limite des fonds mutualisés dédiés aux actions collectives et en application des critères de prise en charge en vigueur (cf conditions détaillées sur le site d'Atlas)


Formations Informatique
et Management
en ligne à ce jour

+
Stagiaires dans nos salles
de cours sur
l'année

%
De participants satisfaits
ou très satisfaits de nos
formations


Formateurs experts
validés par
PLB