Formation Scraping et manipulation de données avec Python

À la découverte de Request, Asyncio, Scrappy et Selenium

(3 avis)

Durée 4 jours

Niveau Avancé

Classe à distance

Possible

Référence OSCR

Éligible CPF Non

Référence : OSCR
Durée : 4 jours (28h)
Lieu : Au choix. À distance ou en présentiel, à Paris ou en Régions

2490€ HT

Choisir une date et Réserver

Cette formation sur-mesure Ce cours est réalisable en intra-entreprise, dans vos locaux, dans nos salles ou à distance.

Description de la formation Scraping Python

Avec sa réputation d’excellent « langage glue », Python est la technologie idéale pour récupérer des données hétérogènes depuis des sources aux formes variées afin d’accumuler une base de connaissances.

C’est l’objet du scraping, qui vise à parcourir une série de ressources - souvent des sites Web ou des APIs REST - afin d’en extraire des informations ciblées.

Avec cette formation Scraping Python, nous verrons comment s’organise un tel programme, en commençant par créer ensemble un crawler à la main, pour progressivement aller vers des technologies plus sophistiquées, jusqu’à tout automatiser.

Objectifs

Objectif opérationnel :

Savoir maîtriser la manipulation de données web avec Python.

Objectifs pédagogiques :

À l'issue de cette formation Scraping Python, vous aurez acquis les connaissances et les compétences nécessaires pour :

Comprendre les enjeux techniques et ethniques du scraping
Connaître les différentes méthodes utilisées pour récupérer, traiter et stocker les données
Maîtriser les technologies existantes pour choisir la solution adaptée à votre besoin d’acquisition

À qui s'adresse cette formation ?

Public :

Ce cours Scraping Python cible principalement les programmeurs déjà à l’aise avec Python, ayant déjà des projets de taille moyenne à leur actif, et souhaitant mettre en œuvre leur propre outillage pour étoffer le stock de données dans lequel ils puissent piocher.

Prérequis :

Pour suivre ce cours Scraping Python, il faut être à l’aise avec le langage Python dans sa dernière version. Le participant doit être capable de créer des scripts complexes de manière autonome ainsi que savoir utiliser écosystème du langage (pip, virtualenv, etc.).
La formation Python (réf. OPYT) constitue un excellent prérequis.

J’évalue mes connaissances pour vérifier que je dispose des prérequis nécessaires pour profiter pleinement de cette formation en faisant ce test.

Contenu du cours Scraping Python

La base du traitement par lot (scraping)

Rappel des fondamentaux

Parcourir le système de fichiers
Gérer proprement l’encoding
Lire et écrire des fichiers
Analyser le JSON, le CSV et l’XML
Les générateurs

Travaux Pratiques

Crawler une collection de CSV pour en faire un rapport statistique

Parcours de données sur le Web

Mon premier scraper

Rappel sur le protocole HTTP
Requêtes simples avec Request
Stocker les données avec SQLAlchemy
Analyser du HTML avec Beautiful Soup

Travaux Pratiques

Crawler les articles de Wikipédia sans passer par l’API, stocker le résultat en base

Questions de performances

Concurrence et parallélisme

Threads et GIL
Utiliser plusieurs cœurs avec le multiprocessing
Programmation I/O asyncrone
Performances et éthiques
Utilisation d’une forme de cache : disque, RAM et redis
Introduire un délai aléatoire
Le fichier robot.txt

Travaux Pratiques

Crawler les articles de Wikipédia via l’API et Asyncio

Les API professionnelles

Concurrence et parallélisme

Authentifications et token
Anatomie d’une API REST
Retry propre
Gérer le rate limiting
Gestion des erreurs
Logging de l’application
Exemple avec un client twitter fait à la main

Travaux Pratiques

Crawler les posts de twitter via l’API officielle en utilisant un client déjà existant

Industrialiser le crawling

Scrappy, un framework de scraping automatique

Introduction aux mécanismes de base du framework

Travaux Pratiques

Crawler les articles de Wikipédia en utilisant scrappy

Selenium, un browser headless

Utiliser Selenium à la main
Utiliser Scrappy et Selenium ensemble

Travaux Pratiques

Crawler les images et les commentaires d’imgur avec scrappy et selenium

Travaux Pratiques

Cette formation propose une alternance de pratique et de théorie (50% / 50%) pour une meilleure assimilation des connaissances.

Date de mise à jour du programme : 14/09/2020

Dates et lieux

Période souhaitée

Lieux

Du 21 au 24 avril 2026

Lieu

Distanciel

Durée

4 jrs

2490 € HT

Du 21 au 24 avril 2026

Lieu

Paris

Durée

4 jrs

2490 € HT

Du 21 au 24 juillet 2026

Lieu

Distanciel

Durée

4 jrs

2490 € HT

Du 21 au 24 juillet 2026

Lieu

Paris

Durée

4 jrs

2490 € HT

Du 20 au 23 octobre 2026

Lieu

Distanciel

Durée

4 jrs

2490 € HT

Du 20 au 23 octobre 2026

Lieu

Paris

Durée

4 jrs

2490 € HT

Avis des participants à la formation Scraping et manipulation de données avec Python

Note moyenne de 4.7/5(3)

Les avis figurant ci-dessous sont issus des fiches d’évaluation que remplissent les participants à la fin de la formation. Ils sont ensuite publiés automatiquement si les personnes ont explicitement accepté que nous les diffusions.

4/5

Mon avis sur le formateur :

"Une très bonne adaptation du programme à nos besoins à la volée (et aux dernières techno, par rapport à ce qui était indiqué sur le programme initial) Très bonne ambiance Peut-être passer un peu moins de temps sur les rappels en début de journée, cela dit ça me semble assez anecdotique"

Mon avis sur la salle de formation :

"Merci pour l'accueil :)"

Ce que j'ai le plus apprécié :

"Setup du PC nickel"

Ce que j'ai le moins apprécié :

"Peut-être un poil froid dans la salle"

5/5

Mon avis sur le formateur :

"Le présentateur est expert de son sujet et a adapté la formation à nos attentes. Bienveillant, il a pu répondre avec pédagogie à nos questions."

5/5

Ces formations peuvent aussi vous intéresser :

Python : Bonnes pratiques et Design patterns

- 4 jrs

Niveau : Intermédiaire

Référence : OPYD

En intra uniquement

Développement Python : Tests, Optimisation et Packaging

- 3 jrs

Maîtrisez les bonnes pratiques de tests, d’optimisation et de distribution d’applications Python professionnelles

Niveau : Intermédiaire

Référence : DPTO

1990 € HT

Python programmation parallèle et calcul distribué dans le Cloud

- 4 jrs

Exploiter le parallélisme, le calcul distribué et le Cloud avec Python

Niveau : Fondamental

Référence : PYCD

2490 € HT

Machine Learning avec Python

- 4 jrs

Cloud, IA, Scikit-Learn, SVM, Bayes, clustering, Azure Machine Learning

Niveau : Intermédiaire

Référence : OPML

2490 € HT

> D'autres formations sur le même thème

Formations Informatique
et Management
en ligne à ce jour

+
Stagiaires dans nos salles
de cours sur
l'année

4,7/5
95% de nos participants
sont satisfaits ou
très satisfaits

Formateurs experts
validés par
PLB

%
Des participants
recommandent
nos formations