- Référence : OSCR
- Durée : 4 jours (28h)
- Lieu : Au choix. À distance ou en présentiel, à Paris ou en Régions
2490€ HT
Choisir une date et RéserverVous pouvez suivre cette formation en direct depuis votre domicile ou votre lieu de travail. Plus d'informations sur notre solution de classe à distance...
Avec sa réputation d’excellent « langage glue », Python est la technologie idéale pour récupérer des données hétérogènes depuis des sources aux formes variées afin d’accumuler une base de connaissances.
C’est l’objet du scraping, qui vise à parcourir une série de ressources - souvent des sites Web ou des APIs REST - afin d’en extraire des informations ciblées.
Avec cette formation Scraping Python, nous verrons comment s’organise un tel programme, en commençant par créer ensemble un crawler à la main, pour progressivement aller vers des technologies plus sophistiquées, jusqu’à tout automatiser.
Objectif opérationnel :
Savoir maîtriser la manipulation de données web avec Python.
Objectifs pédagogiques :
À l'issue de cette formation Scraping Python, vous aurez acquis les connaissances et les compétences nécessaires pour :
Public :
Ce cours Scraping Python cible principalement les programmeurs déjà à l’aise avec Python, ayant déjà des projets de taille moyenne à leur actif, et souhaitant mettre en œuvre leur propre outillage pour étoffer le stock de données dans lequel ils puissent piocher.
Prérequis :
Pour suivre ce cours Scraping Python, il faut être à l’aise avec le langage Python dans sa dernière version. Le participant doit être capable de créer des scripts complexes de manière autonome ainsi que savoir utiliser écosystème du langage (pip, virtualenv, etc.).
La formation Python (réf. OPYT) constitue un excellent prérequis.
Rappel des fondamentaux
Parcourir le système de fichiers
Gérer proprement l’encoding
Lire et écrire des fichiers
Analyser le JSON, le CSV et l’XML
Les générateurs
Travaux Pratiques
Crawler une collection de CSV pour en faire un rapport statistique
Mon premier scraper
Rappel sur le protocole HTTP
Requêtes simples avec Request
Stocker les données avec SQLAlchemy
Analyser du HTML avec Beautiful Soup
Travaux Pratiques
Crawler les articles de Wikipédia sans passer par l’API, stocker le résultat en base
Concurrence et parallélisme
Threads et GIL
Utiliser plusieurs cœurs avec le multiprocessing
Programmation I/O asyncrone
Performances et éthiques
Utilisation d’une forme de cache : disque, RAM et redis
Introduire un délai aléatoire
Le fichier robot.txt
Travaux Pratiques
Crawler les articles de Wikipédia via l’API et Asyncio
Concurrence et parallélisme
Authentifications et token
Anatomie d’une API REST
Retry propre
Gérer le rate limiting
Gestion des erreurs
Logging de l’application
Exemple avec un client twitter fait à la main
Travaux Pratiques
Crawler les posts de twitter via l’API officielle en utilisant un client déjà existant
Scrappy, un framework de scraping automatique
Introduction aux mécanismes de base du framework
Travaux Pratiques
Crawler les articles de Wikipédia en utilisant scrappy
Selenium, un browser headless
Utiliser Selenium à la main
Utiliser Scrappy et Selenium ensemble
Travaux Pratiques
Crawler les images et les commentaires d’imgur avec scrappy et selenium
Cette formation propose une alternance de pratique et de théorie (50% / 50%) pour une meilleure assimilation des connaissances.
Les avis figurant ci-dessous sont issus des fiches d’évaluation que remplissent les participants à la fin de la formation. Ils sont ensuite publiés automatiquement si les personnes ont explicitement accepté que nous les diffusions.
Mon avis sur le formateur :
"Une très bonne adaptation du programme à nos besoins à la volée (et aux dernières techno, par rapport à ce qui était indiqué sur le programme initial) Très bonne ambiance Peut-être passer un peu moins de temps sur les rappels en début de journée, cela dit ça me semble assez anecdotique"
Mon avis sur la salle de formation :
"Merci pour l'accueil :)"
Ce que j'ai le plus apprécié :
"Setup du PC nickel"
Ce que j'ai le moins apprécié :
"Peut-être un poil froid dans la salle"
Mon avis sur le formateur :
"Le présentateur est expert de son sujet et a adapté la formation à nos attentes. Bienveillant, il a pu répondre avec pédagogie à nos questions."
Snowpark Python, Streamlit, Fast API, Machine Learning
Cloud, IA, Scikit-Learn, SVM, Bayes, clustering, Azure Machine Learning
Développement et exploitation avec Python pour le Pentest
Formations Informatique
et Management
en ligne à ce jour
+
Stagiaires dans nos salles
de cours sur
l'année
%
De participants satisfaits
ou très satisfaits de nos
formations
Formateurs experts
validés par
PLB