Accéder au contenu principal

Cours

Web scraping en R

IntermédiaireNiveau de compétence

Actualisé 04/2024

Apprenez à collecter et télécharger efficacement des données à partir de n'importe quel site web à l'aide de R.

Commencer le cours gratuitement

RData Preparation

4 h

13 vidéos

45 Exercices

3,600 XP

14,993

Certificat de formation

Apprécié par des utilisateurs provenant de milliers d'entreprises

Former une équipe ?

Essayez pour les entreprises

Description du cours

Vous êtes déjà tombé sur un site web qui affiche beaucoup de données — statistiques, avis produits, prix — dans un format peu adapté à l’analyse de données ? Il arrive que des organismes et autres producteurs publient leurs données dans des tableaux bien structurés. Mais tous ces sites n’offrent pas un bouton de téléchargement. Pas de panique : dans ce cours, vous apprendrez à collecter et télécharger efficacement des données depuis n’importe quel site avec R. Vous verrez comment automatiser le scraping et l’analyse de pages Wikipédia avec les packages rvest et httr. À travers des exercices pratiques, vous consoliderez aussi votre compréhension de HTML et CSS, les briques de base des pages web, pour rendre vos workflows de collecte plus fiables et plus efficaces.

Prérequis

Intermediate R Introduction to the Tidyverse

1

Introduction à HTML et au web scraping

Dans ce chapitre, vous découvrirez le HyperText Markup Language (HTML), un langage déclaratif utilisé pour structurer les sites web modernes. Avec la bibliothèque rvest, vous apprendrez à interroger des éléments HTML simples et à extraire votre premier tableau.

Introduction au HTML

Lire du HTML

Attention aux erreurs de syntaxe !

Naviguer dans le HTML

Sélectionner tous les enfants d’une liste

Analyser des hyperliens dans un data frame

Récupérez votre premier tableau

Le bon ordre des éléments d’un tableau

Transformer un tableau en data frame avec html_table()

Commencer le chapitre

2

Navigation et sélection avec CSS

Les feuilles de style en cascade (CSS) décrivent la façon dont les éléments HTML s’affichent sur une page web : couleurs, polices, mise en page générale. Dans ce chapitre, vous verrez pourquoi les sélecteurs et combinateurs CSS sont essentiels pour le web scraping.

Introduction au CSS

Sélectionner plusieurs types HTML

Classer les sélecteurs CSS par nombre de résultats

Classes et ID en CSS

Identifier les bons types de sélecteurs

Exploiter l’unicité des IDs

Sélectionner le dernier enfant avec une pseudo-classe

Combinateurs CSS

Sélectionner les descendants directs avec le combinateur enfant

Combien d’éléments sont renvoyés ?

Tout simplement le meilleur !

Tous les frères ne se valent pas

Commencer le chapitre

3

Sélection avancée avec XPATH

Les sélecteurs CSS que vous avez découverts au chapitre précédent sont puissants, mais ils ont des limites, par exemple lorsque vous souhaitez sélectionner des nœuds en fonction des propriétés de leurs descendants. XPath vient à la rescousse ! Grâce à ce langage de requête, vous pouvez naviguer et extraire même le HTML le plus récalcitrant.

Introduction à XPATH

Trouvez l’équivalent CSS correct

Sélectionner par classe et ID avec XPATH

Utiliser des prédicats pour sélectionner des nœuds selon leurs enfants

Fonctions XPATH et prédicats avancés

Trouver une alternative XPATH plus élégante

Faites connaissance avec la fonction position()

Extraire des nœuds en fonction du nombre de leurs enfants

La fonction XPATH text()

Les limites de html_table() avec des tableaux mal structurés

Sélectionner directement depuis un élément parent avec la fonction XPATH text()

Combiner les données extraites dans un data frame

Extraire un élément en fonction de son texte

Commencer le chapitre

4

Bonnes pratiques de scraping

Maintenant que vous savez extraire du contenu de pages web, passons dans les coulisses. Dans ce dernier chapitre, vous verrez pourquoi les requêtes HTTP sont à la base de toute opération de scraping et comment les personnaliser pour respecter les bonnes pratiques en web scraping.

La nature des requêtes HTTP

Laquelle de ces affirmations sur HTTP est fausse ?

Faites-le à la manière de httr

Houston, on a un code 404 !

Vous identifier avec des user agents personnalisés

Examinez votre user agent

Ajouter un user agent personnalisé

Comment rester respectueux et ralentir vos requêtes

Arguments personnalisés pour les fonctions ralenties

Appliquer un throttling à un crawler multi‑pages

Récapitulatif : le web scraping en R

Commencer le chapitre

Web scraping en R

Cours
terminé

Obtenez un certificat de réussite

Ajoutez cette certification à votre profil LinkedIn, à votre CV ou à votre portfolio
Partagez-la sur les réseaux sociaux et dans votre évaluation de performanceS'inscrire maintenant

Rejoignez plus de 19 millions d'utilisateurs et commencez Web scraping en R dès aujourd'hui !

Apprenez où que vous soyez avec l'application DataCamp

Progressez où que vous soyez grâce à nos cours conçus pour mobile et à nos défis quotidiens de 5 minutes.