Vai al contenuto principale

Corso

Web scraping in R

IntermedioLivello di competenza

Aggiornato 04/2024

Scopri come raccogliere e scaricare dati da qualsiasi sito web in modo efficiente usando R.

Inizia il corso gratis

RData Preparation

4 h

13 video

45 Esercizi

3,600 XP

15,001

Attestato di conseguimento

Preferito dagli studenti di migliaia di aziende

Formare un team?

Prova per il Business

Descrizione del corso

Ti è mai capitato di trovare un sito pieno di dati—statistiche, recensioni di prodotti o prezzi—ma in un formato poco adatto all’analisi? Spesso enti e altri fornitori pubblicano i dati in tabelle ben formattate. Tuttavia, non tutti questi siti includono un pulsante di download: niente panico. In questo corso imparerai a raccogliere e scaricare in modo efficiente dati da qualsiasi sito web usando R. Vedrai come automatizzare lo scraping e il parsing di Wikipedia con i pacchetti rvest e httr. Con esercizi pratici, approfondirai anche HTML e CSS, i mattoni delle pagine web, rendendo i tuoi flussi di raccolta dati meno soggetti a errori e più efficienti.

Prerequisiti

Intermediate R Introduction to the Tidyverse

1

Introduzione a HTML e al web scraping

In questo capitolo conoscerai l’Hyper Text Markup Language (HTML), un linguaggio dichiarativo usato per strutturare i siti web moderni. Con la libreria rvest imparerai a interrogare semplici elementi HTML e a eseguire lo scraping della tua prima tabella.

Introduzione a HTML

Leggere HTML

Attenzione agli errori di sintassi!

Navigare nell'HTML

Seleziona tutti i figli di una lista

Analizza gli hyperlink in un data frame

Estrai la tua prima tabella

L'ordine corretto degli elementi di una tabella

Trasforma una tabella in un data frame con html_table()

Inizia il capitolo

2

Navigazione e selezione con CSS

I Cascading Style Sheets (CSS) descrivono come gli elementi HTML vengono visualizzati in una pagina web, inclusi colori, font e layout generale. In questo capitolo scoprirai perché i selettori e i combinatori CSS sono ingredienti fondamentali per il web scraping.

Introduzione ai CSS

Seleziona più tipi di HTML

Ordina i selettori CSS per numero di risultati

Classi e ID in CSS

Individua i tipi di selettori corretti

Sfrutta l'unicità degli ID

Seleziona l'ultimo figlio con una pseudo-classe

Combinatori CSS

Seleziona i discendenti diretti con il combinatore child

Quanti elementi vengono restituiti?

Semplicemente il meglio!

Non tutti i fratelli sono uguali

Inizia il capitolo

3

Selezioni avanzate con XPATH

I selettori CSS che hai visto nel capitolo precedente sono potenti, ma hanno dei limiti. Per esempio, quando vuoi selezionare nodi in base alle proprietà dei loro discendenti. Entra in gioco XPath! Con questo linguaggio di query puoi navigare ed estrarre anche l’HTML più ostico.

Introduzione a XPATH

Trova l'equivalente CSS corretto

Seleziona per classe e ID con XPATH

Usa i predicati per selezionare nodi in base ai loro figli

Funzioni XPATH e predicati avanzati

Trova un'alternativa XPATH più elegante

Scopri la funzione position()

Estrai nodi in base al numero dei loro figli

La funzione XPATH text()

I limiti di html_table() con tabelle strutturate male

Seleziona direttamente da un elemento padre con la funzione XPATH text()

Combina i dati estratti in un data frame

Fai scraping di un elemento in base al suo testo

Inizia il capitolo

4

Best practice per lo scraping

Ora che sai come estrarre contenuti dalle pagine web, è il momento di guardare dietro le quinte. In questo capitolo finale imparerai perché le richieste HTTP sono la base di ogni operazione di scraping e come personalizzarle per rispettare le best practice del web scraping.

La natura delle richieste HTTP

Quale di queste affermazioni su HTTP è falsa?

Fallo con httr

Houston, abbiamo un 404!

Dire chi sei con user agent personalizzati

Dai un'occhiata al tuo user agent

Aggiungi un user agent personalizzato

Come essere gentile e rallentare le tue richieste

Argomenti personalizzati per funzioni con throttling

Applica il throttling a un crawler multi-pagina

Riepilogo: Web Scraping in R

Inizia il capitolo

Web scraping in R

Corso
completato

Ottieni Attestato di conseguimento

Aggiungi questa certificazione al tuo profilo LinkedIn, al curriculum o al CV
Condividila sui social e nella valutazione delle tue performanceIscriviti ora

Unisciti a oltre 19 milioni di studenti e inizia Web scraping in R oggi!

Aumenta le tue competenze sui dati con l'app di DataCamp

Avanza ovunque ti trovi con i nostri corsi per dispositivi mobili e le nostre sfide di programmazione quotidiane da 5 minuti.