Ga naar hoofdinhoud

Cursus

Webscraping in R

GemiddeldVaardigheidsniveau

Bijgewerkt 04-2024

Leer hoe je met R makkelijk gegevens van elke website kunt verzamelen en downloaden.

Start Cursus Kosteloos

RData Preparation

4 u

13 videos

45 Opdrachten

3,600 XP

15,001

Bewijs van Prestatie

Geliefd bij leerlingen van duizenden bedrijven

Een team trainen?

Probeer voor bedrijven

Cursusbeschrijving

Ben je weleens een website tegengekomen met veel gegevens, zoals statistieken, productreviews of prijzen, maar dan in een formaat dat niet klaar is voor data-analyse? Vaak publiceren overheden en andere dataproducenten hun gegevens in netjes opgemaakte tabellen. Maar niet al deze sites hebben een downloadknop — geen paniek. In deze cursus leer je hoe je met R efficiënt gegevens van elke website verzamelt en downloadt. Je leert hoe je het scrapen en parsen van Wikipedia automatiseert met de pakketten rvest en httr. Met praktische oefeningen verdiep je ook je kennis van HTML en CSS, de bouwstenen van webpagina’s, terwijl je je dataverzamelingsworkflows minder foutgevoelig en efficiënter maakt.

Vereisten

Intermediate R Introduction to the Tidyverse

1

Introductie tot HTML en webscraping

In dit hoofdstuk maak je kennis met HyperText Markup Language (HTML), een declaratieve taal om moderne websites te structureren. Met de rvest-bibliotheek leer je eenvoudige HTML-elementen op te vragen en schraap je je eerste tabel.

Introductie tot HTML

HTML inlezen

Let op syntaxfouten!

Navigeren door HTML

Selecteer alle kinderen van een lijst

Zet hyperlinks om naar een data frame

Scrape je eerste tabel

De juiste volgorde van tabelelementen

Zet een tabel om in een data frame met html_table()

Hoofdstuk beginnen

2

Navigeren en selecteren met CSS

Cascading Style Sheets (CSS) beschrijven hoe HTML-elementen op een webpagina worden weergegeven, inclusief kleuren, lettertypen en de algemene lay-out. In dit hoofdstuk leer je waarom CSS-selectors en combinators onmisbaar zijn voor webscraping.

Introductie tot CSS

Selecteer meerdere HTML-typen

Zet CSS-selectors op volgorde naar aantal resultaten

CSS-klassen en ID's

Bepaal de juiste selectortypen

Profiteer van de uniciteit van ID's

Selecteer het laatste kind met een pseudoklasse

CSS-combinatoren

Selecteer directe afstammelingen met de child-combinator

Hoeveel elementen worden er teruggegeven?

Simpelweg de beste!

Niet elke sibling is hetzelfde

Hoofdstuk beginnen

3

Geavanceerd selecteren met XPATH

De CSS-selectors uit het vorige hoofdstuk zijn krachtig, maar hebben hun beperkingen. Bijvoorbeeld wanneer je knooppunten wilt selecteren op basis van eigenschappen van hun afstammelingen. XPath biedt uitkomst! Met deze querytaal kun je zelfs de meest ondoorgrondelijke HTML navigeren en scrapen.

Introductie tot XPATH

Vind het juiste CSS-equivalent

Selecteer op class en ID met XPATH

Gebruik predicaten om knooppunten te selecteren op basis van hun kinderen

XPATH-functies en geavanceerde predicaten

Vind een elegantere XPATH-alternatief

Maak kennis met de functie position()

Nodes extraheren op basis van het aantal kinderen

De XPATH-functie text()

De tekortkomingen van html_table() bij slecht gestructureerde tabellen

Selecteer rechtstreeks vanuit een ouder-element met XPATH's text()

Geëxtraheerde data combineren in een data frame

Scrape een element op basis van zijn tekst

Hoofdstuk beginnen

4

Best practices voor scrapen

Nu je weet hoe je inhoud uit webpagina’s haalt, is het tijd om achter de schermen te kijken. In dit laatste hoofdstuk leer je waarom HTTP-verzoeken de basis vormen van elke scrapingactie en hoe je ze kunt aanpassen om te voldoen aan best practices voor webscraping.

De aard van HTTP-verzoeken

Welke van deze uitspraken over HTTP is onjuist?

Doe het op de httr-manier

Houston, we got a 404!

Je identiteit doorgeven met aangepaste user agents

Bekijk je user agent

Voeg een eigen user agent toe

Hoe je voorzichtig bent en je verzoeken vertraagt

Aangepaste argumenten voor vertraagde functies

Beperkingssnelheid toepassen op een crawler met meerdere pagina's

Samenvatting: Webscraping in R

Hoofdstuk beginnen

Webscraping in R

Cursus
voltooid

Verdien een prestatieverklaring

Voeg deze referentie toe aan je LinkedIn-profiel, cv of curriculum vitae
Deel het op sociale media en in je functioneringsgesprekSchrijf je nu in

Sluit je aan bij meer dan 19 miljoen leerlingen en start vandaag nog met Webscraping in R!

Ontwikkel je datavaardigheden met DataCamp voor Mobiel

Maak vooruitgang onderweg met onze mobiele cursussen en dagelijkse 5-minuten programmeeruitdagingen.