Ga naar hoofdinhoud

Cursus

Omgaan met missende data met imputaties in R

GevorderdVaardigheidsniveau

Bijgewerkt 10-2022

Diagnoseer, visualiseer en behandel ontbrekende gegevens met verschillende imputatietechnieken en tips om je resultaten te verbeteren.

Start Cursus Kosteloos

RData Manipulation

4 u

13 videos

49 Opdrachten

4,200 XP

6,218

Bewijs van Prestatie

Geliefd bij leerlingen van duizenden bedrijven

Een team trainen?

Probeer voor bedrijven

Cursusbeschrijving

Missende data komt overal voor. Het proces van het invullen van ontbrekende waarden heet imputatie. Weten hoe je dit goed aanpakt is essentieel als je nauwkeurige voorspellingen wilt maken en je wilt onderscheiden van de rest. In deze cursus leer je met visualisaties en statistische toetsen patronen van missende data herkennen en hoe je data kunt imputeren met een reeks statistische en Machine Learning-modellen. Je ontwikkelt ook besluitvaardigheid: je leert kiezen welke imputatiemethode het best past bij een bepaalde situatie. Tot slot leer je onzekerheid uit imputatie mee te nemen in je inferenties en voorspellingen, zodat die robuuster en betrouwbaarder worden.

Vereisten

Intermediate Regression in R Dealing With Missing Data in R

1

Het probleem van missende data

In dit hoofdstuk ontdek je waarom missende data een risico kan zijn bij het analyseren van een gegevensset. Je maakt kennis met de drie mechanismen achter missende data en leert ze herkennen met statistische toetsen en visualisatietools.

Ontbrekende data: wat kan er misgaan

Lineaire regressie met onvolledige gegevens

Regressie-uitvoer analyseren

Modellen vergelijken

Mechanismen achter ontbrekende data

Herkennen van mechanismen voor ontbrekende data

t-toets voor MAR: datavoorbereiding

t-toets voor MAR: interpretatie

Ontbrekende datap patronen visualiseren

Aggregatieplot

Ruggengraatafbeelding

Mozaïekdiagram

Hoofdstuk beginnen

2

Donorgebaseerde imputatie

Leer de taxonomie van imputatiemethoden kennen en drie donorgebaseerde technieken: gemiddelde-, hot-deck- en k-Nearest-Neighbors-imputatie. Je kijkt onder de motorkap om te zien hoe deze methoden werken, voordat je ze toepast op een echte gegevensset met tropisch weer. Onderweg leer je ook handige trucs om ze nog beter te laten werken voor jouw problemen.

Gemiddelde-imputatie

De gevaren van mean-imputatie ruiken

Gemiddelde-imputatie voor de temperatuur

De imputatiekwaliteit beoordelen met een margeplot

Hot-deck-imputatie

Standaard hot-deck

Hot-deck tips & tricks I: imputeren binnen domeinen

Hot-deck tips & tricks II: sorteren op gecorreleerde variabelen

k-Nearest-Neighbors-imputatie

Het aantal buren kiezen

kNN tips & tricks I: donoren wegen

kNN tips & tricks II: variabelen sorteren

Hoofdstuk beginnen

3

Modelgebaseerde imputatie

Tijd om statistische en Machine Learning-modellen, zoals lineaire regressie, logistische regressie en random forests, te gebruiken om missende data te imputeren. In dit hoofdstuk kijk je hoe de modellen hun voorspellingen maken en gebruik je die kennis om de geïmputeerde waarden te trekken uit conditionele verdelingen. Dat is belangrijk, omdat je imputaties zo gevarieerder en plausibeler worden en meer lijken op de echte data.

Modelgebaseerde imputatiemethode

Imputatie met lineaire regressie

Missende waarden initialiseren en over variabelen itereren

Convergentie detecteren

Variatie in data repliceren

Imputatie met logistic regression

Trekken uit een conditionele verdeling

Modelgebaseerde imputatie met meerdere variabeletype

Boomgebaseerde imputatie

Imputeren met random forests

Variabelegewijze imputatiefouten

Afweging tussen snelheid en nauwkeurigheid

Hoofdstuk beginnen

4

Onzekerheid door imputatie

Geïmputeerde waarden staan niet in steen gebeiteld. Het zijn schattingen, en schattingen brengen onzekerheid met zich mee. In dit laatste hoofdstuk ontdek je hoe bootstrapping en gekoppelde vergelijkingen met het pakket mice kunnen worden gebruikt om onzekerheid door imputatie op te nemen in je modellen en analyses, zodat ze betrouwbaarder en robuuster worden.

Meervoudige imputatie via bootstrapping

Imputatie en modelleren verpakken in een functie

De bootstrap uitvoeren

Bootstrap-confidence-intervallen

Meervoudige imputatie met chained equations

De mice-flow: mice - with - pool

Standaardmodellen kiezen

Een predictormatrix gebruiken

Alles samenbrengen

Analyseren van patronen in missende data

Imputeren en resultaten inspecteren

Inferentie met geïmputeerde data

Slotopmerkingen

Hoofdstuk beginnen

Omgaan met missende data met imputaties in R

Cursus
voltooid

Verdien een prestatieverklaring

Voeg deze referentie toe aan je LinkedIn-profiel, cv of curriculum vitae
Deel het op sociale media en in je functioneringsgesprekSchrijf je nu in

Sluit je aan bij meer dan 19 miljoen leerlingen en start vandaag nog met Omgaan met missende data met imputaties in R!

Ontwikkel je datavaardigheden met DataCamp voor Mobiel

Maak vooruitgang onderweg met onze mobiele cursussen en dagelijkse 5-minuten programmeeruitdagingen.