Cursus
Data opschonen in R
GemiddeldVaardigheidsniveau
Bijgewerkt 08-2024
RData Preparation4 u13 videos44 Opdrachten3,700 XP60,971Bewijs van Prestatie
Maak je kosteloos account aan
Ga verder met GoogleMeer opties weergevenof
Door verder te gaan accepteer je onze Gebruiksvoorwaarden, ons Privacybeleid en dat je gegevens worden opgeslagen in de VS.
Geliefd bij leerlingen van duizenden bedrijven
Een team trainen?
Probeer voor bedrijvenCursusbeschrijving
Overwin veelvoorkomende gegevensproblemen, zoals het verwijderen van dubbele gegevens in R
Er wordt vaak gezegd dat datawetenschappers 80% van hun tijd besteden aan het opschonen en bewerken van data en maar 20% aan het analyseren ervan. De tijd die je besteedt aan het opschonen is superbelangrijk, want als je rommelige data analyseert, kun je verkeerde conclusies trekken.In deze cursus leer je allerlei technieken om vieze data op te schonen met R. Je begint met het omzetten van datatypes, het toepassen van bereikbeperkingen en het omgaan met volledige en gedeeltelijke duplicaten om dubbeltellingen te voorkomen.
Duik in geavanceerde uitdagingen op het gebied van data
Als je eenmaal hebt geoefend met veelvoorkomende gegevensproblemen, ga je verder met moeilijkere uitdagingen, zoals zorgen dat metingen consistent zijn en omgaan met ontbrekende gegevens. Na elk nieuw concept krijg je de kans om een praktische oefening te doen om je kennis te versterken en ervaring op te doen.Leer hoe je recordkoppeling kunt gebruiken tijdens het opschonen van gegevens
Record Linkage wordt gebruikt om datasets samen te voegen als er problemen zijn met de waarden, zoals typefouten of verschillende spellingen. In het laatste hoofdstuk ga je deze handige techniek bekijken en oefenen hoe je het kunt gebruiken om twee datasets met restaurantrecensies samen te voegen tot één dataset.Vereisten
Joining Data with dplyr1
Veelvoorkomende dataproblemen
In dit hoofdstuk leer je hoe je enkele van de meest voorkomende problemen met rommelige data aanpakt. Je zet datatypes om, past bereikbeperkingen toe om toekomstige datapunten te verwijderen en haalt dubbele datapunten weg om dubbel tellen te voorkomen.
2
Categorische en tekstuele data
Categorische en tekstuele data zijn vaak de rommeligste onderdelen van een gegevensset door hun ongestructureerde aard. In dit hoofdstuk leer je hoe je witruimte en inconsistent hoofdlettergebruik in categorielabels corrigeert, meerdere categorieën samenvoegt en strings herformatteert voor consistentie.
3
Geavanceerde dataproblemen
In dit hoofdstuk ga je aan de slag met meer geavanceerde opschoningsproblemen, zoals ervoor zorgen dat gewichten allemaal in kilogram worden genoteerd in plaats van in pounds. Je ontwikkelt ook waardevolle vaardigheden om te controleren of waarden correct zijn ingevoerd en of ontbrekende waarden je analyses niet negatief beïnvloeden.
4
Record Linkage
Record linkage is een krachtige techniek om meerdere gegevenssets samen te voegen, gebruikt wanneer waarden typfouten of verschillende spellingen hebben. In dit hoofdstuk leer je records koppelen door de gelijkenis tussen strings te berekenen—daarna gebruik je je nieuwe vaardigheden om twee gegevenssets met restaurantreviews samen te voegen tot één schone mastergegevensset.
Data opschonen in R
Cursus voltooid
Verdien een prestatieverklaring
Voeg deze referentie toe aan je LinkedIn-profiel, cv of curriculum vitaeDeel het op sociale media en in je functioneringsgesprekSchrijf je nu in
Sluit je aan bij meer dan 19 miljoen leerlingen en start vandaag nog met Data opschonen in R!
Maak je kosteloos account aan
Ga verder met GoogleMeer opties weergevenof
Door verder te gaan accepteer je onze Gebruiksvoorwaarden, ons Privacybeleid en dat je gegevens worden opgeslagen in de VS.
Ontwikkel je datavaardigheden met DataCamp voor Mobiel
Maak vooruitgang onderweg met onze mobiele cursussen en dagelijkse 5-minuten programmeeruitdagingen.