Corso
Pulizia dei dati in R
IntermedioLivello di competenza
Aggiornato 08/2024Inizia Il Corso Gratis
Incluso conPremium or Team
RData Preparation4 h13 video44 Esercizi3,700 XP59,968Attestato di conseguimento
Crea il tuo account gratuito
o
Continuando, accetti i nostri Termini di utilizzo, la nostra Informativa sulla privacy e che i tuoi dati siano conservati negli Stati Uniti.Preferito dagli studenti di migliaia di aziende
Vuoi formare 2 o più persone?
Prova DataCamp for BusinessDescrizione del corso
Supera i problemi comuni con i dati, come rimuovere i duplicati in R
La preparazione dei dati è fondamentale: i data scientist dedicano l'80% del loro tempo alla pulizia e alla manipolazione dei dati e solo il 20% del loro tempo all'analisi effettiva. Il tempo che passi a pulire i dati è super importante perché se analizzi dati sporchi potresti finire per tirare fuori conclusioni sbagliate.In questo corso imparerai un sacco di tecniche per ripulire i dati sporchi usando R. Inizierai convertendo i tipi di dati, applicando vincoli di intervallo e gestendo i duplicati completi e parziali per evitare di contare due volte gli stessi dati.
Affronta le sfide dei dati avanzati
Dopo aver fatto pratica con i problemi più comuni sui dati, passerai a sfide più avanzate, come garantire la coerenza delle misurazioni e gestire i dati mancanti. Dopo ogni nuovo concetto, potrai fare un esercizio pratico per fissare quello che hai imparato e fare esperienza.Impara a usare il collegamento dei record durante la pulizia dei dati
Il collegamento dei record serve per unire i set di dati quando ci sono problemi con i valori, tipo errori di battitura o ortografia diversa. Nel capitolo finale scoprirai questa tecnica utile e la proverai mettendola in pratica per unire due set di dati di recensioni di ristoranti in un unico set di dati.Prerequisiti
Joining Data with dplyr1
Common Data Problems
In this chapter, you'll learn how to overcome some of the most common dirty data problems. You'll convert data types, apply range constraints to remove future data points, and remove duplicated data points to avoid double-counting.
2
Categorical and Text Data
Categorical and text data can often be some of the messiest parts of a dataset due to their unstructured nature. In this chapter, you’ll learn how to fix whitespace and capitalization inconsistencies in category labels, collapse multiple categories into one, and reformat strings for consistency.
3
Advanced Data Problems
In this chapter, you’ll dive into more advanced data cleaning problems, such as ensuring that weights are all written in kilograms instead of pounds. You’ll also gain invaluable skills that will help you verify that values have been added correctly and that missing values don’t negatively impact your analyses.
4
Record Linkage
Record linkage is a powerful technique used to merge multiple datasets together, used when values have typos or different spellings. In this chapter, you'll learn how to link records by calculating the similarity between strings—you’ll then use your new skills to join two restaurant review datasets into one clean master dataset.
Pulizia dei dati in R
Corso completato
Ottieni Attestato di conseguimento
Aggiungi questa certificazione al tuo profilo LinkedIn, al curriculum o al CVCondividila sui social e nella valutazione delle tue performance
Incluso conPremium or Team
Iscriviti OraUnisciti a oltre 19 milioni di studenti e inizia Pulizia dei dati in R oggi!
Crea il tuo account gratuito
o
Continuando, accetti i nostri Termini di utilizzo, la nostra Informativa sulla privacy e che i tuoi dati siano conservati negli Stati Uniti.