Corso
Pulizia dei dati in R
IntermedioLivello di competenza
Aggiornato 08/2024
RData Preparation4 h13 video44 Esercizi3,700 XP60,971Attestato di conseguimento
Crea il tuo account gratuito
Continua con GoogleMostra più opzionio
Continuando, accetti i nostri Termini di utilizzo, la nostra Informativa sulla privacy e che i tuoi dati siano conservati negli Stati Uniti.
Preferito dagli studenti di migliaia di aziende
Formare un team?
Prova per il BusinessDescrizione del corso
Supera i problemi comuni con i dati, come rimuovere i duplicati in R
La preparazione dei dati è fondamentale: i data scientist dedicano l'80% del loro tempo alla pulizia e alla manipolazione dei dati e solo il 20% del loro tempo all'analisi effettiva. Il tempo che passi a pulire i dati è super importante perché se analizzi dati sporchi potresti finire per tirare fuori conclusioni sbagliate.In questo corso imparerai un sacco di tecniche per ripulire i dati sporchi usando R. Inizierai convertendo i tipi di dati, applicando vincoli di intervallo e gestendo i duplicati completi e parziali per evitare di contare due volte gli stessi dati.
Affronta le sfide dei dati avanzati
Dopo aver fatto pratica con i problemi più comuni sui dati, passerai a sfide più avanzate, come garantire la coerenza delle misurazioni e gestire i dati mancanti. Dopo ogni nuovo concetto, potrai fare un esercizio pratico per fissare quello che hai imparato e fare esperienza.Impara a usare il collegamento dei record durante la pulizia dei dati
Il collegamento dei record serve per unire i set di dati quando ci sono problemi con i valori, tipo errori di battitura o ortografia diversa. Nel capitolo finale scoprirai questa tecnica utile e la proverai mettendola in pratica per unire due set di dati di recensioni di ristoranti in un unico set di dati.Prerequisiti
Joining Data with dplyr1
Problemi comuni nei dati
In questo capitolo imparerai a superare alcuni dei problemi più comuni nei dati sporchi. Convertirai i tipi di dato, applicherai vincoli di intervallo per rimuovere punti dati futuri e eliminerai i duplicati per evitare doppi conteggi.
2
Dati categorici e testuali
I dati categorici e testuali sono spesso le parti più disordinate di un insieme di dati per via della loro natura non strutturata. In questo capitolo imparerai a correggere spazi bianchi e incoerenze nelle maiuscole nelle etichette di categoria, ad accorpare più categorie in una sola e a riformattare le stringhe per garantire coerenza.
3
Problemi avanzati sui dati
In questo capitolo affronterai problemi di pulizia più avanzati, come garantire che i pesi siano tutti espressi in chilogrammi invece che in libbre. Acquisirai anche competenze preziose per verificare che i valori siano stati inseriti correttamente e che i valori mancanti non compromettano le tue analisi.
4
Record Linkage
Il record linkage è una potente tecnica per unire più insiemi di dati, utile quando i valori presentano refusi o grafie differenti. In questo capitolo imparerai a collegare i record calcolando la similarità tra stringhe; poi userai le nuove competenze per unire due insiemi di dati di recensioni di ristoranti in un unico insieme di dati pulito e principale.
Pulizia dei dati in R
Corso completato
Ottieni Attestato di conseguimento
Aggiungi questa certificazione al tuo profilo LinkedIn, al curriculum o al CVCondividila sui social e nella valutazione delle tue performanceIscriviti ora
Unisciti a oltre 19 milioni di studenti e inizia Pulizia dei dati in R oggi!
Crea il tuo account gratuito
Continua con GoogleMostra più opzionio
Continuando, accetti i nostri Termini di utilizzo, la nostra Informativa sulla privacy e che i tuoi dati siano conservati negli Stati Uniti.
Aumenta le tue competenze sui dati con l'app di DataCamp
Avanza ovunque ti trovi con i nostri corsi per dispositivi mobili e le nostre sfide di programmazione quotidiane da 5 minuti.