Vai al contenuto principale

Corso

Pulizia dei dati in R

IntermedioLivello di competenza

Aggiornato 08/2024

Impara a pulire i dati nel modo più veloce e preciso possibile per passare dai dati grezzi a informazioni super utili.

Inizia il corso gratis

RData Preparation

4 h

13 video

44 Esercizi

3,700 XP

60,971

Attestato di conseguimento

Preferito dagli studenti di migliaia di aziende

Formare un team?

Prova per il Business

Descrizione del corso

Supera i problemi comuni con i dati, come rimuovere i duplicati in R

La preparazione dei dati è fondamentale: i data scientist dedicano l'80% del loro tempo alla pulizia e alla manipolazione dei dati e solo il 20% del loro tempo all'analisi effettiva. Il tempo che passi a pulire i dati è super importante perché se analizzi dati sporchi potresti finire per tirare fuori conclusioni sbagliate.

In questo corso imparerai un sacco di tecniche per ripulire i dati sporchi usando R. Inizierai convertendo i tipi di dati, applicando vincoli di intervallo e gestendo i duplicati completi e parziali per evitare di contare due volte gli stessi dati.

Affronta le sfide dei dati avanzati

Dopo aver fatto pratica con i problemi più comuni sui dati, passerai a sfide più avanzate, come garantire la coerenza delle misurazioni e gestire i dati mancanti. Dopo ogni nuovo concetto, potrai fare un esercizio pratico per fissare quello che hai imparato e fare esperienza.

Impara a usare il collegamento dei record durante la pulizia dei dati

Il collegamento dei record serve per unire i set di dati quando ci sono problemi con i valori, tipo errori di battitura o ortografia diversa. Nel capitolo finale scoprirai questa tecnica utile e la proverai mettendola in pratica per unire due set di dati di recensioni di ristoranti in un unico set di dati.

Prerequisiti

Joining Data with dplyr

1

Problemi comuni nei dati

In questo capitolo imparerai a superare alcuni dei problemi più comuni nei dati sporchi. Convertirai i tipi di dato, applicherai vincoli di intervallo per rimuovere punti dati futuri e eliminerai i duplicati per evitare doppi conteggi.

Vincoli sui tipi di dati

Tipi di dati comuni

Conversione dei tipi di dato

Pulizia di stringhe

Vincoli di intervallo

Vincoli sulla durata delle corse

Ritorno al futuro

Vincoli di unicità

Duplicati completi

Rimozione dei duplicati parziali

Aggregare duplicati parziali

Inizia il capitolo

2

Dati categorici e testuali

I dati categorici e testuali sono spesso le parti più disordinate di un insieme di dati per via della loro natura non strutturata. In questo capitolo imparerai a correggere spazi bianchi e incoerenze nelle maiuscole nelle etichette di categoria, ad accorpare più categorie in una sola e a riformattare le stringhe per garantire coerenza.

Verificare l'appartenenza

Solo per membri

Non è un membro

Problemi con i dati categorici

Individuare le incoerenze

Correggere le incoerenze

Unire categorie

Pulire i dati testuali

Rilevare dati testuali incoerenti

Sostituire e rimuovere

Numeri di telefono non validi

Inizia il capitolo

3

Problemi avanzati sui dati

In questo capitolo affronterai problemi di pulizia più avanzati, come garantire che i pesi siano tutti espressi in chilogrammi invece che in libbre. Acquisirai anche competenze preziose per verificare che i valori siano stati inseriti correttamente e che i valori mancanti non compromettano le tue analisi.

Uniformità

Uniformità delle date

Uniformità della valuta

Convalida tra campi

Convalidare i totali

Convalidare l’età

Completezza

Tipi di mancanza

Visualizzare i valori mancanti

Gestione dei dati mancanti

Inizia il capitolo

4

Record Linkage

Il record linkage è una potente tecnica per unire più insiemi di dati, utile quando i valori presentano refusi o grafie differenti. In questo capitolo imparerai a collegare i record calcolando la similarità tra stringhe; poi userai le nuove competenze per unire due insiemi di dati di recensioni di ristoranti in un unico insieme di dati pulito e principale.

Confrontare le stringhe

Calcolare la distanza

Piccola distanza, piccola differenza

Correggere i refusi con la distanza tra stringhe

Generare e confrontare coppie

Collegare o fare una join?

Pair blocking

Confrontare le coppie

Valutare e collegare

Prima valutare e poi selezionare, o prima selezionare e poi valutare?

Mettere tutto insieme

Congratulazioni!

Inizia il capitolo

Pulizia dei dati in R

Corso
completato

Ottieni Attestato di conseguimento

Aggiungi questa certificazione al tuo profilo LinkedIn, al curriculum o al CV
Condividila sui social e nella valutazione delle tue performanceIscriviti ora

Unisciti a oltre 19 milioni di studenti e inizia Pulizia dei dati in R oggi!

Aumenta le tue competenze sui dati con l'app di DataCamp

Avanza ovunque ti trovi con i nostri corsi per dispositivi mobili e le nostre sfide di programmazione quotidiane da 5 minuti.