Corso
In questo tutorial imparerai a pulire i dati in Excel e a prepararli per l'analisi. Tratteremo tecniche fondamentali come rimuovere i duplicati, gestire i valori mancanti e standardizzare la formattazione. Al termine, avrai competenze pratiche per garantire che il tuo dataset sia accurato e pronto per analisi più approfondite.
Per un approfondimento, valuta il corso complementare Data Preparation in Excel, che approfondisce tecniche avanzate e best practice per ottimizzare il tuo flusso di lavoro nella pulizia dei dati.
Quali sono gli elementi dei dati puliti?
Garantire un'elevata qualità dei dati implica diversi elementi chiave, tra cui accuratezza, completezza, coerenza, uniformità e validità. Questi elementi sono essenziali per analisi e decisioni affidabili. Vediamoli uno per uno.
- Accuratezza: L'accuratezza significa che i tuoi dati rappresentano correttamente i valori reali a cui si riferiscono. Garantisce che le informazioni mostrate siano precise e prive di errori, riflettendo il vero stato dei dati. Per esempio, se i tuoi dati sono accurati, avranno: Informazioni precise e senza errori, Valori numerici corretti, Testo senza refusi e Date precise.
- Completezza: Dati completi contengono tutte le informazioni necessarie per l'analisi. Se i dati sono incompleti e mancano dettagli chiave, i risultati possono essere distorti. Assicurati di colmare le lacune o di considerare i valori mancanti nell'analisi. Per gestire i dati mancanti, assicurati di Imputare valori basandoti su altre osservazioni, Sostituire i valori mancanti con segnaposto e Rimuovere i record incompleti.
- Coerenza: La coerenza significa che i dati restano uniformi tra diversi dataset e periodi. Dati puliti mantengono gli stessi formati e unità di misura ovunque.
- Uniformità: L'uniformità, o standardizzazione, significa che tutti i dati presentano un formato e una struttura coerenti: dovrebbero essere di un unico tipo di dato o categoria. Ciò include l'uso delle stesse unità di misura o il formato delle date e l'etichettatura in categorie.
- Validità: La validità significa che i valori dei dati rientrano nell'intervallo accettabile prestabilito e seguono i pattern attesi. Per esempio, se un'età valida deve essere tra 0 e 120 anni, si applicano regole e controlli di validazione per garantire che i dati rispettino questo criterio. Questo evita che valori anomali e inserimenti errati alterino i risultati.
Come pulire i dati in Excel
Pulire i dati in Excel significa rifinire i dati grezzi. A differenza della convalida dei dati, che è una funzione specifica nella barra degli strumenti di Excel, la pulizia dei dati è un termine più generale che include un'ampia gamma di strumenti e tecniche. Nella sezione seguente tratteremo ciascuna delle seguenti idee:
- Pulizia di base: La pulizia di base affronta problemi comuni come spazi extra, celle vuote ed errori di ortografia per garantire un dataset pulito e coerente.
- Gestione degli errori e convalida: La gestione degli errori e la convalida si concentrano sull'identificazione e la correzione degli errori e sul mantenimento dell'integrità dei dati rimuovendo i duplicati.
- Operazioni sul testo: Le operazioni sul testo prevedono la manipolazione e la formattazione dei dati testuali per soddisfare le tue esigenze, inclusa la concatenazione e i cambi di maiuscole/minuscole.
- Trasformazione dei dati: Le tecniche di trasformazione dei dati servono a riorganizzare e rimodellare i dati per un'analisi migliore, incluso il parsing del testo e l'uso di strumenti come Flash Fill.
- Correzioni numeriche e di date: Le correzioni numeriche e di date consistono nel correggere e standardizzare numeri e date per garantirne accuratezza e formattazione coerente.
- Gestione avanzata dei dati: La gestione avanzata dei dati include riconciliare e combinare dataset per creare un insieme completo e coerente per l'analisi.
Pulizia di base dei dati in Excel
Vediamo la pulizia di base, che consiste nell'affrontare problemi comuni come la rimozione degli spazi extra.
Eliminare gli spazi extra
Gli spazi bianchi finali possono essere fastidiosi o problematici perché portano a incoerenze nell'analisi dei dati e a problemi di formattazione.
Ci sono due modi principali per eliminare gli spazi extra in Excel. Vediamoli entrambi.
Eliminare gli spazi extra con Trova e sostituisci
Ecco i passaggi per eliminare gli spazi extra.
Seleziona l'intervallo di celle da cui vuoi rimuovere gli spazi extra.
Usa la scorciatoia Ctrl + H per aprire la finestra di dialogo Trova e sostituisci.
Nel campo Trova, premi la barra spaziatrice due volte per inserire due spazi.
Nel campo Sostituisci con, premi la barra spaziatrice una volta per inserire uno spazio singolo.
Fai clic su Sostituisci tutto.
Ripeti il processo finché non vengono più trovati doppi spazi.
Finestra di dialogo Trova e sostituisci. Fonte: immagine dell'autore
Eliminare gli spazi extra con TRIM
Crea una nuova colonna per i dati puliti.
Inserisci la formula
=TRIM(cell_with_extra_spaces)nella prima cella della nuova colonna.Fai doppio clic sull'angolo in basso a destra della cella per applicare la formula al resto delle righe.
Copia i dati puliti e incollali come valori per rimuovere le formule.
Selezionare e trattare tutte le celle vuote
Le celle vuote possono causare problemi interrompendo le formule, portando a errori nei calcoli e a risultati di analisi inaccurati. Ecco come gestire la questione.
Evidenzia l'intervallo di celle in cui vuoi trovare e trattare le celle vuote.
Premi Ctrl + G per aprire la finestra di dialogo Vai a.
Fai clic sul pulsante "Speciale…". Si apre la finestra di dialogo Vai a formato speciale.
Seleziona l'opzione Celle vuote e fai clic su OK. Ora vedrai che tutte le celle vuote nell'intervallo selezionato sono evidenziate.
Ora puoi inserire un valore o una formula. Premi Ctrl + Invio.
Selezionare e trattare le celle vuote. Fonte: immagine dell'autore
Controllo ortografico
Parole scritte male possono far apparire i dati poco professionali e difficili da capire, quindi è importante correggerle.
Controlla l'intero foglio di lavoro o un intervallo specifico.
Vai alla scheda Revisioni sulla Barra multifunzione.
Fai clic sul pulsante Controllo ortografia nel gruppo Strumenti di correzione.
Si aprirà la finestra di dialogo Controllo ortografia, mostrando la prima parola errata rilevata e i suggerimenti di correzione.
Rivedi e correggi le parole con errori secondo necessità.
Controllo ortografico. Fonte: immagine dell'autore
Gestione degli errori e convalida in Excel
Vediamo la gestione degli errori, che consiste nell'affrontare problemi comuni come evidenziare gli errori o rimuovere i duplicati.
Evidenziare gli errori
Gli errori nei dati possono portare a risultati sbagliati e a decisioni poco informate, quindi è fondamentale identificarli e risolverli. Vediamo come affrontare il problema.
Seleziona l'intervallo di celle che vuoi controllare per gli errori.
Vai alla scheda Home sulla Barra multifunzione.
Nel gruppo Stili, fai clic su Formattazione condizionale.
Seleziona Nuova regola dal menu a discesa.
Scegli Usa una formula per determinare le celle da formattare.
Inserisci la formula
=ISERROR(cell)nel campo Formatta i valori per i quali questa formula restituisce VERO.Fai clic sul pulsante Formato… per scegliere le opzioni di formattazione desiderate.
Dopo aver selezionato le opzioni di formattazione, fai clic su OK.
Fai di nuovo clic su OK nella finestra di dialogo Nuova regola di formattazione per applicare la regola.
Uso della formattazione condizionale. Fonte: immagine dell'autore
Rimuovere i duplicati
Voci duplicate possono falsare analisi e insight, quindi rimuoverle garantisce l'accuratezza dei dati.
Seleziona il foglio di lavoro o l'intervallo di celle da cui vuoi rimuovere i duplicati.
Vai alla scheda Dati sulla Barra multifunzione.
Fai clic su Rimuovi duplicati nel gruppo Strumenti dati.
Nella finestra di dialogo Rimuovi duplicati, specifica quali colonne controllare per i duplicati.
Fai clic su OK. Excel mostrerà un messaggio con il numero di valori duplicati rimossi.
Rimuovere righe duplicate
Righe duplicate possono appesantire i dati e compromettere l'affidabilità dell'analisi. Ecco come gestirle.
Seleziona l'intervallo da cui vuoi rimuovere le righe duplicate.
Vai alla scheda Dati sulla Barra multifunzione e fai clic su Avanzate nel gruppo Ordina e filtra.
Nella finestra di dialogo Filtro avanzato, seleziona Copia in un'altra posizione.
Imposta l'intervallo Elenco sul tuo intervallo selezionato.
Imposta il campo Copia in sulla cella in cui vuoi che le righe univoche vengano copiate.
Spunta la casella Solo record univoci e poi fai clic su OK.
Operazioni sul testo in Excel
Vediamo operazioni sul testo come concatenare stringhe.
Concatenare
Combinare più stringhe di testo in un'unica cella può aiutare a creare dati più significativi e ordinati unendo informazioni da fonti diverse in un formato unico e coerente.
- Seleziona la cella in cui vuoi che appaia il risultato della concatenazione.
- Digita
=CONCATENATE(). - Seleziona le celle da concatenare, separate da virgole o dall'operatore &.
- Premi Invio per vedere il risultato.
Concatenare celle. Fonte: immagine dell'autore
Cambiare il maiuscolo/minuscolo del testo
Un uso uniforme di maiuscole e minuscole migliora la leggibilità e mantiene la coerenza dei dati. Vediamo come regolarlo.
Crea una nuova colonna per il testo convertito.
Inserisci in una cella la formula:
=UPPER()o=LOWER()o=PROPER()- Premi Invio per applicare la formula.
Trascina il quadratino di riempimento per applicare la formula ad altre celle, se necessario.
Cambiare il maiuscolo/minuscolo del testo. Fonte: immagine dell'autore
Rimuovere i caratteri non stampabili dal testo
Caratteri non stampabili come tabulazioni, interruzioni di riga e caratteri speciali possono creare problemi interrompendo l'elaborazione dei dati e rendendo difficile analizzare o visualizzare correttamente le informazioni.
Identifica i caratteri non stampabili da rimuovere.
Seleziona la cella che contiene il testo con i caratteri non stampabili.
In una nuova cella, usa la seguente funzione:
=CLEAN(text).Per rimuovere spazi extra e caratteri non stampabili, usa:
=TRIM(CLEAN(text)).Copia e incolla il testo pulito per sostituire l'originale.
Uso della funzione CLEAN in Excel. Fonte: immagine dell'autore
Trasformazione dei dati in Excel
Le tecniche di trasformazione dei dati servono a riorganizzare e rimodellare i dati per un'analisi migliore, incluso il parsing del testo e l'uso di strumenti come Flash Fill.
Parsing dei dati da testo a colonna
Separare i dati testuali in colonne distinte facilita l'analisi di componenti specifiche e assicura che ogni informazione sia categorizzata in modo netto. È l'opposto della concatenazione ed è utile per scomporre dati complessi in parti gestibili. Ecco come procedere.
Seleziona i dati che vuoi suddividere.
Vai alla scheda Dati e fai clic su Testo in colonne.
Scegli Delimitato o Larghezza fissa e fai clic su Avanti.
Per Delimitato, seleziona i delimitatori usati dai tuoi dati e fai clic su Avanti.
Per Larghezza fissa, imposta le interruzioni di colonna nella finestra Anteprima dati e fai clic su Avanti.
Scegli il formato dati per ciascuna colonna.
Fai clic su Fine.
Uso di Testo in colonne per il parsing dei dati. Fonte: immagine dell'autore
Flash Fill
Flash Fill compila automaticamente i valori in base ai pattern che rileva nei tuoi dati. Ecco come usarlo in Excel:
Inserisci dati seguendo un pattern in una cella accanto ai dati esistenti.
Fornisci un altro esempio nella cella successiva per aiutare Excel a rilevare il pattern.
Seleziona la cella con l'esempio.
Vai alla scheda Dati sulla Barra multifunzione.
Fai clic su Flash Fill nel gruppo Strumenti dati.
Excel compilerà automaticamente le celle rimanenti in base al pattern rilevato.
Unire e dividere colonne
Unire e dividere colonne aiuta a organizzare i dati nel modo più adatto alle tue esigenze di analisi. Segui questi passaggi per unire le celle:
- Vai alla scheda Home e fai clic sul menu a discesa Unisci e centra nel gruppo Allineamento.
- Seleziona l'opzione di unione che preferisci.
Segui questi passaggi per dividere le colonne:
- Vai alla scheda Dati e fai clic su Testo in colonne nel gruppo Strumenti dati.
- Scegli delimitato o larghezza fissa in base alle esigenze dei tuoi dati.
- Seleziona la destinazione dei dati suddivisi e fai clic su Fine.
Trasformare e riordinare colonne e righe
Riordinare i dati può aiutare a presentarli in un formato più logico e accessibile. Per trasformare righe in righe e colonne in colonne:
Evidenzia i dati che vuoi trasformare (inclusi gli header, se necessario).
Fai clic con il tasto destro sulla selezione e scegli Copia oppure premi Ctrl+C.
Seleziona la cella da cui inizieranno i dati trasformati.
Fai clic con il tasto destro sulla cella di destinazione, scegli Incolla speciale e poi seleziona Trasponi.
Puoi anche usare Ctrl+Alt+V per aprire la finestra di dialogo Incolla speciale, poi spunta l'opzione Trasponi e fai clic su OK.
Per riordinare colonne/righe:
Fai clic sull'intestazione per selezionare l'intera colonna che vuoi spostare.
Fai clic con il tasto destro e scegli Taglia oppure premi Ctrl+X.
Seleziona la colonna in cui vuoi spostare la colonna tagliata, fai clic con il tasto destro sull'intestazione e scegli Inserisci celle tagliate.
Allo stesso modo, per le righe, seleziona e taglia la riga che vuoi spostare in un'altra posizione e incollala lì.
Correzioni numeriche e di date in Excel
Le correzioni numeriche e di date consistono nel correggere e standardizzare numeri e date per garantirne accuratezza e formattazione coerente.
Correggere numeri e segni
Formati numerici errati possono causare problemi portando a fraintendimenti ed errori di calcolo, oltre a problemi nel ordinamento e nel confronto dei dati.
- Seleziona le celle che contengono i numeri da correggere.
- Vai alla scheda Home, fai clic sul menu a discesa Numero nel gruppo Numero e seleziona il formato numerico appropriato (ad es., Generale, Numero, Valuta).
Correggere date e orari
Date correttamente formattate sono fondamentali per analisi e report basati sul tempo.
Evidenzia le celle che contengono le date.
Vai alla scheda Home.
Fai clic sul menu a discesa Formato numero e seleziona Data breve o Data lunga.
Gestione avanzata dei dati in Excel
La gestione avanzata dei dati include riconciliare e combinare dataset per creare un insieme completo e coerente per l'analisi.
Riconciliare i dati delle tabelle tramite join o matching
Unire o abbinare i dati di tabelle diverse garantisce un'analisi completa e coerente.
Usare VLOOKUP per abbinare i dati:
-
Assicurati che entrambe le tabelle siano accessibili sullo stesso foglio di lavoro.
-
Scegli la cella in cui vuoi visualizzare i dati abbinati.
-
Usa la seguente funzione:
=VLOOKUP(lookup_value, table_array, col_index_num, FALSE) -
Trascina il quadratino di riempimento per copiare la formula nelle altre celle, se necessario.
Usare INDEX e MATCH per maggiore flessibilità
-
Scegli la cella in cui vuoi visualizzare i dati abbinati.
-
Usa la combinazione di queste funzioni:
=INDEX(array, MATCH(lookup_value, lookup_array, 0)) -
Trascina il quadratino di riempimento per copiare la formula nelle altre celle, se necessario.
Considerazioni finali
Excel offre numerose funzioni di pulizia che ti permettono di pulire e convalidare i dati per soddisfare gli standard stabiliti. Queste possono aiutarti a ridurre gli errori e a migliorare la qualità dei tuoi dataset. Per approfondire le capacità di Excel, valuta l'iscrizione al nostro corso Introduction to Excel.
Oltre a questo, che tu stia ripulendo i dati per rimuovere campi duplicati o standardizzando i formati delle voci, Excel ha tutti gli strumenti necessari per semplificare il processo. Se vuoi migliorare le tue competenze nella preparazione dei dati, il nostro corso Data Preparation in Excel offre una copertura completa dell'argomento.
Per affinare ulteriormente le tue capacità analitiche, potresti trovare particolarmente utile il nostro corso Data Analysis in Excel. Questo corso approfondisce le complessità dell'analisi dei dati dopo la pulizia. Inoltre, se ti interessa come dati puliti supportino le previsioni finanziarie, il nostro corso Financial Modeling in Excel potrebbe interessarti molto.
Se vuoi ampliare le tue competenze nella pulizia dei dati, prendi in considerazione Power Query, uno strumento flessibile ed efficace integrato in Excel e Power BI che permette di importare e trasformare i dati senza intoppi. Valuta anche di esplorare Data Cleaning in Python o Cleaning Data in R. Questi corsi offrono tecniche robuste e best practice per la pulizia dei dati usando linguaggi di programmazione popolari.
Sono una content strategist: mi piace semplificare argomenti complessi. Ho aiutato aziende come Splunk, Hackernoon e Tiiny Host a creare contenuti coinvolgenti e informativi per il loro pubblico.
Domande frequenti
Quali sono i cinque passaggi del processo di pulizia dei dati?
I cinque passaggi sono rimozione dei duplicati, gestione dei dati mancanti, correzione degli errori strutturali, filtraggio dei valori anomali e convalida dei dati.
Qual è la differenza tra pulizia dei dati e trasformazione dei dati?
La pulizia dei dati consiste nell'identificare e correggere errori e inesattezze all'interno del dataset per garantirne l'affidabilità. Nella trasformazione dei dati, invece, converti i dati da un formato o una struttura a un'altra per renderli adatti all'analisi. Quindi la pulizia assicura che i dataset siano accurati, mentre la trasformazione converte i dati puliti nel formato necessario per analisi o reportistica.


