Programma
Una distribuzione di frequenza, spesso visualizzata con un istogramma di frequenza, organizza i dati in intervalli specificati, consentendo di capire facilmente quanto spesso si verifica ciascun valore. Questa tecnica è fondamentale per identificare pattern, tendenze e potenziali outlier, offrendo una comprensione più profonda dei dati.
Questo tutorial esplorerà le distribuzioni di frequenza, la loro importanza nell'analisi dei dati e come crearle. Con Microsoft Excel, ti guideremo passo dopo passo nella generazione di una distribuzione di frequenza per un dataset reale e nell'interpretazione dei risultati per ottenere insight significativi.
La risposta rapida: come creare una distribuzione di frequenza in Excel
Per creare una distribuzione di frequenza in Excel, usa la funzione FREQUENCY(). La funzione calcola quanto spesso i valori si verificano all'interno di intervalli specificati, detti bins.
Segui questi passaggi:
- Inserisci i tuoi dati in una colonna.
- Definisci i tuoi bins in un'altra colonna.
- In una nuova cella, digita
=FREQUENCY(data_array, bins_array), dovedata_arrayè l'intervallo delle celle dei dati ebins_arrayè l'intervallo dei tuoi bins. - Esempio:
=FREQUENCY(A2:A16, B2:B6). - Premi Invio per ottenere la distribuzione di frequenza.
Calcolo della distribuzione di frequenza con la funzione FREQUENCY(). Immagine dell'autore
Perché le distribuzioni di frequenza sono importanti
Una distribuzione di frequenza è una tecnica statistica che organizza i dati in categorie o intervalli. In genere, il risultato è una tabella che mostra il numero di osservazioni per un determinato intervallo dei dati sottostanti.
Le distribuzioni di frequenza sono utili per diversi motivi:
- Riepilogo dei dati: Le distribuzioni di frequenza riassumono grandi dataset in modo organizzato e comprensibile. Questo consente una rapida panoramica della distribuzione dei valori.
- Rappresentazione visiva: La distribuzione di frequenza può essere facilmente rappresentata come istogrammi e grafici a torta, offrendo una comprensione visiva dei dati.
- Identificazione di pattern, tendenze e outlier: Rivelano pattern nei dati, come picchi, cluster e outlier. Possono essere usate nell'analisi statistica per esplorare ulteriormente la forma e le caratteristiche dei dati.
- Confronto dei dati: La distribuzione dei valori permette di confrontare diversi dataset e comprenderne somiglianze e differenze.
- Comunicazione: Le distribuzioni di frequenza sono uno strumento semplice ed efficace per comunicare gli insight ricavati dai dati a un pubblico più ampio, inclusi i decisori.
- Decision-making: Una chiara comprensione della distribuzione e dei suoi pattern aiuta nelle decisioni. Per esempio, capire l'offerta di beni in base alla stagione aiuta a decidere quando effettuare gli acquisti.
Ora che abbiamo capito cosa sono le distribuzioni di frequenza e perché sono importanti, vediamo vari metodi per crearle in Microsoft Excel.
Metodi per creare una distribuzione di frequenza in Excel
Immagina di lavorare per un'azienda cosmetica che offre prodotti per un'ampia gamma di fasce d'età. Ora vogliono specializzarsi in alcuni prodotti mirati a specifiche fasce con più clienti. Per capirlo, ti è stato assegnato il compito di analizzare i clienti per fascia d'età.
Per affrontare il problema, hanno campionato i dati sull'età dei clienti dal database clienti. Ti è stata fornita la seguente tabella:
Dataset sull'età dei clienti. Immagine dell'autore
Come parte dell'analisi della domanda per fascia d'età, hai capito che calcolare la distribuzione di frequenza è un buon punto di partenza. Ecco quattro metodi per calcolare la distribuzione di frequenza usando Microsoft Excel.
Metodo 1: usare la funzione FREQUENCY()
La funzione FREQUENCY() calcola la distribuzione di frequenza dei dati forniti e restituisce un elenco che mostra la frequenza dei valori in intervalli specifici.
Ecco la sintassi della funzione FREQUENCY():
=FREQUENCY(data_array, bins_array)
La funzione accetta due parametri:
data_array: Una matrice o un riferimento a un insieme di valori per i quali vuoi contare le frequenze. Se data_array non contiene valori,FREQUENCY()restituisce una matrice di zeri.bins_array: Una matrice o un riferimento a intervalli in cui vuoi raggruppare i valori in data_array. Se bins_array non contiene valori,FREQUENCY()restituisce il numero di elementi in data_array.
Entrambi i parametri sono necessari per calcolare la distribuzione di frequenza. Ti viene fornito solo il data_array, che è Customer Age. Pertanto, devi definire tu il bins_array.
Per questo caso d'uso, possiamo definire i bins come <20, 20–30, 30–40, 40–50, 50–60 e >60. Compila la colonna B nel foglio di lavoro, come mostrato di seguito.
La formula per la distribuzione di frequenza usando la funzione FREQUENCY(). Immagine dell'autore
Dopo aver preparato data_array e bins_array, scrivi la formula per calcolare la distribuzione di frequenza nella cella C2.
=FREQUENCY(A2:A16, B2:B6)
L'output dell'esecuzione della formula sopra sarà simile al seguente:

Distribuzione di frequenza usando la funzione FREQUENCY(). Immagine dell'autore
Osservando la distribuzione di frequenza sopra, vediamo che:
- L'azienda ha un solo cliente con meno di 20 anni.
- Cinque clienti sono nella fascia 20–30 e 30–40.
- Tre clienti sono nella fascia 40–50.
- Un cliente è nella fascia 50–60.
- Nessun cliente ha più di 60 anni.
Dalla distribuzione di frequenza capisci che la maggior parte dei clienti ha tra 20 e 40 anni.
Metodo 2: usare le tabelle pivot
Le tabelle pivot sono un modo rapido e semplice per riepilogare e analizzare grandi quantità di dati. Le tabelle pivot offrono funzionalità come aggregazione, raggruppamento e slicer, tra le altre.
Per calcolare la distribuzione di frequenza usando le tabelle pivot, fai clic su Inserisci dal menu e seleziona Tabella pivot.
Inserisci Tabella pivot. Immagine dell'autore
Specifica l'intervallo di dati per cui vuoi creare la Tabella pivot. Nel tuo caso, l'intervallo è A2:A16. Seleziona Nuovo foglio di lavoro per ottenere l'output in un nuovo foglio.
Dopo aver specificato l'intervallo, premi OK.
Specificare i parametri della tabella pivot. Immagine dell'autore
Cliccando su OK, vedrai il riquadro Campi tabella pivot sul lato destro della finestra. Per creare una Tabella pivot per Customer Age, trascina e rilascia Customer Age sotto Righe e Valori.

Personalizza Tabella pivot. Immagine dell'autore
Dopo aver trascinato il campo Customer Age, il riquadro a destra apparirà così:

Tabella pivot personalizzata. Immagine dell'autore
La Tabella pivot generata sarà così:

Tabella pivot dell'età dei clienti. Immagine dell'autore
Se osservi la tabella pivot sopra, è diversa da ciò che ti serve. Il caso d'uso è analizzare il numero di clienti per fascia d'età.
Ci mancano due cose:
- La colonna Customer Age non è raggruppata.
- Ci interessa il numero di clienti in ogni gruppo, non la somma delle loro età.
Correggiamo.
Fai clic con il tasto destro su un valore di riga e seleziona Raggruppa.

Raggruppa i valori di riga nella tabella pivot. Immagine dell'autore
Compila i parametri di raggruppamento. Nel nostro esempio abbiamo scelto i bins 20, 30, 40, 50 e 60. Pertanto, partiamo da 20 e terminiamo a 60 con un incremento di 10.

Raggruppare la Tabella pivot. Immagine dell'autore
Dopo il raggruppamento, l'output sarà:

Tabella pivot raggruppata. Immagine dell'autore
Successivamente, dobbiamo cambiare da Somma a Conteggio. Per farlo, fai clic con il tasto destro sulla cella Somma di Customer Age e seleziona Impostazioni campo valore.
Impostazioni campo valore nella Tabella pivot. Immagine dell'autore
Nella finestra di dialogo, sotto Riepiloga valori per, cambia Somma in Conteggio e premi OK.
Impostazioni campo valore. Immagine dell'autore
Una volta aggiornato, l'output sarà:

Distribuzione di frequenza usando una Tabella pivot. Immagine dell'autore
Era proprio questo l'output che cercavi: hai ottenuto la distribuzione di frequenza per Customer Age.
Metodo 3: usare il componente aggiuntivo Data Analysis ToolPak
Il Data Analysis ToolPak è un componente aggiuntivo per Microsoft Excel che aiuta a calcolare metriche comunemente usate nelle attività di data analytics.
Questo add-in non è abilitato per impostazione predefinita. Controlla quindi in alto a destra la presenza dell'icona Analisi dati nella scheda Dati della tua cartella di lavoro Excel.
Data Analysis ToolPak in Excel. Immagine dell'autore
Se non vedi l'icona come mostrato sopra, il componente aggiuntivo non è stato abilitato. Per abilitarlo, fai clic su File dal menu e seleziona Opzioni.
Selezionare Opzioni dalla scheda File. Immagine dell'autore
Seleziona Componenti aggiuntivi quando si apre la finestra di dialogo Opzioni di Excel.
Seleziona Componenti aggiuntivi dalla finestra Opzioni di Excel. Immagine dell'autore
Quindi seleziona Componenti aggiuntivi di Excel nella casella Gestisci in basso e fai clic su Vai.
Gestione dei componenti aggiuntivi di Excel. Immagine dell'autore
Seleziona Analysis ToolPak quando si apre la finestra di dialogo Componenti aggiuntivi e fai clic su OK.

Abilitare Data Analysis ToolPak. Immagine dell'autore
Ora l'icona Analisi dati sarà visibile nella scheda Dati e non dovrai ripetere il processo, perché l'abilitazione dell'add-in è un'operazione una tantum.
Seleziona l'intervallo di dati, inclusa l'intestazione di colonna, per calcolare la distribuzione di frequenza. Fai clic sull'icona Analisi dati. Verrà visualizzata una finestra di dialogo. Scegli Istogramma e fai clic su OK.
Richiamare il componente aggiuntivo Data Analysis Toolpak. Immagine dell'autore
Ti verrà mostrata una finestra di dialogo come quella sotto.
Personalizza i parametri dell'istogramma. Immagine dell'autore
Compila l'Intervallo di input con i dati di Customer Age e l'Intervallo bin con i Bins.
- Hai i dati di Customer Age nelle celle
A2:A16. - Hai i dati dei Bins nelle celle
B2:B6. - Per le opzioni di Output, seleziona Nuovo foglio di lavoro per ottenere l'output in un nuovo foglio.
- Fai clic su OK.
Vedrai la distribuzione di frequenza in un nuovo foglio come quello qui sotto.

Distribuzione di frequenza usando Data Analysis Toolpak. Immagine dell'autore
Voilà! Hai creato la distribuzione di frequenza per fascia d'età usando il Data Analysis ToolPak.
Metodo 4: usare le funzioni COUNTIF() e COUNTIFS()
La funzione COUNTIF() conta quante volte viene soddisfatto un singolo criterio. La funzione COUNTIFS() conta quante celle soddisfano più criteri.
Per calcolare la frequenza per ciascuna fascia d'età, inserisci le seguenti formule nelle celle da D2 a D7, rispettivamente.
# In cell D2
=COUNTIF(A2:A16, "<=20")
# In cell D3
=COUNTIFS(A2:A16, ">20", A2:A16, "<=30")
# In cell D4
=COUNTIFS(A2:A16, ">30", A2:A16, "<=40")
# In cell D5
=COUNTIFS(A2:A16, ">40", A2:A16, "<=50")
# In cell D6
=COUNTIFS(A2:A16, ">50", A2:A16, "<=60")
# In cell D7
=COUNTIF(A2:A16, ">60")
Ecco un esempio di come aggiungere la formula alle celle. Una volta calcolate tutte, l'output sarà:
Calcolare la distribuzione di frequenza usando la funzione COUNTIF(). Immagine dell'autore
Rispetto agli altri metodi discussi, una limitazione dell'uso di COUNTIF() è che richiede intervalli di bin predefiniti all'interno dell'equazione.
Il metodo più comune per creare la tabella di distribuzione di frequenza è usare la funzione FREQUENCY().
Tuttavia, sentiti libero di usare il metodo con cui ti trovi meglio. Per esempio, usare il Data Analysis Toolpak potrebbe essere più adatto se, come parte dell'analisi, calcoli anche altre misure statistiche come asimmetria (skewness), ANOVA o matrice di correlazione.
Considerazioni finali
In questo tutorial abbiamo visto l'importanza della distribuzione di frequenza e come calcolarla con Microsoft Excel. Lavorando su un esempio reale, abbiamo imparato a usare la funzione FREQUENCY() e a interpretare la distribuzione risultante per ricavare insight dai nostri dati. Abbiamo anche esplorato tre modi alternativi per calcolare la distribuzione di frequenza.
L'apprendimento non si ferma qui: ti invitiamo a continuare ad ampliare le tue competenze in Excel. Valuta di seguire il percorso Excel Fundamentals per costruire solide basi. I corsi Data Preparation in Excel e Data Visualization in Excel can assist you in expanding your knowledge of these topics. Dai un'occhiata anche alla Data Manipulation in Excel Cheat Sheet, utile come riferimento rapido.
Buono studio!!!
Come senior data scientist, progetto, sviluppo e distribuisco soluzioni di machine learning su larga scala per aiutare le aziende a prendere decisioni migliori basate sui dati. Come autore nell'ambito della data science, condivido ciò che ho imparato, consigli di carriera e tutorial pratici approfonditi.
Domande frequenti
Cosa sono i bins in una distribuzione di frequenza?
I bins sono intervalli che raggruppano i punti dati in una distribuzione di frequenza. Ogni bin rappresenta un intervallo di valori e la frequenza è il conteggio dei punti dati all'interno di ciascun bin.
Come posso creare bins personalizzati per la mia distribuzione di frequenza?
La creazione di bins personalizzati dipende dal metodo che utilizzi. Le opzioni includono l'uso della funzione FREQUENCY(), delle tabelle pivot, del Data Analysis Toolpak e della funzione COUNTIF().
Qual è la differenza tra COUNTIF() e COUNTIFS()?
COUNTIF() conta il numero di occorrenze che soddisfano una singola condizione. COUNTIFS() conta il numero di occorrenze che soddisfano più condizioni.
Come si crea una distribuzione di frequenza con dimensioni dei bin diseguali?
Modifica i valori dei bins. Ad esempio, se prima avevi 20, 30, 40, 50 e 60 come bins, puoi cambiarli in 20, 30, 50 e 60, dove l'intervallo 30–50 rende le dimensioni dei bin diseguali. Successivamente, la funzione FREQUENCY() viene usata come al solito per calcolare la distribuzione di frequenza.
Quali sono alcune limitazioni dell'uso di COUNTIF() nel calcolo della distribuzione di frequenza?
COUNTIF() richiede intervalli di bin predefiniti. Cambiare l'intervallo dei bin richiede l'aggiornamento manuale di ogni formula COUNTIF().


