Corso
Pochi concetti sono così fondamentali e ampiamente applicabili in statistica e data science quanto la distribuzione gaussiana. Conosciuta anche come distribuzione normale, questo modello matematico è alla base di innumerevoli metodi statistici e tecniche di analisi dei dati.
Questa guida completa scompone il concetto di distribuzioni gaussiane, esplorandone le proprietà, le applicazioni e il ruolo nell'analisi dei dati moderna. Vedremo perché sono così diffuse nei fenomeni naturali e come vengono utilizzate in vari campi, dalla finanza alla manifattura.
Se sei alle prime armi con la statistica o vuoi ripassare le basi, il nostro corso Introduction to Statistics offre un'eccellente base. Per chi è pronto ad applicare questi concetti in linguaggi di programmazione specifici, i corsi Statistical Thinking in Python (Part 1) e Statistics Fundamentals with R ti aiuteranno a cogliere i molti modi in cui la distribuzione gaussiana appare nella statistica descrittiva e inferenziale.
Che cos'è una distribuzione gaussiana?
Una distribuzione gaussiana, nota anche come distribuzione normale, è una distribuzione di probabilità continua caratterizzata dalla sua curva a campana. È definita da due parametri:
- μ (mu): la media o valore atteso della distribuzione
- σ (sigma): la deviazione standard, che misura la dispersione della distribuzione
La funzione di densità di probabilità (PDF) di una distribuzione gaussiana è data da:

Dove:
- x è la variabile
- e è il numero di Eulero (circa 2,71828)
- π (pi) è la costante matematica pi greco (circa 3,14159)
Visualizzare la distribuzione gaussiana
Per illustrare il concetto di distribuzione gaussiana, considera la distribuzione dei pesi alla nascita dei neonati a termine in una grande popolazione:

Alcune osservazioni chiave da questo grafico includono:
- La maggior parte dei pesi alla nascita si concentra attorno a un valore medio (il picco della curva).
- Meno neonati hanno pesi che deviano in modo significativo da questa media.
- Pochissimi neonati hanno pesi estremi (molto alti o molto bassi).
Il teorema del limite centrale
La diffusione delle distribuzioni gaussiane in natura e in statistica può essere spiegata dal teorema del limite centrale (CLT). Il CLT afferma che la distribuzione delle medie campionarie si avvicina a una distribuzione normale man mano che la dimensione del campione aumenta (ad esempio, n ≥ 30), a prescindere dalla distribuzione della popolazione sottostante.
Un aspetto chiave del CLT è che questa convergenza verso una distribuzione normale avviene relativamente in fretta all'aumentare della dimensione del campione. Per la maggior parte degli scopi pratici, anche campioni di dimensioni moderate (ad esempio, n ≥ 30) sono sufficienti perché le medie campionarie approssimino una distribuzione normale. Ciò vale anche se la popolazione stessa è asimmetrica.
La distribuzione gaussiana standard
All'interno della classe delle distribuzioni gaussiane, esiste un caso speciale noto come distribuzione gaussiana standard, più comunemente chiamata distribuzione normale standard. Si tratta di una distribuzione gaussiana in cui:
- La media (μ) è esattamente 0.
- La deviazione standard (σ) è esattamente 1.
La funzione di densità di probabilità di una distribuzione gaussiana standard è data dalla seguente formula.

Nota che la formula per la funzione di densità della gaussiana standard si semplifica rispetto alla forma generale grazie ai valori specifici assegnati a media e deviazione standard. Ora, visualizziamo la distribuzione gaussiana standard.
Distribuzione gaussiana standard. Immagine dell'autore
La distribuzione gaussiana standard, mostrata nella nostra visualizzazione, funge da punto di riferimento in statistica. Nella figura puoi vedere come la gaussiana standard sia una versione standardizzata di qualsiasi distribuzione gaussiana. Il processo di standardizzazione sposta la media a 0 e scala la deviazione standard a 1, preservando le proprietà fondamentali della distribuzione.
Proprietà delle distribuzioni gaussiane
Vediamo ora alcune proprietà delle distribuzioni gaussiane.
Simmetria e curva a campana
Il tratto distintivo di una distribuzione gaussiana è la sua forma a campana simmetrica. Questa simmetria implica che i dati hanno uguale probabilità di cadere sopra o sotto la media, il che è particolarmente utile per prevedere probabilità e trarre inferenze. Come mostrato nella visualizzazione seguente, tutte le distribuzioni gaussiane mantengono questa caratteristica forma a campana, indipendentemente dalla loro media o deviazione standard.
Distribuzioni gaussiane visualizzate. Immagine dell'autore
Allineamento di media, mediana e moda
In una distribuzione gaussiana perfetta, media (valore medio), mediana (valore centrale) e moda (valore più frequente) coincidono. Questo allineamento fornisce un'indicazione chiara della tendenza centrale dei dati, utile per riassumere i dataset. Nella nostra visualizzazione, puoi vedere come il picco di ciascuna curva rappresenti questo punto centrale.
Deviazione standard e dispersione dei dati
La deviazione standard in una distribuzione gaussiana indica quanto i dati sono dispersi rispetto alla media. Segue uno schema prevedibile:
- Circa il 68% dei dati ricade entro una deviazione standard dalla media.
- Circa il 95% ricade entro due deviazioni standard.
- Circa il 99,7% ricade entro tre deviazioni standard.
Questa regola, nota come regola 68-95-99,7, si applica a tutte le distribuzioni gaussiane, indipendentemente dalla loro media o deviazione standard.
Applicazioni pratiche delle distribuzioni gaussiane
Le distribuzioni gaussiane non sono solo un concetto teorico: hanno applicazioni molto ampie in vari campi.
Inferenza statistica e test di ipotesi
Molti test statistici, come i t-test e l'ANOVA, assumono che i dati siano normalmente distribuiti. Questi test aiutano i ricercatori a determinare se esistono differenze significative tra gruppi o se gli effetti osservati sono probabilmente dovuti al caso. L'assunzione di normalità consente di calcolare p-value e intervalli di confidenza, fornendo un quadro per trarre conclusioni dai dati e prendere decisioni informate.
L'assunzione di normalità è così importante che sono state sviluppate tecniche di ri campionamento come il bootstrap per generare distribuzioni di ri campionamento normalmente distribuite a partire da dati non normali, rendendo più semplice costruire intervalli di confidenza ed effettuare altre analisi statistiche. Il nostro tutorial sui test di ipotesi mostra come condurre questi test in vari scenari, incluse situazioni in cui i dati sono normalmente distribuiti.
Algoritmi di machine learning
Molte tecniche di machine learning si basano su assunzioni di normalità, rendendo le distribuzioni gaussiane fondamentali per il loro funzionamento e la loro interpretazione. Nella regressione lineare, ad esempio, in genere vogliamo che i valori di y (variabile dipendente) seguano una distribuzione normale per avere fiducia nelle nostre stime. Inoltre, puntiamo a residui (le differenze tra valori osservati e predetti) con distribuzione normale. Queste assunzioni di normalità sono alla base dei test statistici usati per valutare l'affidabilità del modello e gli intervalli di confidenza delle sue previsioni.
Inoltre, gli esperti di machine learning possono preferire lavorare con dati che seguono una distribuzione gaussiana per motivi di efficienza computazionale. Una distribuzione gaussiana può contribuire indirettamente all'efficienza computazionale in alcuni algoritmi, soprattutto quelli che assumono o si basano su dati normalmente distribuiti.
- Stima dei parametri efficiente: In una distribuzione gaussiana, media e varianza sono statistiche sufficienti, ovvero descrivono completamente la distribuzione. Questo riduce la necessità di modellare momenti superiori complessi, velocizzando la stima dei parametri.
- Convergenza degli algoritmi: Algoritmi come il gradient descent, usati per l'ottimizzazione nel machine learning, convergono più rapidamente se i dati sono normalmente distribuiti.
- Minore complessità computazionale in alcuni algoritmi: Algoritmi come il naive Bayes gaussiano sono progettati specificamente per dati normalmente distribuiti e possono essere efficienti dal punto di vista computazionale quando l'assunzione è soddisfatta.
Cose da considerare con le distribuzioni gaussiane
Sebbene le distribuzioni gaussiane siano incredibilmente utili, è importante conoscere alcuni malintesi comuni.
Non tutti i dati sono normalmente distribuiti
Molti fenomeni naturali e sociali seguono altre distribuzioni. Verifica sempre i tuoi dati prima di assumere che siano normalmente distribuiti. Per esempio, le distribuzioni dei redditi sono spesso asimmetriche a destra e seguono una distribuzione lognormale piuttosto che normale. Allo stesso modo, i tempi di attesa e l'abbondanza di specie in ecologia spesso seguono distribuzioni esponenziali o a legge di potenza.
Anche alcune distribuzioni che ti aspetteresti normali non lo sono necessariamente. Ad esempio, l'età di tutte le persone in un quartiere non sarebbe normalmente distribuita perché alcune generazioni hanno più figli, tra le altre ragioni. Infine, va detto che alcune distribuzioni sembrano normali ma non lo sono. La distribuzione di Pareto, per esempio, ha una coda a legge di potenza, e la distribuzione di Cauchy non ha media né varianza definite.
Outlier e valori estremi
In una distribuzione gaussiana, i valori estremi sono rari ma non impossibili. Non scartare automaticamente i punti dati insoliti: potrebbero contenere informazioni preziose. La regola 68-95-99,7 ci dice che circa lo 0,3% dei dati in una distribuzione normale cadrà oltre tre deviazioni standard dalla media. In un dataset di 1000 punti, ciò significa che circa 3 punti potrebbero essere molto estremi senza violare le assunzioni di normalità.
La dimensione del campione conta
Il teorema del limite centrale richiede una dimensione del campione sufficientemente grande per funzionare efficacemente. Sii prudente quando applichi le assunzioni di distribuzione normale a dataset piccoli. Sebbene non esista una soglia universale, molti statistici suggeriscono una dimensione minima del campione di 30 perché il teorema del limite centrale si applichi in modo ragionevole. Tuttavia, ciò può variare a seconda della distribuzione sottostante della popolazione. Per distribuzioni altamente asimmetriche, potresti aver bisogno di campioni ancora più grandi.
Altre distribuzioni da considerare
Sebbene le distribuzioni gaussiane siano ampiamente applicabili, a volte altre distribuzioni sono più appropriate.
Distribuzione t di Student
La distribuzione t di Student somiglia alla normale ma ha code più pesanti, cioè attribuisce maggiore probabilità a valori estremi lontani dalla media. Questa caratteristica la rende particolarmente utile nei seguenti scenari:
- Campioni piccoli: Quando si lavora con dataset piccoli (tipicamente meno di 30 osservazioni), la stima della deviazione standard della popolazione diventa meno affidabile. La distribuzione t tiene conto di questa maggiore incertezza.
- Deviazione standard della popolazione sconosciuta: Se la deviazione standard della popolazione è sconosciuta — come spesso accade — la distribuzione t fornisce un modello più accurato per la distribuzione campionaria della media campionaria.
- Outlier e code pesanti: Dati soggetti a valori estremi o outlier beneficiano delle code più pesanti della distribuzione t, che offre un adattamento migliore rispetto alla normale.
All'aumentare della dimensione del campione, la distribuzione t converge alla distribuzione normale. Ciò è dovuto al teorema del limite centrale, che afferma che la distribuzione campionaria della media campionaria tende alla normalità con la crescita del campione, indipendentemente dalla distribuzione della popolazione.
Distribuzione lognormale
La distribuzione lognormale è applicabile per modellare dati con asimmetria positiva che non possono assumere valori negativi. È caratterizzata da quanto segue:
- Processi moltiplicativi: Quando i dati risultano dalla moltiplicazione di molti fattori indipendenti e positivi (ad es. interesse composto), la distribuzione lognormale è spesso appropriata.
- Dati asimmetrici: Variabili come reddito, prezzi azionari e alcune misurazioni biologiche (come la lunghezza degli organismi o i tempi di reazione) sono tipicamente asimmetriche a destra, rendendo la distribuzione lognormale una scelta migliore.
- Valori non negativi: Poiché la funzione esponenziale non produce mai risultati negativi, le variabili lognormalmente distribuite sono strettamente positive, in linea con scenari reali in cui i valori negativi sono impossibili o privi di senso.
Matematicamente, una variabile X è lognormalmente distribuita se ln(X) è normalmente distribuita. Questa proprietà consente di usare tecniche della distribuzione normale su dati trasformati con il logaritmo, semplificando analisi e interpretazione.
Distribuzione gaussiana multivariata
La distribuzione gaussiana multivariata, nota anche come distribuzione normale multivariata, è un'estensione della distribuzione normale univariata a dimensioni superiori. È caratterizzata da:
- Variabili multiple correlate: Descrive la distribuzione congiunta di due o più variabili aleatorie normalmente distribuite che possono essere correlate.
- Contorni ellittici: In due dimensioni, i suoi contorni di densità di probabilità formano ellissi. In dimensioni superiori, diventano ellissoidi.
- Definita da vettore delle medie e matrice di covarianza: Invece di una singola media e varianza, usa un vettore delle medie e una matrice di covarianza per catturare le relazioni tra variabili.
La distribuzione gaussiana multivariata è ampiamente utilizzata in algoritmi di machine learning, come i Gaussian mixture model, per attività di clustering e stima di densità. È spesso impiegata anche nella modellazione finanziaria, dove aiuta a comprendere e prevedere il comportamento congiunto di più rendimenti di asset.
Conclusione
Le distribuzioni gaussiane svolgono un ruolo fondamentale nell'analisi statistica e nella data science. La loro ampia applicabilità e le proprietà ben note le rendono uno strumento indispensabile in vari campi, dal controllo qualità nella manifattura alla valutazione del rischio in finanza.
Tuttavia, è importante ricordare che, pur essendo ampiamente usata, la distribuzione gaussiana non è una soluzione universale. Riconoscere quando impiegare distribuzioni alternative, come la t di Student o la lognormale, è fondamentale per migliorare accuratezza e affidabilità delle analisi. Allineando la scelta della distribuzione alle proprietà intrinseche dei tuoi dati, ottieni inferenze più valide e decisioni migliori.
Per chi desidera approfondire la probabilità e le sue applicazioni nella data science, il nostro corso Foundations of Probability in Python offre un'esplorazione completa di questi concetti. Se ti senti più a tuo agio con R, il corso Introduction to Statistics in R fornisce una solida base nei concetti statistici usando la programmazione in R.
Vinod Chugani ha iniziato la sua carriera a Tokyo come il più giovane Head dell'Hedge Fund Sales Desk di JPMorgan e in seguito ha stabilito un record personale di vendite a Lehman Brothers, poi ha costruito un'attività di distribuzione di elettronica in 30 paesi superando i 100 milioni di SG$ di fatturato prima di passare ai dati. Laureato in Economia alla Duke e diplomato alla NYC Data Science Academy, è stato uno dei tre beneficiari di borsa di studio su oltre 100 candidati per il corso Building AI Applications di Hugo Bowne-Anderson su Maven. Oggi scrive per DataCamp, KDnuggets, Machine Learning Mastery e Statology su argomenti che vanno dalla statistica all'AI agentica, e fa da mentor a professionisti dei dati alla NYC Data Science Academy con oltre 1.000 sessioni one-to-one all'attivo.
Domande sulla distribuzione gaussiana
Che cos'è una distribuzione gaussiana (normale)?
Una distribuzione gaussiana, nota anche come distribuzione normale, è una distribuzione di probabilità continua caratterizzata da una curva a campana simmetrica. È definita da due parametri: la media (valore medio) e la deviazione standard (dispersione o variabilità). La media determina il centro della distribuzione, mentre la deviazione standard controlla l'ampiezza della curva.
Che cos'è la distribuzione normale standard?
La distribuzione normale standard è un caso particolare della distribuzione gaussiana con media zero e deviazione standard pari a uno. Viene utilizzata per semplificare i calcoli e consente l'uso di tabelle z standard per trovare probabilità e valori critici. Qualsiasi distribuzione normale può essere trasformata in una normale standard usando gli z-score.
Perché si chiama "curva a campana"?
La distribuzione gaussiana è spesso chiamata curva a campana per la sua forma caratteristica. Quando viene rappresentata graficamente, forma una curva simmetrica a campana che ha il picco in corrispondenza della media. I lati della curva si assottigliano man mano che i valori si allontanano dalla media in entrambe le direzioni.
Quando non si dovrebbe usare la distribuzione gaussiana?
Non dovrebbe essere usata quando i dati sono significativamente asimmetrici, hanno code pesanti (curtosi) o sono limitati (ad es., non possono assumere valori negativi quando la gaussiana invece li consente). In presenza di campioni piccoli, outlier o quando il processo generativo dei dati non è in linea con le assunzioni di normalità, possono essere più appropriate distribuzioni alternative. Valuta sempre le caratteristiche dei dati prima di assumere la normalità.
Che cos'è il teorema del limite centrale e come si collega alle distribuzioni gaussiane?
Il teorema del limite centrale afferma che la distribuzione delle medie campionarie approssima una distribuzione normale all'aumentare della dimensione del campione. Ciò vale indipendentemente dalla distribuzione sottostante della popolazione. Il teorema spiega perché molti fenomeni naturali tendono a seguire una distribuzione gaussiana e consente un'applicazione più ampia delle tecniche basate sulla normale.
Che cos'è una distribuzione gaussiana multivariata?
Una distribuzione gaussiana multivariata è un'estensione della distribuzione normale univariata a dimensioni superiori, che descrive la distribuzione congiunta di due o più variabili casuali normalmente distribuite e correlate. È caratterizzata da un vettore delle medie e da una matrice di covarianza, anziché da una singola media e varianza.
Quali sono l'asimmetria e la curtosi di una distribuzione gaussiana?
Una distribuzione perfettamente gaussiana ha asimmetria (skewness) pari a zero. Ciò significa che è perfettamente simmetrica, con i lati sinistro e destro della distribuzione che si rispecchiano attorno alla media. La curtosi di una distribuzione gaussiana è 3, spesso usata come punto di riferimento. La curtosi in eccesso (curtosi meno 3) è 0 per una distribuzione gaussiana.


