Programma
Come professionista dei dati, spesso devi analizzare, testare e stabilire relazioni tra variabili in un dataset per trarre conclusioni significative. Un concetto chiamato test d’ipotesi, insieme a vari test, tra cui t-test e z-test, è tra gli strumenti più usati in analisi per stabilire relazioni tra punti dati.
Questo tutorial ti insegnerà la differenza tra t-test e Z-test con esempi reali. Fornirò anche risorse aggiuntive per approfondire.
Un rapido riepilogo: t-test vs. Z-test
La scelta tra t-test e Z-test può essere riassunta con queste linee guida:
- Usa un t-test: quando la dimensione del campione è piccola (n < 30) e/o la varianza della popolazione è sconosciuta.
- Usa uno Z-test: quando la dimensione del campione è grande (n ≥ 30) e la varianza della popolazione è nota.
In entrambi i casi, ci aspettiamo che i dati siano distribuiti normalmente. Continua a leggere per conoscere nel dettaglio ciascun test e le loro differenze. Iniziamo con una breve introduzione al test d’ipotesi.
Introduzione al test d’ipotesi
Il test d’ipotesi è un metodo statistico fondamentale per inferire i parametri di una popolazione a partire da dati campionari. Fornisce un approccio strutturato per valutare affermazioni o assunzioni su una popolazione usando evidenze empiriche.
Al centro del test d’ipotesi ci sono due enunciati complementari:
- L’ipotesi nulla (H₀) è un’affermazione di assenza di effetto, differenza o relazione. Rappresenta lo status quo o la comprensione attuale.
- L’ipotesi alternativa (H₁) contraddice l’ipotesi nulla. Rappresenta l’affermazione o la nuova comprensione che il ricercatore vuole dimostrare.
Per esempio, supponi di voler determinare se un nuovo metodo didattico migliora i punteggi dei test degli studenti. Potresti formulare le seguenti ipotesi:
- Ipotesi nulla (H₀): il nuovo metodo didattico non ha effetto sui punteggi dei test.
- Ipotesi alternativa (H₁): il nuovo metodo didattico migliora i punteggi dei test.
Il test d’ipotesi comporta la raccolta di dati campionari, il calcolo di statistiche test e la determinazione della probabilità di osservare tali risultati se l’ipotesi nulla fosse vera. In base a questa probabilità, possiamo decidere se rifiutare l’ipotesi nulla a favore dell’alternativa o non rifiutarla.
A seconda dei tipi di dati e delle domande di ricerca, sono disponibili diversi test statistici per il test d’ipotesi. In questo tutorial ci concentreremo su t-test e Z-test.
Che cos’è un t-test?
Un t-test è un test statistico usato per determinare se esiste una differenza significativa tra le medie di due gruppi o tra la media di un campione e un valore noto. È particolarmente utile con campioni piccoli o quando la deviazione standard della popolazione è sconosciuta.
La statistica del t-test per un t-test a un campione si calcola con la formula:

Equazione del t-test. Immagine dell’autore.
dove:
- Xˉ è la media campionaria
- μ è la media della popolazione (o la media del gruppo di confronto)
- s è la deviazione standard campionaria, e
- n è la dimensione del campione.
Tipi di t-test
Esistono tre principali tipi di t-test. Ognuno confronta medie in condizioni diverse:
- t-test a un campione: confronta la media di un singolo campione con un valore noto o la media della popolazione. Determina se la media del campione si discosta in modo significativo da un benchmark specifico. Ad esempio, possiamo usare un t-test a un campione per valutare se la media dei punteggi di una piccola classe differisce dalla media nazionale.
- t-test a due campioni indipendenti: confronta le medie di due gruppi indipendenti per determinare se c’è una differenza statisticamente significativa tra loro. È comunemente usato in esperimenti in cui due gruppi sono sottoposti a trattamenti o condizioni diverse. Per esempio, potremmo usare un t-test a due campioni indipendenti per confrontare i punteggi tra studenti istruiti con due metodi didattici diversi e vedere se uno dei due è più efficace.
- t-test appaiato: confronta le medie dello stesso gruppo in momenti diversi o sotto condizioni differenti. Valuta se c’è un cambiamento significativo all’interno dello stesso gruppo dopo un intervento o nel tempo. Un esempio è misurare le prestazioni degli studenti prima e dopo l’implementazione di una nuova strategia didattica per valutarne l’impatto.
Assunzioni del t-test
Il t-test si basa su alcune assunzioni per fornire risultati validi:
- Normalità dei dati: il t-test assume che i dati in ciascun gruppo siano approssimativamente distribuiti normalmente. Ciò è particolarmente importante con campioni piccoli. Se i dati non sono normalmente distribuiti, i risultati del t-test possono essere inaffidabili.
- Omogeneità delle varianze: per un t-test a due campioni indipendenti, si assume che le varianze dei due gruppi confrontati siano uguali. Questa assunzione garantisce che il t-test tenga correttamente conto della variabilità entro ciascun gruppo. Se le varianze non sono uguali, l’accuratezza del test può risentirne.
- Indipendenza delle osservazioni: le osservazioni all’interno di ciascun gruppo devono essere indipendenti. Ciò significa che il valore di un’osservazione non deve influenzare o essere correlato al valore di un’altra. La violazione di questa assunzione può portare a conclusioni errate.
È importante verificare queste assunzioni prima di applicare il t-test in qualsiasi analisi per garantire la validità dei risultati. Leggi il nostro tutorial sui t-test in R o la nostra Introduzione ai t-test in Python per imparare a eseguire t-test in R o Python.
Che cos’è uno Z-test?
Uno Z-test è un test statistico usato per determinare se esiste una differenza significativa tra la media del campione e la media della popolazione o tra le medie di due gruppi quando la varianza della popolazione è nota e la dimensione del campione è grande.
Si usa principalmente quando la dimensione del campione supera 30, consentendo di usare la distribuzione normale per approssimare la distribuzione della statistica test.
La statistica dello Z-test per uno Z-test a un campione si calcola con la formula:

Equazione dello Z-test. Immagine dell’autore.
dove:
- Xˉ è la media campionaria,
- μ è la media della popolazione,
- σ è la deviazione standard della popolazione, e
- n è la dimensione del campione.
Tipi di Z-test
Esistono tre principali tipi di Z-test:
- Z-test a un campione: confronta la media di un singolo campione con una media di popolazione nota. Si usa per valutare se la media campionaria si discosta in modo significativo dalla media della popolazione, assumendo che la varianza della popolazione sia nota. Ad esempio, uno Z-test a un campione potrebbe essere usato per determinare se l’altezza media di un gruppo di oltre 30 persone differisce dall’altezza media nazionale nota.
- Z-test a due campioni: confronta le medie di due campioni indipendenti per determinare se esiste una differenza significativa tra loro. Si usa quando entrambi i campioni sono grandi e le varianze di popolazione sono note. Un esempio è confrontare i punteggi medi dei test di studenti di due scuole diverse per vedere se c’è una differenza significativa nelle prestazioni.
- Z-test per proporzioni: confronta la proporzione di una certa caratteristica in un campione con una proporzione di popolazione nota o tra due proporzioni campionarie. Si usa per valutare se la proporzione osservata nel campione differisce significativamente da quanto atteso in base alla proporzione di popolazione. Per esempio, uno Z-test per proporzioni può essere usato per confrontare la quota di elettori che preferiscono un certo candidato in un campione con la proporzione osservata in elezioni precedenti.
Esistono ulteriori varianti del test, come lo Z-test appaiato, lo Z-test per coefficienti di regressione e lo Z-test per differenze di medie.
Assunzioni dello Z-test
Lo Z-test si basa su alcune assunzioni per fornire risultati validi:
- Varianza della popolazione nota: lo Z-test assume che la varianza della popolazione sia nota. Questa è una differenza chiave rispetto al t-test, in cui la varianza della popolazione è tipicamente sconosciuta. La varianza nota consente di usare la distribuzione normale standard per valutare la significatività della statistica test.
- Campione di grandi dimensioni: lo Z-test assume una dimensione campionaria grande, in genere superiore a 30. Con campioni più grandi, la distribuzione campionaria della media si avvicina a una normale, anche se i dati originali non sono normalmente distribuiti, secondo il teorema del limite centrale.
- Distribuzione normale della popolazione: si assume che i dati provengano da una popolazione distribuita normalmente. Questa assunzione è meno critica per campioni grandi ma resta importante quando la dimensione è moderata.
Differenze chiave tra t-test e Z-test
Il t-test e lo Z-test vengono usati per confrontare statistiche campionarie con parametri di popolazione, ma differiscono per assunzioni di base, applicazioni e condizioni in cui sono più appropriati. Analizziamo e comprendiamo le differenze tra i due test:
Considerazioni sulla dimensione del campione
- t-test: si usa in genere quando la dimensione del campione è piccola, generalmente inferiore a 30. È progettato per essere robusto quando la dimensione del campione non soddisfa la soglia necessaria per applicare il teorema del limite centrale.
- Z-test: si usa quando la dimensione del campione è grande, tipicamente superiore a 30. Con campioni grandi, la distribuzione campionaria della media è approssimativamente normale, il che giustifica l’uso dello Z-test.
Conoscenza della varianza della popolazione
- t-test: si usa quando la varianza della popolazione è sconosciuta. Al posto della varianza di popolazione, si utilizza la varianza campionaria per calcolare la statistica test. La distribuzione t, che ha code più pesanti della normale, tiene conto dell’incertezza aggiuntiva dovuta alla stima della varianza di popolazione.
- Z-test: richiede che la varianza della popolazione sia nota. È un’assunzione chiave perché consente l’uso della distribuzione normale standard per calcolare la statistica test. Quando la varianza è nota, lo Z-test fornisce stime più precise.
Assunzioni sulla distribuzione
- t-test: assume che i dati all’interno di ciascun gruppo siano approssimativamente normali. Ciò è particolarmente importante con campioni piccoli. La statistica test in un t-test segue una distribuzione t, che ha code più ampie della normale. Questo tiene conto della variabilità e dell’incertezza aggiuntive quando si stima la deviazione standard della popolazione da un campione piccolo.
- Z-test: assume che i dati siano normalmente distribuiti o che la dimensione del campione sia sufficientemente grande da applicare il teorema del limite centrale. Il teorema assicura che, per campioni grandi, la distribuzione campionaria della media sia approssimativamente normale, anche se i dati sottostanti non sono perfettamente normali.
Applicazioni pratiche e casi d’uso
- t-test: è comunemente usato in studi con campioni piccoli, come gli studi pilota, in cui la varianza della popolazione è sconosciuta. Esempi includono il confronto dell’efficacia di due trattamenti in un piccolo gruppo o la valutazione dei cambiamenti all’interno dello stesso gruppo nel tempo.
- Z-test: si usa in studi con campioni grandi o quando si lavora con popolazioni ben note in cui la varianza è nota. È spesso applicato nel controllo qualità, nell’analisi dei sondaggi e in studi sperimentali su larga scala.
Ecco una tabella con le differenze chiave:
Differenze chiave tra t-test e Z-test. Immagine dell’autore.
Conclusione
Questo tutorial ti ha introdotto al test d’ipotesi e a due test comunemente usati — t-test e z-test. Abbiamo visto le definizioni di ciascun test, i diversi tipi e le assunzioni, e ne abbiamo compreso le differenze chiave. Abbiamo concluso quale test sia meglio usare in ciascuno scenario, permettendoti così di stabilire con sicurezza relazioni tra variabili tramite il test d’ipotesi.
Dopo aver consolidato i concetti statistici alla base del test d’ipotesi con il nostro corso Introduzione alla statistica, ti incoraggio a mettere in pratica questi concetti con una delle tecnologie più diffuse grazie alle seguenti risorse:
- Hypothesis Testing in Python course
- Hypothesis Testing in R course
- Hypothesis Testing (chi-square test) in Excel tutorial
Buono studio!
Come senior data scientist, progetto, sviluppo e distribuisco soluzioni di machine learning su larga scala per aiutare le aziende a prendere decisioni migliori basate sui dati. Come autore nell'ambito della data science, condivido ciò che ho imparato, consigli di carriera e tutorial pratici approfonditi.
Domande frequenti
Qual è la differenza principale tra un t-test e uno Z-test?
La differenza principale è che un t-test si usa per campioni piccoli (n <30) o quando la varianza della popolazione è sconosciuta e utilizza la distribuzione t. Uno Z-test si usa per campioni grandi ( n>30) con varianza di popolazione nota e si basa sulla distribuzione normale.
Quando dovrei usare un t-test a un campione rispetto a uno Z-test?
Usa un t-test a un campione quando confronti la media di un singolo campione con una media di popolazione nota e la varianza della popolazione è sconosciuta. Se la dimensione del campione è grande e la varianza della popolazione è nota, dovresti invece usare uno Z-test a un campione.
Qual è il ruolo della distribuzione t in un t-test?
La distribuzione t è usata in un t-test per tener conto della variabilità e dell’incertezza aggiuntive nella statistica test quando la dimensione del campione è piccola e la varianza della popolazione è sconosciuta.
Posso usare uno Z-test se non conosco la varianza della popolazione?
No, uno Z-test richiede che la varianza della popolazione sia nota. Se la varianza della popolazione non è nota, dovresti usare un t-test, che stima la varianza dai dati del campione.
Come faccio a decidere se usare un t-test appaiato o un t-test a due campioni indipendenti?
Usa un t-test appaiato quando confronti le medie dello stesso gruppo in momenti diversi o sotto condizioni differenti (es., prima e dopo un intervento). Usa un t-test a due campioni indipendenti quando confronti le medie di due gruppi diversi e non correlati (es., confrontare i punteggi di due classi o trattamenti diversi).


