Programma
L'analisi statistica è fondamentale per prendere decisioni basate sui dati in vari ambiti, tra cui business, sanità, istruzione e ricerca scientifica. Un metodo statistico comunemente usato in contesti accademici e aziendali è l'Analisi della Varianza, o ANOVA.
Microsoft Excel offre una piattaforma potente e facile da usare per eseguire l'ANOVA. La sua interfaccia intuitiva è utile per i principianti, eliminando la necessità di software statistici specializzati come SPSS o SAS.
Questa guida semplificherà il processo di esecuzione dell'ANOVA in Excel, fornendo istruzioni chiare e passo dopo passo per aiutarti a eseguire e interpretare con sicurezza i test ANOVA. Che tu sia uno studente, un ricercatore o un professionista che vuole migliorare le proprie competenze analitiche, questa guida ti aiuterà a sfruttare Excel per una delle esigenze statistiche più comuni.
Che cos'è l'ANOVA?
L'ANOVA è un metodo statistico usato per determinare se esistono differenze significative tra le medie di tre o più gruppi indipendenti. È simile a un altro test statistico chiamato t-test, che viene utilizzato per verificare se esiste una differenza significativa tra le medie di due gruppi. ANOVA e t-test sono due tra le molte tecniche statistiche trattate nel nostro corso completo Data Analysis in Excel, che vale la pena visitare se vuoi diventare davvero competente in statistica.
L'ANOVA funziona confrontando la varianza all'interno di ciascun gruppo con la varianza tra i gruppi per valutare se le medie dei gruppi sono uguali. Se la varianza tra i gruppi è significativamente maggiore della varianza all'interno dei gruppi, suggerisce che almeno una media di gruppo differisce dalle altre.
In generale, esistono due tipi di ANOVA:
- ANOVA a una via: esamina l'effetto di una singola variabile indipendente su una variabile dipendente confrontando le medie di tre o più gruppi.
- ANOVA a due vie: valuta contemporaneamente l'impatto di due variabili indipendenti ed esamina la loro interazione.
I ricercatori accademici usano questi test per analizzare i risultati dopo aver eseguito uno studio controllato. Ad esempio, i ricercatori potrebbero usare l'ANOVA per confrontare l'efficacia di diversi trattamenti o farmaci su più gruppi di pazienti. Le aziende for profit potrebbero usare l'ANOVA per arrivare a decisioni basate sui dati, come confrontare i punteggi di soddisfazione dei clienti tra diversi centri di assistenza o le prestazioni delle campagne pubblicitarie.
Perché Microsoft Excel è adatto all'ANOVA
Ecco i passaggi ordinati necessari per eseguire manualmente un'ANOVA. Per riferimento, il rapporto F (f-ratio) è la statistica test usata nell'ANOVA per determinare se ci sono differenze significative tra le medie dei gruppi. Per ottenerla sono necessari più calcoli.
- Calcolare la media complessiva: trova la media di tutti i punti dati combinati.
- Calcolare le medie dei gruppi: determina la media per ciascun gruppo.
- Calcolare la somma totale dei quadrati: misura la variazione totale nei dati sommando le differenze al quadrato tra ogni punto dati e la media complessiva.
- Calcolare la somma dei quadrati tra gruppi: misura la variazione tra le medie dei gruppi e la media complessiva.
- Calcolare la somma dei quadrati entro i gruppi: misura la variazione all'interno di ciascun gruppo sommando le differenze al quadrato tra ogni punto dati e la media del proprio gruppo.
- Calcolare il quadrato medio tra gruppi: dividi la somma dei quadrati tra gruppi per i gradi di libertà tra gruppi.
- Calcolare il quadrato medio entro i gruppi: dividi la somma dei quadrati entro i gruppi per i gradi di libertà entro i gruppi, dove i gradi di libertà entro i gruppi sono il numero totale di osservazioni meno il numero di gruppi.
- Calcolare il rapporto F: dividi il quadrato medio tra gruppi per il quadrato medio entro i gruppi per determinare il rapporto F.
Come vedi, calcolare l'ANOVA manualmente è un po' impegnativo. Per questo motivo, è meglio usare un software, e Microsoft Excel si distingue per l'ampio utilizzo nella maggior parte dei contesti aziendali e accademici.
Tieni anche presente che, in generale, i calcoli ANOVA fanno parte di progetti analitici più ampi. Oltre alla potenza statistica di Excel, la disponibilità di altre funzionalità, come le bellissime visualizzazioni in Excel, rafforza l'idea che Microsoft Excel sia uno strumento eccellente per l'ANOVA.
Come abilitare il componente aggiuntivo Data Analysis ToolPak in Excel
I componenti aggiuntivi in Excel sono programmi o funzionalità supplementari che possono essere installati e integrati con Excel per aumentarne la funzionalità. Il Data Analysis ToolPak è uno di questi add-in che aiuta a soddisfare la maggior parte delle esigenze di analisi dei dati.
Il componente aggiuntivo Data Analysis ToolPak non è abilitato per impostazione predefinita; quindi devi verificare se riesci a individuare l'icona Data Analysis nell'angolo in alto a destra nella scheda Data, come mostrato di seguito.

Data Analysis ToolPak in Excel
Se non vedi il Data Analysis ToolPak, potrebbe non essere abilitato. Per abilitarlo, fai clic su File dal menu e seleziona Options.
Selecting Options from File Tab
Una volta aperta la finestra di dialogo Excel Options, seleziona Add-ins.
Select Add-ins from the Excel Options dialog box
Quindi, nella casella Manage in basso, seleziona Excel Add-ins e fai clic su Go.
Managing Excel add-ins
Nella casella Add-Ins, seleziona Data Analysis ToolPak e poi fai clic su OK.

Abilitazione del Data Analysis ToolPak
Ora, tornando nella Data Tab vedrai la nuova icona Data Analysis. Siamo pronti per implementare l'ANOVA in Excel con alcuni esempi.
ANOVA a una via in Excel: un esempio pratico
Immagina di essere un data analyst in un'agenzia di marketing incaricato di analizzare le prestazioni di tre strategie di marketing (A, B e C) sul fatturato.
La tua azienda vuole determinare se esiste una differenza significativa nella media del fatturato generato da queste strategie. Hai anche raccolto dati di fatturato da cinque diverse aziende di dimensioni simili nella Regione A, dove ciascuna strategia è stata implementata.
I dati raccolti sono stati riportati nella tabella qui sotto:

Dati per ANOVA a una via
Usiamo ora l'ANOVA per vedere se c'è una differenza significativa tra le medie di vendita di ciascuna strategia.
Come primo passo, seleziona le colonne B, C e D, inclusa la prima riga come mostrato sotto, e fai clic sull'icona Data Analysis per aprire il componente aggiuntivo Data Analysis Toolpak.
Avvio del componente aggiuntivo Data Analysis Toolpak
Quindi seleziona Anova: Single Factor dalla finestra di dialogo e fai clic su OK.

Selezione dell'opzione Anova: Single Factor
Ti verrà mostrata una finestra di dialogo, come sotto.

Compilazione dei dettagli per Anova: Single Factor
L'Input Range è precompilato poiché lo abbiamo già selezionato prima di avviare l'add-in. Seleziona Columns per l'opzione Grouped By, spunta la casella Labels in the first row e lascia i valori predefiniti così come sono. Per l'Output Range, selezioniamo una cella nello stesso foglio, ad esempio $A$9, oppure un nuovo foglio, come preferisci.
Fai clic su OK e vedrai i risultati calcolati nello stesso foglio Excel.
Risultati ANOVA a una via
Hai eseguito con successo un'ANOVA a una via sul tuo dataset in pochissimo tempo!
Test di ipotesi e ANOVA
Per capire meglio i risultati, dobbiamo approfondire il test di ipotesi e il suo legame con l'ANOVA. Il test di ipotesi è trattato in dettaglio nel nostro corso Introduction to Statistics.
Nel test di ipotesi statistico, l'ipotesi nulla (H0) è un'affermazione generale che sostiene che non esiste relazione tra due fenomeni misurati. Postula assenza di effetto o di differenza. L'ipotesi alternativa (H1 o Ha), invece, suggerisce che le osservazioni del campione siano influenzate da qualche causa non casuale, contraddicendo l'ipotesi nulla.
Nel nostro esempio, per un test ANOVA a una via, le ipotesi sarebbero:
- Ipotesi nulla (H0): non c'è differenza nella media del fatturato generato dalle tre strategie.
- Ipotesi alternativa (Ha): almeno una strategia ha una media di fatturato diversa.
Lo scopo del test ANOVA è verificare queste ipotesi. Se il p-value è inferiore al livello di significatività (di solito 0,05), rifiutiamo l'ipotesi nulla a favore dell'ipotesi alternativa.
Interpretare i risultati dell'ANOVA a una via
Leggendo la tabella ANOVA, vediamo tre righe di risultati:
- Between Groups: questa riga rappresenta la variazione tra le diverse strategie di marketing e i relativi calcoli.
- Within Groups: questa riga rappresenta la variazione all'interno di ciascuna strategia di marketing e i relativi calcoli.
- Total: questa riga rappresenta la variazione totale nei dati e i relativi risultati.
Il p-value è 0,73. Poiché è maggiore del tipico livello di significatività di 0,05, non riusciamo a rifiutare l'ipotesi nulla. In altre parole, non ci sono prove sufficienti per affermare che esista una differenza significativa tra le medie delle tre strategie di marketing.
Il valore F crit è 3,88. Sappiamo che se la statistica F (0,32) fosse stata maggiore del valore F critico, avremmo rifiutato l'ipotesi nulla e concluso che c'è una differenza significativa tra le medie.
In base al nostro test ANOVA, sembra che le tre strategie di marketing non differiscano in modo significativo in termini di efficacia. Tuttavia, è importante ricordare che il mancato rifiuto dell'ipotesi nulla non prova che l'ipotesi nulla sia vera. Significa solo che non abbiamo prove sufficientemente solide per concludere il contrario.
Vediamo ora come testare due fattori e la loro influenza sulla variabile dipendente.
ANOVA a due vie in Excel: un esempio pratico
Estendiamo il nostro esempio precedente includendo un secondo fattore. Questa volta, la tua azienda vuole sapere se ci sono differenze significative nel fatturato generato con strategie diverse e se esiste anche un effetto di interazione tra strategie e regioni.
I dati aggiuntivi raccolti sono stati inseriti nel foglio di lavoro, come mostrato di seguito:

Dati per ANOVA a due vie
Poiché ora ci sono due fattori - strategia e regione - sappiamo che serve un'ANOVA a due vie invece di un'ANOVA a una via.
Selezioniamo l'intero intervallo di celle e facciamo clic sull'icona Data Analysis per avviare il componente aggiuntivo.
Avvio del componente aggiuntivo Data Analysis Toolpak
Viene visualizzata una finestra di dialogo con due diverse opzioni per l'ANOVA a due vie.

Selezione dell'opzione Anova: Two-Factor With Replication
- ANOVA: Two-Factor With Replication: si usa quando abbiamo più osservazioni, o repliche, per ogni combinazione dei nostri fattori.
- ANOVA: Two-Factor Without Replication: si usa quando abbiamo una sola osservazione per ciascuna combinazione dei nostri fattori.
Nel nostro caso, poiché abbiamo più osservazioni per ciascuna combinazione di strategia di marketing (A, B, C) e regione (A, B), scegliamo un'ANOVA a due fattori con replicazione.
Dopo aver fatto clic su OK, vedrai la finestra di dialogo sotto con un intervallo di input precompilato.

Compilazione dei dettagli per Anova: Two-Factor With Replication
Nell'opzione Rows per sample inseriamo 5 perché abbiamo cinque punti dati per ciascuna delle regioni. Per l'intervallo di output, possiamo selezionare qualsiasi cella, ad esempio $A$14, oppure un nuovo foglio di lavoro, come preferisci.
Risultati ANOVA a due vie
Ecco fatto! Hai eseguito l'ANOVA a due vie sul dataset fornito in pochi passaggi.
Interpretare i risultati dell'ANOVA a due vie
Prendiamoci un momento per capire come leggere la tabella ANOVA e identificare quale riga rappresenta ciascun fattore testato.
-
Sample: la riga
Samplerappresenta la variazione tra le due regioni. -
Columns: la riga
Columnsrappresenta la variazione tra le diverse strategie di marketing. -
Interaction: la riga
Interactionrappresenta l'effetto di interazione tra le strategie di marketing e le regioni. -
Within: la riga
Withinrappresenta la variazione all'interno di ciascuna combinazione di strategia di marketing e regione. -
Total: la riga
Totalrappresenta la variazione totale nei dati.
Se la statistica F è sufficientemente grande, il p-value sarà sufficientemente piccolo. Questo ci porterà a rifiutare l'ipotesi nulla e a concludere che ci sono differenze significative tra le medie dei gruppi.
Tuttavia, nel nostro caso, le statistiche F per sample, columns e interaction sono inferiori al valore F critico per ciascuna, e i p-value sono tutti maggiori di 0,05. Pertanto, non riusciamo a rifiutare l'ipotesi nulla in tutti e tre i casi.
Ciò significa che non ci sono prove sufficienti per affermare che esistano differenze significative tra le medie delle regioni, delle strategie di marketing o un effetto di interazione tra strategie e regioni.
Conclusione
L'ANOVA è uno strumento statistico importante sia in ambito accademico che aziendale. Questo tutorial ha presentato la tecnica e le sue due tipologie principali. Abbiamo preso un esempio reale e implementato sia l'ANOVA a una via sia l'ANOVA a due vie utilizzando Microsoft Excel.
Oltre all'implementazione, abbiamo anche imparato come formulare un'ipotesi e interpretare i risultati per accettare o rifiutare l'ipotesi.
Per padroneggiare Excel per attività analitiche simili, il percorso Excel Fundamentals è una buona scelta, insieme all'Excel cheat sheet per riferimenti rapidi.
Buono studio!
Come senior data scientist, progetto, sviluppo e distribuisco soluzioni di machine learning su larga scala per aiutare le aziende a prendere decisioni migliori basate sui dati. Come autore nell'ambito della data science, condivido ciò che ho imparato, consigli di carriera e tutorial pratici approfonditi.


