Partiamo dal dire che Anova è l’acronimo di Analysis of Variance, cioè l’analisi della varianza, quella tecnica statistica che ti permette di verificare se c’è relazione tra una variabile dipendente quantitativa e una indipendente qualitativa.
L'Anova si divide poi in varie tipologie: scegliere quale utilizzare dipende da quante e quali sono le variabili che prendi in considerazione, e anche se sono indipendenti (le cause) o indipendenti (gli effetti).
Vediamo insieme questi diversi tipi:
Si dice Anova a una via proprio perché la variabile indipendente, o fattore, è unica. Se invece le variabili indipendenti sono due o più si parlerà, rispettivamente, di Anova a due vie o Anova fattoriale.
L’Anova a una via si utilizza quando vuoi verificare se c’è differenza tra le medie di due o più gruppi.
Se i gruppi sono due vuol dire che la variabile qualitativa è dicotomica, cioè formata da due sole categorie.
Un esempio pratico può essere quello di dover confrontare la spesa di prodotti alimentari (variabile numerica) tra maschi e femmine (variabile sesso dicotomica). In questo caso, l’Anova a una via produce lo stesso risultato di un test t per campioni indipendenti.
Ci sono anche casi in cui la variabile categoriale contiene più di due gruppi.
Ad esempio, immagina di voler confrontare la spesa di prodotti alimentari tra diverse categorie di lavoratori (operai, impiegati, liberi professionisti, ecc…).
In questo caso non puoi utilizzare il test t per campioni indipendenti.
Ma perché si parla di analisi della varianza quando, di fatto, si analizzano le differenze tra medie?
Quando si mettono a confronto due gruppi si guardano la loro media e deviazione standard.
La media aritmetica è un valore ben definito, con poco margine di variazione, eccetto che in presenza di outlier. La varianza totale della variabile (deviazione standard al quadrato), invece, è un valore più complesso perché può essere suddivisa in varianza entro i gruppi, o within-group e varianza tra i gruppi, between-group.
La prima è dovuta alle differenze all’interno del singolo gruppo, mentre la seconda si riferisce alle differenze tra gruppi. Quest’ultima è quella che viene studiata dal test Anova.
Puoi approfondire la scomposizione della varianza leggendo questo articolo, in cui te ne ho parlato in maniera più dettagliata.
Questa scissione della varianza ti permette di capire se la differenza tra le medie dei gruppi sia causata dalla variazione tra gruppi oppure sia effetto delle differenze tra le singole osservazioni e le medie di ogni gruppo. In altre parole, se la variabilità interna ai gruppi è relativamente elevata rispetto alla variabilità tra i gruppi, allora probabilmente la differenza tra i diversi livelli del fattore è soltanto l’effetto della variabilità interna.
In seguito ti mostrerò che la varianza within e la varianza between entrano in gioco nel calcolo del test F dell’Anova.
Prima di spiegarti come calcolare un’Anova a una via ti elenco quali sono i requisiti che devono essere soddisfatti per condurre questo tipo di analisi:
É richiesto che la variabile numerica analizzata nei vari gruppi abbia distribuzione normale, soprattutto nel caso di campioni di piccole dimensioni.
L'omoschedasticità è la verifica dell’ipotesi che le varianze nei differenti gruppi siano uguali. Tale verifica si può condurre con un test di Levene per l’omogeneità delle varianze. Lo schema di ipotesi è:
Se il p-value di tale test è minore di 0,05 le varianze dei gruppi sono statisticamente diverse tra loro, e quindi devi fare molta attenzione prima di trarre conclusioni affrettate circa la differenza tra le medie di tali gruppi.
Le unità statistiche devono essere indipendenti, altrimenti genererebbero bias.
Fai attenzione: se applichi l’Anova quando almeno una delle tre assunzioni qui sopra è violata, ottieni un risultato e quindi un p-value del test sovrastimato, che ti invalida completamente l’analisi!
Vediamo ora come si calcola l'Anova a una via.
Per eseguire un’Anova sono necessari diversi calcoli che, per fortuna, i maggiori software statistici eseguono autonomamente. Qui di seguito ti elenco i passaggi che software statistici come SPSS ed R compiono per trovare l’Anova a una via, e indicherò con k il numero di gruppi e con n il numero di soggetti per gruppo.
Questa è la somma dei quadrati degli scarti delle medie dei singoli gruppi m1, m2 ,..., mk, dalla media totale m. La devianza tra gruppi divisa per k-1 ti dà esattamente la varianza tra i gruppi. Per la procedura di calcolo dettagliata ti rimando al solito articolo sulla scomposizione della varianza.
In alternativa, ti lascio questo mio video in cui ti mostro come risolvere in modo semplice un'esercizio sulla scomposizione della varianza, utilizzando la calcolatrice SHARP.
Questa è la somma dei quadrati degli scarti delle singole osservazioni xij , i=1,...,k, j=1,...,n rispetto alla media mi del gruppo a cui appartengono. La devianza entro i gruppi divisa per n-k ti dà la varianza entro i gruppi.
Per calcolare l'Anova a una via puoi anche utilizzare il test F dell'Anova.
Questo è il test Anova basato sulla verifica delle seguenti ipotesi nulla e ipotesi alternativa:
La statistica test che si utilizza per sancire tali ipotesi è la distribuzione di Fisher-Snedecor, detta anche distribuzione F. Questa non è altro che il rapporto tra la varianza tra i gruppi e quella entro i gruppi:
F = [Devb / (k-1)] / [Devw / (n-k)]
Maggiore è la varianza between (quella al numeratore) rispetto a quella within (quella al denominatore), maggiore sarà il valore di F, e di conseguenza è più probabile che si arriverà al rifiuto dell’ipotesi H0.
Adesso hai bisogno del valore critico della distribuzione di Fisher che delineano le regioni di rifiuto e di accettazione delle ipotesi. Lo trovi nella corrispondente tavola statistica, di cui ti mostro qui sotto uno stralcio. Il valore lo trovi incrociando i gradi di libertà del numeratore, k-1 con quelli del denominatore, n-k.
Fissato un livello di significatività 𝛼 e calcolato quindi il valore critico F𝛼(k-1,n-k) puoi ricadere in uno dei seguenti casi:
Un metodo alternativo per stabilire se accettare o rifiutare H0 è quello del p-value:
Se non sei sicuro di che cosa sia il p-value, guarda questo video in cui te lo spiego in modo chiaro e semplice utilizzando una metafora statistica.
Per scopi di ricerca o professionali in cui è necessario approfondire l’analisi, non basta trovare l’anova univariata, ma si devono effettuare i cosiddetti test a posteriori o test post-hoc. Infatti, nel caso in cui il test F risulta significativo (e quindi almeno uno dei gruppi differisce dagli altri) i test a posteriori ti consentono di verificare quali tra le medie dei livelli del fattore between differiscono tra loro.
Questi test effettuano un confronto multiplo tra tutti i gruppi presenti, identificando i sottogruppi omogenei. I test post-hoc più utilizzati sono il test HSD di Tukey e la correzione di Bonferroni ma ne esistono altri tipi, i quali, la maggior parte delle volte restituiscono risultati analoghi. Ti ricordo che affinchè la differenza tra due medie sia significativa il p-value del test deve essere inferiore allo 0,05.
Scheda dati >>> Analisi dati >>> Analisi varianza: ad un fattore
Analizza >>> Confronta medie >>> Medie
Analizza >>> Confronta medie >>> Anova univariata
Analizza >>> Modello lineare generalizzato >>> Univariata
Il governo è molto arguto nell’ammassare grandi quantità di statistiche. Le colleziona, le somma, le eleva all’ennesima potenza, ne estrae la radice quadrata e prepara impressionanti diagrammi. Ciò che non si deve mai dimenticare, comunque, è che in ogni caso le cifre vengono in prima istanza redatte dal guardiano del villaggio, che tira fuori ciò che diavolo gli pare e piace.
(Josiah Stamp, scrittore, economista, banchiere, industriale e statista inglese).