Anova è l’acronimo di Analysis of Variance, cioè l’analisi della varianza è quella tecnica statistica che ti permette di verificare se c’è relazione tra una variabile dipendente quantitativa e una indipendente qualitativa.
Prima di tutto facciamo una premessa semantica.
Anova a una via = 1 sola Variabile INDIPENDENTE
Anova fattoriale = più di una Variabile INDIPENDENTE
Anova univariata = 1 sola Variabile DIPENDENTE
Anova multivariata = più di una Variabile DIPENDENTE
Si dice Anova a una via proprio perché la variabile indipendente o fattore è unica. Se invece le variabili indipendenti sono due o più si parlerà, rispettivamente, di anova a due vie o anova fattoriale.
L’anova a una via si utilizza quando vuoi verificare se c’è differenza tra le medie di due o più gruppi.
Se i gruppi sono due vuol dire che la variabile qualitativa è dicotomica, cioè formata da due sole categorie. Un esempio pratico può essere quello di dover confrontare la spesa di prodotti alimentari (variabile numerica) tra maschi e femmine (variabile sesso dicotomica). In questo caso, l’anova a una via produce lo stesso risultato di un test t per campioni indipendenti.
Ci sono anche casi in cui la variabile categoriale contiene più di due gruppi. Ad esempio, immagina di voler confrontare la spesa di prodotti alimentari tra diverse categorie di lavoratori (operai, impiegati, liberi professionisti, ecc…).
In questo caso non puoi utilizzare il test t per campioni indipendenti.
Ma una domanda ti sarà sorta spontanea. Perché si parla di analisi della varianza quando di fatto si analizzano le differenze tra medie?
Quando si mettono a confronto due gruppi si guardano la loro media e deviazione standard. La media aritmetica è un valore ben definito con poco margine di variazione eccetto che in presenza di outlier. La varianza totale della variabile (deviazione standard al quadrato), invece, è un valore più complesso perché può essere suddivisa in varianza entro i gruppi o within-group e varianza tra i gruppi, between-group. La prima è dovuta alle differenze all’interno del singolo gruppo, mentre la seconda si riferisce alle differenze tra gruppi. Quest’ultima è quella che viene studiata dal test Anova. Puoi approfondire la scomposizione della varianza leggendo questo articolo in cui te ne ho parlato in maniera più dettagliata.
Questa scissione della varianza ti permette di capire se la differenza tra le medie dei gruppi sia causata dalla variazione tra gruppi oppure sia effetto delle differenze tra le singole osservazioni e le medie di ogni gruppo. In altre parole, se la variabilità interna ai gruppi è relativamente elevata rispetto alla variabilità tra i gruppi, allora probabilmente la differenza tra i diversi livelli del fattore è soltanto l’effetto della variabilità interna.
In seguito ti mostrerò che la varianza within e la varianza between entrano in gioco nel calcolo del test F dell’Anova.
Prima di spiegarti come calcolare un’anova a una via ti elenco quali sono i requisiti che devono essere soddisfatti per condurre questo tipo di analisi:
E’ richiesto che la variabile numerica analizzata nei vari gruppi abbia distribuzione normale soprattutto nel caso di campioni di piccole dimensioni.
Ossia la verifica dell’ipotesi che le varianze nei differenti gruppi siano uguali. Tale verifica si può condurre con un test di Levene per l’omogeneità delle varianze. Lo schema di ipotesi è:
H0 (ipotesi nulla): Le varianze dei gruppi sono uguali
H1 (ipotesi alternativa): Le varianze dei gruppi NON sono uguali
Se il p-value di tale test è minore di 0,05 le varianze dei gruppi sono statisticamente diverse tra loro e quindi devi fare molta attenzione prima di trarre conclusioni affrettate circa la differenza tra le medie di tali gruppi.
Le unità statistiche devono essere indipendenti altrimenti genererebbero bias.
Se applichi l’Anova quando almeno una delle tre assunzioni qui sopra è violata, ottieni un risultato e quindi un p-value del test sovrastimato che ti invalida completamente l’analisi.
Per eseguire un’anova sono necessari diversi calcoli che, per fortuna, i maggiori software statistici eseguono autonomamente. Qui di seguito ti elenco i passaggi che software statistici come SPSS ed R compiono per trovare l’Anova a una via:
Indichiamo con k il numero di gruppi e con n il numero di soggetti per gruppo.
Questa è la somma dei quadrati degli scarti delle medie dei singoli gruppi m1, m2 ,..., mk, dalla media totale m. La devianza tra gruppi divisa per k-1 ti dà esattamente la varianza tra i gruppi. Per la procedura di calcolo dettagliata ti rimando al solito articolo sulla scomposizione della varianza.
E’ la somma dei quadrati degli scarti delle singole osservazioni xij , i=1,...,k, j=1,...,n rispetto alla media mi del gruppo a cui appartengono. La devianza entro i gruppi divisa per n-k ti dà la varianza entro i gruppi.
Questo è il test Anova basato sulla verifica delle seguenti ipotesi nulla e ipotesi alternativa:
H0 (ipotesi nulla): le medie dei gruppi sono uguali
H1 (ipotesi alternativa): le medie dei gruppi NON sono uguali
La statistica test che si utilizza per sancire tali ipotesi è la distribuzione di Fisher-Snedecor detta anche distribuzione F. Questa non è altro che il rapporto tra la varianza tra i gruppi e quella entro i gruppi:
F = [Devb / (k-1)] / [Devw / (n-k)]
Maggiore è la varianza between (quella al numeratore) rispetto a quella within (quella al denominatore), maggiore sarà il valore di F e di conseguenza è più probabile che si arriverà al rifiuto dell’ipotesi H0.
Adesso hai bisogno del valore critico della distribuzione di Fisher che delineano le regioni di rifiuto e di accettazione delle ipotesi. Lo trovi nella corrispondente tavola statistica di cui ti mostro qui sotto uno stralcio. Il valore lo trovi incrociando i gradi di libertà del numeratore, k-1 con quelli del denominatore, n-k.
Fissato un livello di significatività 𝛼 e calcolato quindi il valore critico F𝛼(k-1,n-k) puoi ricadere in uno dei seguenti casi:
Un metodo alternativo per stabilire se accettare o rifiutare H0 è quello del p value:
Per scopi di ricerca o professionali in cui è necessario approfondire l’analisi, non basta trovare l’anova univariata, ma si devono effettuare i cosiddetti test a posteriori o test post-hoc. Infatti, nel caso in cui il test F risulta significativo (e quindi almeno uno dei gruppi differisce dagli altri) i test a posteriori ti consentono di verificare quali tra le medie dei livelli del fattore between differiscono tra loro.
Questi test effettuano un confronto multiplo tra tutti i gruppi presenti, identificando i sottogruppi omogenei. I test post-hoc più utilizzati sono il test HSD di Tukey e la correzione di Bonferroni ma ne esistono altri tipi, i quali, la maggior parte delle volte restituiscono risultati analoghi. Ti ricordo che affinchè la differenza tra due medie sia significativa il p-value del test deve essere inferiore allo 0,05.
COMANDI SOFTWARE:
Il governo è molto arguto nell’ammassare grandi quantità di statistiche. Le colleziona, le somma, le eleva all’ennesima potenza, ne estrae la radice quadrata e prepara impressionanti diagrammi. Ciò che non si deve mai dimenticare, comunque, è che in ogni caso le cifre vengono in prima istanza redatte dal guardiano del villaggio, che tira fuori ciò che diavolo gli pare e piace.
(Josiah Stamp, scrittore, economista, banchiere, industriale e statista inglese).