adriano gilardone Docente di Statistica Matematica Excel Spss sfruttare excel consulenze statistiche lezione videocorsi

blog

blog

Analisi della varianza: l'Anova a una via

YouTube video
Postato il 19 Gennaio 2022
Tag

Partiamo dal dire che Anova è l’acronimo di Analysis of Variance, cioè l’analisi della varianza, quella tecnica statistica che ti permette di verificare se c’è relazione tra una variabile dipendente quantitativa e una indipendente qualitativa. 

L'Anova si divide poi in varie tipologie: scegliere quale utilizzare dipende da quante e quali sono le variabili che prendi in considerazione, e anche se sono indipendenti (le cause) o indipendenti (gli effetti).

corso statistica

Vediamo insieme questi diversi tipi:

  • Anova a una via = 1 sola Variabile INDIPENDENTE
  • Anova fattoriale, o a più vie = più di una Variabile INDIPENDENTE
  • Anova univariata = 1 sola Variabile DIPENDENTE
  • Anova multivariata = più di una Variabile DIPENDENTE

Si dice Anova a una via proprio perché la variabile indipendente, o fattore, è unica. Se invece le variabili indipendenti sono due o più si parlerà, rispettivamente, di Anova a due vie o Anova fattoriale

Quando si utilizza l’Anova a una via

L’Anova a una via si utilizza quando vuoi verificare se c’è differenza tra le medie di due o più gruppi.

Se i gruppi sono due vuol dire che la variabile qualitativa è dicotomica, cioè formata da due sole categorie.
Un esempio pratico può essere quello di dover confrontare la spesa di prodotti alimentari (variabile numerica) tra maschi e femmine (variabile sesso dicotomica). In questo caso, l’Anova a una via produce lo stesso risultato di un test t per campioni indipendenti.

Ci sono anche casi in cui la variabile categoriale contiene più di due gruppi.
Ad esempio, immagina di voler confrontare la spesa di prodotti alimentari tra diverse categorie di lavoratori (operai, impiegati, liberi professionisti, ecc…).

In questo caso non puoi utilizzare il test t per campioni indipendenti.

Perché l’analisi della varianza?

Ma perché si parla di analisi della varianza quando, di fatto, si analizzano le differenze tra medie?

Quando si mettono a confronto due gruppi si guardano la loro media e deviazione standard.
La media aritmetica è un valore ben definito, con poco margine di variazione, eccetto che in presenza di outlier. La varianza totale della variabile (deviazione standard al quadrato), invece, è un valore più complesso perché può essere suddivisa in varianza entro i gruppi, o within-group e varianza tra i gruppi, between-group.

La prima è dovuta alle differenze all’interno del singolo gruppo, mentre la seconda si riferisce alle differenze tra gruppi. Quest’ultima è quella che viene studiata dal test Anova.

Puoi approfondire la scomposizione della varianza leggendo questo articolo, in cui te ne ho parlato in maniera più dettagliata.

Questa scissione della varianza ti permette di capire se la differenza tra le medie dei gruppi sia causata dalla variazione tra gruppi oppure sia effetto delle differenze tra le singole osservazioni e le medie di ogni gruppo. In altre parole, se la variabilità interna ai gruppi è relativamente elevata rispetto alla variabilità tra i gruppi, allora probabilmente la differenza tra i diversi livelli del fattore è soltanto l’effetto della variabilità interna.

In seguito ti mostrerò che la varianza within e la varianza between entrano in gioco nel calcolo del test F dell’Anova. 

Assunzioni dell’Anova a una via

Prima di spiegarti come calcolare un’Anova a una via ti elenco quali sono i requisiti che devono essere soddisfatti per condurre questo tipo di analisi:

corso statistica

Normalità della variabile dipendente

É richiesto che la variabile numerica analizzata nei vari gruppi abbia distribuzione normale, soprattutto nel caso di campioni di piccole dimensioni.

L'omoschedasticità è la verifica dell’ipotesi che le varianze nei differenti gruppi siano uguali. Tale verifica si può condurre con un test di Levene per l’omogeneità delle varianze. Lo schema di ipotesi è:

Omoschedasticità

  • H0 (ipotesi nulla): le varianze dei gruppi sono uguali
  • H1 (ipotesi alternativa): le varianze dei gruppi NON sono uguali

Se il p-value di tale test è minore di 0,05 le varianze dei gruppi sono statisticamente diverse tra loro, e quindi devi fare molta attenzione prima di trarre conclusioni affrettate circa la differenza tra le medie di tali gruppi.

Indipendenza delle osservazioni

Le unità statistiche devono essere indipendenti, altrimenti genererebbero bias.

Fai attenzione: se applichi l’Anova quando almeno una delle tre assunzioni qui sopra è violata, ottieni un risultato e quindi un p-value del test sovrastimato, che ti invalida completamente l’analisi!

Come calcolare l’Anova a una via

Vediamo ora come si calcola l'Anova a una via.

Per eseguire un’Anova sono necessari diversi calcoli che, per fortuna, i maggiori software statistici eseguono autonomamente. Qui di seguito ti elenco i passaggi che software statistici come SPSS ed R compiono per trovare l’Anova a una via, e indicherò con k il numero di gruppi e con n il numero di soggetti per gruppo.

Devianza between Devb

Questa è la somma dei quadrati degli scarti delle medie dei singoli gruppi m1, m2 ,..., mk, dalla media totale m. La devianza tra gruppi divisa per k-1 ti dà esattamente la varianza tra i gruppi. Per la procedura di calcolo dettagliata ti rimando al solito articolo sulla scomposizione della varianza.

In alternativa, ti lascio questo mio video in cui ti mostro come risolvere in modo semplice un'esercizio sulla scomposizione della varianza, utilizzando la calcolatrice SHARP.

YouTube video
Esercizio sulla scomposizione della varianza

Devianza within Devw

Questa è la somma dei quadrati degli scarti delle singole osservazioni xij , i=1,...,k, j=1,...,n rispetto alla media mi del gruppo a cui appartengono. La devianza entro i gruppi divisa per n-k ti dà la varianza entro i gruppi.

analisi dati tesi

Il test F dell'Anova

Per calcolare l'Anova a una via puoi anche utilizzare il test F dell'Anova.

Questo è il test Anova basato sulla verifica delle seguenti ipotesi nulla e ipotesi alternativa:

  • H0 (ipotesi nulla): le medie dei gruppi sono uguali
  • H1 (ipotesi alternativa): le medie dei gruppi NON sono uguali

La statistica test che si utilizza per sancire tali ipotesi è la distribuzione di Fisher-Snedecor, detta anche distribuzione F. Questa non è altro che il rapporto tra la varianza tra i gruppi e quella entro i gruppi:

F = [Devb / (k-1)] / [Devw / (n-k)]

Maggiore è la varianza between (quella al numeratore) rispetto a quella within (quella al denominatore), maggiore sarà il valore di F, e di conseguenza è più probabile che si arriverà al rifiuto dell’ipotesi H0.

Valore critico F

Adesso hai bisogno del valore critico della distribuzione di Fisher che delineano le regioni di rifiuto e di accettazione delle ipotesi. Lo trovi nella corrispondente tavola statistica, di cui ti mostro qui sotto uno stralcio. Il valore lo trovi incrociando i gradi di libertà del numeratore, k-1 con quelli del denominatore, n-k.

Anova a una via
F di Snedecor

Prendere una decisione

Fissato un livello di significatività 𝛼 e calcolato quindi il valore critico F𝛼(k-1,n-k) puoi ricadere in uno dei seguenti casi:

  • se F > F𝛼(k-1,n-k) rifiuti H0 affermando che almeno uno dei gruppi differisce dagli altri;
  • se invece  F < F𝛼(k-1,n-k) accetti H0 dicendo che le medie dei gruppi si possono ritenere uguali.

Un metodo alternativo per stabilire se accettare o rifiutare H0 è quello del p-value:

  • se p-value < alfa (di solito 0,05) il test è significativo e quindi affermi che almeno uno dei gruppi è diverso dagli altri;
  • se p-value > alfa allora non è significativo e concludi dicendo che le medie dei gruppi possono essere considerate uguali.

Se non sei sicuro di che cosa sia il p-value, guarda questo video in cui te lo spiego in modo chiaro e semplice utilizzando una metafora statistica.

YouTube video
Il p-value spiegato con una metafora

Test post-hoc HSD di Tukey e correzione di Bonferroni

Per scopi di ricerca o professionali in cui è necessario approfondire l’analisi, non basta trovare l’anova univariata, ma si devono effettuare i cosiddetti test a posteriori o test post-hoc. Infatti, nel caso in cui il test F risulta significativo (e quindi almeno uno dei gruppi differisce dagli altri) i test a posteriori ti consentono di verificare quali tra le medie dei livelli del fattore between differiscono tra loro.

Questi test effettuano un confronto multiplo tra tutti i gruppi presenti, identificando i sottogruppi omogenei. I test post-hoc più utilizzati sono il test HSD di Tukey e la correzione di Bonferroni ma ne esistono altri tipi, i quali, la maggior parte delle volte restituiscono risultati analoghi. Ti ricordo che affinchè la differenza tra due medie sia significativa il p-value del test deve essere inferiore allo 0,05.

Anova a una via EXCEL

Scheda dati >>> Analisi dati >>> Analisi varianza: ad un fattore

Anova a due vie EXCEL

Scheda dati >>> Analisi dati >>> Analisi varianza: a due fattori senza replica

Anova a una via SPSS (ma anche Anova multivariata SPSS)

Analizza >>> Confronta medie >>> Medie

Analizza >>> Confronta medie >>> Anova univariata

Analizza >>> Modello lineare generalizzato >>> Univariata

Riassumendo

  • L’Anova a una via, o Anova univariata, è una tecnica statistica che consente di confrontare le medie tra due o più gruppi di dati.
  • Quando i gruppi sono due equivale al test t per campioni indipendenti.
  • La scomposizione della varianza totale in varianza entro i gruppi e varianza tra i gruppi permette di capire se la differenza tra gruppi sia causata dalla variabilità interna tra soggetti o esterna tra gruppi.
  • I requisiti che devono essere rispettati per condurre un’Anova a una via sono: normalità della variabile dipendente, uguaglianza delle varianze dei diversi gruppi e indipendenza delle osservazioni.
  • Il test F sancisce se le medie dei gruppi si possono ritenere uguali o no
  • Nel caso in cui la variabile fattore ha più di due categorie, in seguito ad un test Anova significativo si possono effettuare test post-hoc per identificare i gruppi simili e raggrupparli a sua volta in sottogruppi omogenei

Il governo è molto arguto nell’ammassare grandi quantità di statistiche. Le colleziona, le somma, le eleva all’ennesima potenza, ne estrae la radice quadrata e prepara impressionanti diagrammi. Ciò che non si deve mai dimenticare, comunque, è che in ogni caso le cifre vengono in prima istanza redatte dal guardiano del villaggio, che tira fuori ciò che diavolo gli pare e piace.

(Josiah Stamp, scrittore, economista, banchiere, industriale e statista inglese).

Ripetizioni private

Ho intrapreso una interessante collaborazione con il sito di TROVAPROF.IT

Questa start-up mette in relazione studenti che cercano lezioni private con professori di qualsiasi materia. Se stai cercano delle ripetizioni per le materie che non tratto io, allora ti consiglio di fare un salto su TROVAPROF.IT, un portale completamente gratuito per dare o ricevere lezioni private.

Iscriviti alla Newsletter

Se hai bisogno d’informazioni che non hai trovato nella sezione servizi o dei video corsi, scrivimi un messaggio o chiamami.
Domande, prezzi, richieste, delucidazioni...tutto quello che ti serve. Cercherò di risponderti entro le 24h.
Newsletter

Consenso al trattamento dei dati
Utilizzerò i tuoi dati (nome ed indirizzo mail) solo per inviarti gratuitamente via mail la newsletter mensile. Niente spam, niente scocciature, ti disiscrivi in un click quando vuoi.

linkedin facebook pinterest youtube rss twitter instagram facebook-blank rss-blank linkedin-blank pinterest youtube twitter instagram