Di cosa stiamo parlando quando parliamo della varianza? Come visto in un precedente articolo, la varianza è semplicemente una misura che ci indica di quanto variano i numeri.
A dir la verità avevo sottolineato come la sua radice quadrata, cioè la deviazione standard, fosse una migliore interpretazione della variabilità di una distribuzione, infatti il numero che ne scaturiva aveva la stessa unità di misura della media del fenomeno.
Ma allora, se abbiamo già affermato che la deviazione standard è un'interpretazione migliore, per quale motivo la varianza tra gruppi e nei gruppi sono così importanti? La risposta sta nel fatto che i test statistici inferenziali prevedono l'utilizzo della varianza, o meglio ancora la sua scomposizione, in queste due parti differenti, varianza tra gruppi (between in inglese), e varianza nei gruppi (within in inglese), in quanto serve per vedere quale delle due pesa di più sulla varianza totale e quindi osservare se le medie dei gruppi sono differenti dalla media generale.
Prima di iniziare a vedere come si calcolano le due varianze, cerchiamo di capire il contesto in cui ci troviamo.
Hai a disposizione due variabili, di cui una quantitativa e una qualitativa, e vuoi capire se la prima dipenda dalla seconda. Se stai facendo un esame universitario probabilmente avrai sulle righe (o sulle colonne) le modalità qualitative, per esempio maschi e femmine, mentre sulle colonne (o sulle righe) delle classi che si riferiscono al fenomeno quantitativo, per esempio lo stipendio mensile.
Se stai lavorando con dati in un software, come Excel o SPSS, sicuramente avrai solo due colonne contenenti tutti i dati. In entrambi i programmi lo scopo è sempre lo stesso, e cioè calcolare delle medie condizionate al fine di stabilire se esse siano diverse tra di loro.
Ora che abbiamo delineato il nostro contesto, possiamo passare a capire come si calcolano le varianze.
NOTA BENE: in alcuni casi lo stesso esercizio viene fatto scomponendo la devianza totale.
La situazione non cambiano a livello logico, solo ricordati che la devianza è la varianza moltiplicata per N.
Somma ogni valore e dividi per il conteggio degli stessi. Se hai una tabella a doppia entrata moltiplica le modalità quantitative per le loro frequenze associate e dividi la somma finale per N che è il numero totale delle osservazioni.
Usa il metodo indiretto, e se hai bisogno di ripassarlo lo trovi qui. Eleva le xi al quadrato e moltiplicale per le loro frequenze associate ottenendo una somma.
Dividi la somma per N ottenendo il momento secondo che è la prima parte della varianza usando il metodo indiretto.
Lo preferisco a quello diretto perché puoi sfruttare la calcolatrice per un calcolo agevolato.
Fai momento secondo meno la media al quadrato ottenendo la varianza totale. Questa spiega quanto variano i numeri presi tutti insieme. Ora c’è da capire se dividendo in gruppi di dati le cose cambiano.
La stessa cosa che hai fatto per la media generale del punto 1, replicala per ogni gruppo. Se per esempio sulle righe hai messo i due gruppi che si riferiscono ai maschi e alle femmine, calcola le loro rispettive medie.
Per sapere cosa stai facendo ricordati che la varianza TRA gruppi è una varianza di medie condizionate. Di conseguenza considera le medie condizionate trovate al punto 3 come le tue nuove modalità che avranno le loro rispettive frequenze.
Se fai la varianza di tale medie troverai proprio la varianza TRA gruppi.
Fai la stessa operazione fatta per la varianza generale anche per le varianze condizionate. Questo significa che dovrai prendere ogni gruppo e calcolarci una varianza.
Per sapere cosa stai facendo ricordati che la varianza NEI gruppi è una media di varianze condizionate. Pertanto considera le varianze condizionate al punto 1 come le tue nuove modalità che avranno le loro rispettive frequenze.
Se fai la media di tale varianze troverai proprio la varianza NEI gruppi.
Se hai ancora difficoltà a capire bene questo argomento, nel video iniziale ti spiego in modo semplice e chiaro la varianza tra gruppi e nei gruppi, utilizzando una metafora statistica.
Se ti stai preparando per un esame universitario e trovi difficoltà nel fare tutti questi calcoli, ho preparato anche questo video nel quale ti spiego come calcolare la scomposizione della varianza in modo semplice grazie all'uso della calcolatrice scientifica SHARP.
Ora che abbiamo visto come suddividere le due varianze e calcolarle, vediamo nel dettaglio il motivo per cui abbiamo fatto questa operazione.
Facciamo un esempio pratico.
Prova a pensare a questo: quando dividi una popolazione in gruppi lo fai perchè supponi siano omogenei. Il discorso del sesso è semplice, perché a priori sai chi è maschio e femmina grazie ad un attributo fisico.
In altri casi, invece, sei tu che categorizzi in base ad una variabile, per esempio immagina di fare una serie di domande sul gradimento di un servizio e classificare le persone in base al livello di soddisfazione (basso, medio, alto).
La scomposizione della varianza totale vuole capire se i numeri sono molto diversi tra di loro all’interno di questi gruppi oppure all’esterno, cioè tra un gruppo e l’altro.
Se prevale la componente interna significa che la varianza NEI gruppi sarà la più grande, viceversa quando se quella esterna è la principale, allora la varianza TRA gruppi sarà la più elevata.
In questo ultimo caso le medie dei gruppi differiscono ed è ciò determina una dipendenza del carattere quantitativo da quello qualitativo.
Riprendendo l’esempio dello stipendio e del sesso, se ti accorgi che la varianza TRA gruppi è alta allora vuol dire che una delle due categorie ha uno stipendio maggiore dell’altra.
Questa è la vera cosa importante di tutti questi calcoli!
Le varianze TRA e NEI gruppi servono per costruire una tabella usata in un’importante tecnica statistica basata sul test F.
La tecnica in questione è chiamata ANOVA, che significa Analisi della Varianza, dall'inglese Analysis of Variance. Il test in questione, il test F, è dato dal rapporto delle varianze divise i rispettivi gradi di libertà.
In questo articolo non ti spiegherò in dettaglio cos'è questo test, perchè un argomento molto complicato e ricco di dettagli. Sappi, in ogni caso, che è il test che stabilisce se c’è differenza tra i gruppi e non osservando i numeri delle medie o delle varianze condizionate. Diciamo che questo test ti dà il via libera affinchè tu possa analizzare tali differenze ma, se non lo ottieni, nulla puoi dire a riguardo.
Un'ultima considerazione che voglio fare è che, rapportando la varianza TRA gruppi e quella totale, puoi ottenere un'importante indice che misura l’intensità del legame dei due fenomeni: l’indice di dipendenza in media (Eta-quadro).
Tale indice va da 0 a 1, dove per 0 si intende indipendenza in media, mentre 1 totale dipendenza in media del carattere quantitativo da quello qualitativo.
Scheda DATI >>> Analisi dati >>> Analisi varianza: a un fattore
Analizza >>> Confronta medie >>> Anova a una via
Esistono cinque categorie di bugie; la bugia semplice, le previsioni del tempo, la statistica, la bugia diplomatica, e il comunicato ufficiale.
(GEORGE BERNARD SHAW - scrittore, drammaturgo e aforista irlandese)