Cosa si intende davvero quando si parla di asimmetria statistica?
In questo articolo ti spiego perché oltre a calcolare gli indice di posizione, come media o mediana, e gli indici di variabilità, come varianza e deviazione standard, è importante calcolare gli indici di forma, come curtosi e, in particolare, asimmetria statistica.
Sono Adriano Gilardone, docente freelance di statistica da quasi 20 anni. Questo articolo fa per te se vuoi imparare cosa sia l’asimmetria e come influenzi l’analisi dei dati.
L'asimmetria statistica descrive la deviazione dalla simmetria in una distribuzione di dati.
Quando una distribuzione è perfettamente simmetrica, significa che i dati sono distribuiti "a specchio" attorno al valore medio.
Il concetto di simmetria non deve però essere inteso come perfettamente simmetrico, ma tendenzialmente simmetrico.
È un po' come il viso di noi esseri umani che, in linea di massima, è simmetrico, ma se dovessimo usare uno scanner di precisione, sarebbe facile trovare qualche asimmetria.
Nella realtà molte distribuzioni mostrano diversi gradi di asimmetria, ovvero una distorsione verso destra (positiva) o verso sinistra (negativa).
La capacità di identificare e gestire l'asimmetria è un'abilità essenziale per chiunque lavori con i dati, in qualsiasi campo professionale.
E tu devi imparare a padroneggiarla se vuoi superare il tuo esame.
A proposito, ho un regalo per te.
Ho creato una guida pratica che ti aiuta a preparare il tuo esame di statistica.
Una distribuzione simmetrica presenta dati distribuiti in modo uniforme intorno al valore centrale, con la coda della distribuzione che si estende ugualmente in entrambe le direzioni.
In contrasto, l'asimmetria statistica, in inglese skewness, mostra che i dati tendono a inclinarsi verso un lato, con una coda che si allunga più da un lato rispetto all'altro.
Per individuare se una distribuzione viola la condizione di simmetria si utilizzano due strumenti: gli indici di asimmetria e i grafici.
Dei primi te ne parlo tra poco. Ora ti mostro nel dettaglio come usare e interpretare i grafici.
É il grafico che si usa per variabili quantitative discrete. Il tipico caso delle scale Likert o comunque di quei fenomeni che hanno come modalità i numeri naturali (0,1,2...)
Lo scopo è vedere dove la coda dell'istogramma si allunga di più e di conseguenza dove ci sono meno frequenze.
In una distribuzione simmetrica le due code sono uguali, mentre in una simmetrica una è sempre più estesa dell'altra.
É il grafico che si usa per variabili quantitative continue, ma può anche essere sostituito dall'istogramma in alcuni casi.
Segue dunque la logica del precedente con le stesse indicazioni per quanto riguarda il riconoscimento dell'asimmetria statistica.
Il boxplot, o grafico a scatola, di cui ho parlato approfonditamente in questo articolo, è un grafico che ti permette di scoprire se c'è asimmetria attraverso la collocazione della mediana.
Se la linea della mediana si trova equidistante da entrambi i quartili allora c'è simmetria, viceversa se la mediana si avvicina di più a uno dei quartili ci sarà asimmetria.
Un altro aspetto è che "i baffi", cioè le linee che vanno dalla scatola alle estremità, hanno la stessa lunghezza.
Vediamo ora con degli esempi come si usano i grafici.
Una distribuzione simmetrica è caratterizzata dal fatto che la metà dei dati a sinistra della media è un riflesso speculare della metà dei dati a destra.
Un esempio classico di distribuzione simmetrica è la distribuzione normale, spesso chiamata la curva di Gauss.
In questa distribuzione, la media, la mediana e la moda coincidono, situandosi esattamente al centro della curva.
La condizione necessaria, ma attenzione NON sufficiente, affinché una distribuzione sia simmetrica è che la media sia uguale alla mediana.
Ciò significa che per essere simmetrica una distribuzione deve necessariamente avere i due valori coincidenti, ma sapendo che media e mediana sono uguali non è detto poi che la distribuzione sia effettivamente simmetrica.
A breve troverai un esempio pratico sull'argomento.
Ti mostro ora come individuare la simmetria di una distribuzione attraverso i tre grafici.
ISTOGRAMMA: Simmetria = Code del grafico simili
GRAFICO DENSITÁ: Simmetria = Code del grafico simili
BOXPLOT: Simmetria = Mediana in mezzo tra primo e terzo quartile
Una distribuzione con asimmetria positiva ha una coda che si estende più a destra della media, ecco perché viene anche chiamata asimmetria destra.
ISTOGRAMMA: Asimmetria Positiva = Coda di destra più allungata
GRAFICO DENSITÁ: Asimmetria Positiva = Coda di destra più allungata
BOXPLOT: Asimmetria Positiva = Mediana più vicina al primo quartile
In generale con Asimmetria Positiva si ha:
Media > Mediana > Moda
Questo tipo di asimmetria è spesso osservato in dati economici dove una minoranza di casi ha valori estremamente alti.
Di solito, l’asimmetria positiva riguarda il caso di redditi o prezzi di immobili, dove pochi valori molto alti spingono la media al di sopra della mediana.
Al contrario, una distribuzione con asimmetria negativa mostra una coda che si estende più a sinistra della media, ed è per questo che viene anche chiamata asimmetria sinistra.
ISTOGRAMMA: Asimmetria Negativa = Coda di sinistra più allungata
GRAFICO DENSITÁ: Asimmetria Negativa = Coda di sinistra più allungata
BOXPLOT: Asimmetria Negativa = Mediana più vicina al terzo quartile
In generale con Asimmetria Negativa si ha:
Media < Mediana < Moda
Ciò può essere visto in situazioni dove pochi dati estremamente bassi influenzano la media.
Per esempio, solitamente è possibile notare un’asimmetria negativa nei tempi di completamento di una task, dove pochi tempi molto brevi possono influenzare la media. Ciò indica che la maggior parte delle attività è stata completata in tempi meno rapidi del valore medio.
In questa sezione ti spiego come calcolare passo dopo passo i principali indici di asimmetria e ti faccio capire come e quando considerare una distribuzione asimmetrica.
Tutti questi indici sono normalizzati pertanto non sono influenzati dai valori della distribuzione permettendo il confronto tra distribuzioni che hanno unità di misura o ordini di grandezza diversi tra loro.
É l'indice più utilizzato, definito come la media aritmetica delle terze potenze della variabile standardizzata. Detto così suona complicato, meglio vedere separatamente ogni singolo calcolo per arrivare alla soluzione finale.
Somma tutti i valori e dividila per N
Prendi ogni valore della distribuzione e sottrai la media
Prendi ogni differenza calcolata ed elevala al quadrato
Prendi ogni differenza calcolata ed elevala alla terza
Prendi il valore appena calcolato e dividilo per N:
Prendi gli la somma degli scarti dalla media al quadrato e dividila per N-1. Poi metti tutto sotto radice
Il valore ottenuto è la deviazione standard del campione.
Se avessi diviso gli scarti per N e non per N-1 avresti trovato la deviazione standard della popolazione. Tra l'altro se fosse stata la deviazione standard della popolazione avrei dovuto usare il simbolo σ.
Siccome è raro avere i dati della popolazione (del resto se fosse stata la deviazione standard della popolazione avrei dovuto usare il simbolo σ), qui ti metto tutte le formule inerenti al campione, comprese quelle degli indici di asimmetria.
Eleva la deviazione standard appena calcolata alla terza. Questo ti servirà per l'indice finale.
N.B. Se stai facendo un esercizio in preparazione di un esame statistico, probabilmente ti fanno calcolare questo indice con i dati della popolazione e non del campione.
Niente panico! Semplicemente ometti le parti evidenziate in azzurro e avrai la deviazione standard della popolazione e l'indice di asimmetria di Fisher riferito alla popolazione
Posto che questo indice difficilmente risulterà uguale a zero, restituendo una perfetta simmetria, c'è da capire fino a che punto una distribuzione possa comunque essere considerata simmetrica oppure no.
Esistono diversi criteri per stabilire il grado di asimmetria di una distribuzione, vediamo quali sono:
Se -0,5 < γ1 < 0,5 allora c'è simmetria
Se γ1 > 0,5 allora c'è asimmetria positiva
Se γ1 < -0,5 allora c'è asimmetria negativa
Se -1 < γ1 < 1 allora c'è simmetria
Se γ1 > 1 allora c'è asimmetria positiva
Se γ1 < -1 allora c'è asimmetria negativa
Se -2 < γ1 < 2 allora c'è simmetria
Se γ1 > 2 allora c'è asimmetria positiva
Se γ1 < -2 allora c'è asimmetria negativa
Per usare questo metodo devi effettuare un test statistico prendendo il valore dell'indice e dividerlo per il suo errore standard che si calcola in questo modo:
Adesso calcola il test:
E infine confronta il test z trovato con il valore critico di una normale standardizzata con alfa pari al 5% ( α = 0,05 ) che ti ricordo è di ± 1,96
Se -1,96 < test z < 1,96 allora c'è simmetria
Se test z > 1,96 allora c'è asimmetria positiva
Se test z < -1,96 allora c'è asimmetria negativa
Questo e i prossimi indici seguono più o meno la logica dell'indice di Fisher.
Per calcolare l'indice di asimmetria di moda di Pearson la procedura è più semplice:
In questo caso la violazione si ha per valori superiori in valore assoluto a 1
In questo caso la violazione si ha per valori superiori in valore assoluto a 3
In questo caso la violazione si ha per valori superiori in valore assoluto a 3
Una misura di asimmetria alternativa, attribuita a A.L. Bowley e a G.U. Yule, si basa sui quartili.
Simmetria: YB = 0
Asimmetria positiva: YB > 0
Asimmetria negativa: YB < 0
Di seguito ti metto a confronto i risultati degli indici di Asimmetria con gli istogramma, così potrai renderti conto meglio delle varie situazioni.
Osserva questo grafico, la forma è simmetrica oppure no?
Se hai risposto no evidenziando un'asimmetria statistica positiva hai fatto bene, ma sappi che in questa distribuzione la media e la mediana coincidono.
Questo è il caso in cui nonostante venga soddisfatta la condizione necessaria per la simmetria che ti accennavo all'inzio, la distribuzione risulta comunque asimmetrica.
ASIMMETRIA (Num1, Num2,...)
ASIMMETRIA.P (Num1, Num2,...)
Analizza >>> Statistiche descrittive >>> Frequenze
Analizza >>> Statistiche descrittive >>> Esplora