La distribuzione normale, detta anche curva Gaussiana dal famoso matematico tedesco Gauss, è senza dubbio la distribuzione più usata in statistica.
Probabilmente non te ne sei mai accorto, ma sei circondato da fenomeni in natura che seguono un "andamento di tipo normale". Per esempio l'altezza o il peso delle persone, le auto ad un casello autostradale e persino le persone all'interno di un treno in metropolitana.
Detto questo come si fa a capire se una distribuzione è normale? Cosa significa distribuzione Gaussiana? E come posso vedere se una distribuzione è normale in Excel?
A queste e altre domande risponderò in questo articolo!
La distribuzione normale si distingue dalle altre distribuzioni di probabilità in quanto possiede le seguenti caratteristiche:
É simmetrica o centrata rispetto al valore medio
Media, moda e mediana coincidono
È chiaro che i fenomeni che studi non hanno una precisione millimetrica con queste caratteristiche; quello che conta è che la variabile tenda ad assumere la classica forma a campana e si avvicini alla distribuzione normale dimodoché si possano sfruttare le caratteristiche che permettono di eseguire test d'ipotesi e intervalli di confidenza. Si dice in questo caso che i dati si possono approssimare ad una normale.
I valori di probabilità dipendono da due parametri: media (µ) e varianza (σ2)
La forma della distribuzione dipende dalla deviazione standard (σ)
Distribuzione normale LEPTOCURTICA (o ipernormale), BASSA deviazione standard
Distribuzione normale MESOCURTICA (o normale), REGOLARE deviazione standard
Distribuzione normale PLATICURTICA (o iponormale), ALTA deviazione standard
La funzione di densità di probabilità (PDF) della distribuzione normale è data dalla formula:
Questa formula descrive come i valori della variabile X si distribuiscono attorno alla media μ, con una dispersione determinata dalla deviazione standard σ.
Maggiore è σ, più ampia sarà la distribuzione, indicando una maggiore variabilità dei dati. Al contrario, se σ è piccolo, i valori saranno più concentrati intorno alla media.
Negli esami di statistica però non si fa mai riferimento alla funzione di densità ma bensì alla sua cumulata che viene chiamata funzione di ripartizione. Tale funzione si ottiene integrando la funzione di densità, come del resto in tutte le variabili continue, ma qui il vantaggio è che c'è già una tavola teorica che ti viene fornita, risparmiandoti il calcolo dell'integrale.
Più avanti trovi tutta la spiegazione di come leggere una tavola di una distribuzione normale stanndardizzata (Z).
Se i dati in tuo possesso sono distribuiti normalmente puoi far uso di una legge empirica che ti permette di conoscere approssimativamente la probabilità che un certo evento si verifichi. Tale legge empirica si basa sulla conoscenza della deviazione standard e dal teorema di Chebyshev si ha che:
(cioè risiedono tra -σ e +σ )
(cioè risiedono tra -2σ e +2σ )
(cioè risiedono tra -3σ e +3σ )
Il grafico sotto esplicita il concetto che ti ho appena spiegato.
In altre parole, si hanno le probabilità del 68%, 95% e 99,7% che i dati in possesso cadano rispettivamente negli intervalli menzionati.
Questo ti consente di calcolare la media, ma soprattutto la deviazione standard di distribuzioni di dati che provengono da una popolazione normale e sapere quanto probabile sia ciascun dato della distribuzione.
Spesso si ha la necessità di non utilizzare i valori di partenza, ma di usare valori standardizzati affinché possano essere confrontati tra di loro o al fine di sfruttare le potenzialità della distribuzione normale standardizzata.
Prendi ogni singolo valore (x) e sottrai la media (µ) di tutta la variabile.
Prendi la differenza calcolata prima e dividila per la deviazione standard (σ) di tutta la variabile.
Con i due semplici passaggi spiegati sopra hai trovato il punteggio Z, detto Z-score in inglese.
Se tale punteggio è positivo, vorrà dire che quella osservazione per quella variabile ha un valore più elevato della media generale.
Se tale punteggio è negativo, vorrà dire che quella osservazione per quella variabile ha un valore meno elevato della media generale.
Se tale punteggio è nullo, vorrà dire che quella osservazione per quella variabile ha un valore uguale alla media generale.
Tale punteggio può essere confrontato con un valore teorico appartenente alla distribuzione normale standard per capire in quale range di probabilità si trova il valore osservato.
Questo confronto lo fai con una tavola statistica che rappresenta la funzione di ripartizione della normale standardizzata.
Qui sotto ti metto la tavola della distribuzione normale standardizzata che si usa comunemente durante un esame universitario. La tavola è realizzata da me in Excel tramite la funzione DISTRIB.NORM.ST.N
La curva gaussiana è simmetrica rispetto alla media. Questo significa che la probabilità di trovare un valore a una certa distanza a sinistra della media è uguale alla probabilità di trovare un valore a una stessa distanza a destra della media.
I punti di inflessione della curva si trovano a una distanza di una deviazione standard (simbolo σ) dalla media (simbolo μ). Qui la curva cambia concavità, passando da concava a convessa (o viceversa).
L'area totale sotto la curva gaussiana è uguale a 1 (o 100%), rappresentando la totalità delle probabilità. Le aree sotto la curva possono essere utilizzate per determinare le probabilità cumulative:
Nel corso della mia carriera da docente universitario ho visto che gli studenti fanno molta difficoltà a interpretare questa tavola e confondono molto spesso ciò che sta dentro (probabilità) da ciò che sta fuori (quantili).
Ho deciso dunque rendere accessibile a tutti la lezione dedicata del mio videocorso sulla statistica inferenziale che parla proprio di come cercare i numeri all'interno della tavola. Qui sotto puoi vedere il video.
Nella maggior parte dei casi in un esame universitario i valori critici z da ricercare sono sempre gli stessi. Questi vengono richiesti per il calcolo degli intervalli di confidenza o per i test d'ipotesi. Ti elenco qui sotto i principali facendo attenzione al fatto che la distribuzione sia a due code o a una coda:
IC al 90% ---> α = 0,10 ---> α/2 = 0,05 ---> 1-(α/2) = 0,95 ---> Z(0,95) = 1,65
IC al 95% ---> α = 0,05 ---> α/2 = 0,025 ---> 1-(α/2) = 0,975 ---> Z(0,975) = 1,96
IC al 99% ---> α = 0,01 ---> α/2 = 0,005 ---> 1-(α/2) = 0,995 ---> Z(0,995) = 2,58
IC al 90% ---> α = 0,10 ---> 1-α = 0,90 ---> Z(0,90) = 1,28
IC al 95% ---> α = 0,05 ---> 1-α = 0,95 ---> Z(0,95) = 1,65
IC al 99% ---> α = 0,01 ---> 1-α = 0,99 ---> Z(0,99) = 2,33
Tre sono i principali motivi:
Se stai facendo un esame universitario e hai bisogno di un aiuto per standardizzare un valore della distribuzione normale, ho preparato per un te un aiuto importante con l'uso della calcolatrice scientifica Sharp.
Se invece vuoi vedere un esempio che ti faccia capire meglio il significato della distribuzione normale, guardati il video all'inizio dell'articolo in cui spiego il concetto attraverso una metafora.
Per riconoscere se effettivamente il fenomeno che stai studiando segue l'andamento di una variabile casuale normale, ci sono diversi metodi:
Se il valore dell'asimmetria è compreso tra -1 e 1 allora la distribuzione si può considerare simmetrica altrimenti no.
Nell'esempio sopra i grafici a sinistra hanno un indice di asimmetria pari a 1,5 mentre quelli a destra uguale a -0,02
Se il valore della curtosi è compreso tra -1 e 1 allora la distribuzione si può considerare normale altrimenti no.
Nell'esempio sopra i grafici a sinistra hanno un indice di curtosi pari a 1,9 mentre quelli a destra uguale a 0,07
Se il valore del p-value è superiore a 0,05 il test di Shapiro-Wilk non risulta significativo e quindi la distribuzione è normale.
Nell'esempio sopra i grafici a sinistra hanno un p-value < a 0,001 mentre quelli a destra uguale a 0,2
Se il valore del p-value è superiore a 0,05 il test di Kolmogorov-Smirnov non risulta significativo e quindi la distribuzione è normale.
Nell'esempio sopra i grafici a sinistra hanno un p-value < a 0,001 mentre quelli a destra uguale a 0,919
Il teorema centrale del limite si applica quando il numero di osservazioni è grande. Se il campione è troppo piccolo, la distribuzione della somma o della media delle variabili casuali potrebbe non essere approssimativamente normale.
Il teorema richiede che le variabili casuali siano indipendenti l'una dall'altra. Se esistono dipendenze tra le variabili, la somma delle variabili potrebbe non seguire una distribuzione normale.
Il teorema centrale del limite assume che le variabili casuali abbiano una varianza finita. Se le variabili hanno una varianza infinita, come nel caso delle distribuzioni di Pareto con esponente inferiore a 2, il teorema non si applica e la somma delle variabili potrebbe non convergere a una distribuzione normale.
Alcune distribuzioni hanno code pesanti, il che significa che esiste una maggiore probabilità di ottenere valori estremi rispetto a una distribuzione normale. In tali casi, la distribuzione della somma delle variabili potrebbe non essere normale anche per campioni di grandi dimensioni.
Il teorema richiede che le variabili siano identicamente distribuite. Se le variabili hanno distribuzioni diverse, la somma delle variabili potrebbe non seguire una distribuzione normale.
Se le varianze delle variabili non sono uguali, il teorema centrale del limite può non applicarsi direttamente. In questi casi, possono essere necessari aggiustamenti per tenere conto della diversa variabilità delle variabili.
Probabilità normale
DISTRIB.NORM.N (X;Media;Dev_standard;Cumulativo)
Probabilità normale
DISTRIB.NORM.ST.N (Z;Cumulativa)
Valore critico normale
INV.NORM.N (Probabilità;Media;Dev_standard)
Valore critico normale
INV.NORM.S (Probabilità)
Non esiste un comando specifico, ma SPSS fornisce gli strumenti per verificare se una variabile si distribuisce normalmente attraverso:
Test di Kolmogorov-Smirnov
Analizza >>> Test non parametrici >>> Finestre di dialogo legacy >>> K-S per 1 campione
Analizza >>> Statistiche descrittive >>> Esplora
Test di Shapiro-Wilk
Analizza >>> Statistiche descrittive >>> Esplora
La vita è la distribuzione di un errore o di errori.
(SAMUEL BUTLER - Scrittore inglese)