La distribuzione normale, detta anche curva Gaussiana dal famoso matematico tedesco Gauss, è senza dubbio la distribuzione più usata in statistica.
Probabilmente non te ne sei mai accorto, ma sei circondato da fenomeni in natura che seguono un "andamento di tipo normale". Per esempio l'altezza o il peso delle persone, le auto ad un casello autostradale e persino le persone all'interno di un treno in metropolitana.
Detto questo come si fa a capire se una distribuzione è normale? Cosa significa distribuzione Gaussiana? E come posso vedere se una distribuzione è normale in Excel?
A queste e altre domande risponderò in questo articolo!
La distribuzione normale si distingue dalle altre distribuzioni di probabilità in quanto possiede le seguenti caratteristiche:
É simmetrica o centrata rispetto al valore medio
Media, moda e mediana coincidono
È chiaro che i fenomeni che studi non hanno una precisione millimetrica con queste caratteristiche; quello che conta è che la variabile tenda ad assumere la classica forma a campana e si avvicini alla distribuzione normale dimodoché si possano sfruttare le caratteristiche che permettono di eseguire test d'ipotesi e intervalli di confidenza. Si dice in questo caso che i dati si possono approssimare ad una normale.
I valori di probabilità dipendono da due parametri: media (µ) e varianza (σ2)
La forma della distribuzione dipende dalla deviazione standard (σ)
Distribuzione normale LEPTOCURTICA (o ipernormale), BASSA deviazione standard
Distribuzione normale MESOCURTICA (o normale), REGOLARE deviazione standard
Distribuzione normale PLATICURTICA (o iponormale), ALTA deviazione standard
Se i dati in tuo possesso sono distribuiti normalmente puoi far uso di una legge empirica che ti permette di conoscere approssimativamente la probabilità che un certo evento si verifichi. Tale legge empirica si basa sulla conoscenza della deviazione standard e dal teorema di Chebyshev si ha che:
(cioè risiedono tra -σ e +σ )
(cioè risiedono tra -2σ e +2σ )
(cioè risiedono tra -3σ e +3σ )
In altre parole, si hanno le probabilità del 68%, 95% e 99,7% che i dati in possesso cadano rispettivamente negli intervalli menzionati.
Questo ti consente di calcolare la media, ma soprattutto la deviazione standard di distribuzioni di dati che provengono da una popolazione normale e sapere quanto probabile sia ciascun dato della distribuzione.
Spesso si ha la necessità di non utilizzare i valori di partenza, ma di usare valori standardizzati affinché possano essere confrontati tra di loro o al fine di sfruttare le potenzialità della distribuzione normale standardizzata.
Prendi ogni singolo valore (x) e sottrai la media (µ) di tutta la variabile.
Prendi la differenza calcolata prima e dividila per la deviazione standard (σ) di tutta la variabile.
Con i due semplici passaggi spiegati sopra hai trovato il punteggio Z, detto Z-score in inglese.
Se tale punteggio è positivo, vorrà dire che quella osservazione per quella variabile ha un valore più elevato della media generale.
Se tale punteggio è negativo, vorrà dire che quella osservazione per quella variabile ha un valore meno elevato della media generale.
Se tale punteggio è nullo, vorrà dire che quella osservazione per quella variabile ha un valore uguale alla media generale.
Tale punteggio può essere confrontato con un valore teorico appartenente alla distribuzione normale standard per capire in quale range di probabilità si trova il valore osservato.
Questo confronto lo fai con una tavola statistica che rappresenta la funzione di ripartizione della normale standardizzata.
Qui sotto ti metto la tavola della distribuzione normale standardizzata che si usa comunemente durante un esame universitario. La tavola è realizzata da me in Excel tramite la funzione DISTRIB.NORM.ST.N
Nel corso della mia carriera da docente universitario ho visto che gli studenti fanno molta difficoltà a interpretare questa tavola e confondono molto spesso ciò che sta dentro (probabilità) da ciò che sta fuori (quantili).
Ho deciso dunque rendere accessibile a tutti la lezione dedicata del mio videocorso sulla statistica inferenziale che parla proprio di come cercare i numeri all'interno della tavola. Qui sotto puoi vedere il video.
Tre sono i principali motivi:
Se stai facendo un esame universitario e hai bisogno di un aiuto per standardizzare un valore della distribuzione normale, ho preparato per un te un aiuto importante con l'uso della calcolatrice scientifica Sharp.
Se invece vuoi vedere un esempio che ti faccia capire meglio il significato della distribuzione normale, guardati il video all'inizio dell'articolo in cui spiego il concetto attraverso una metafora.
Per riconoscere se effettivamente il fenomeno che stai studiando segue l'andamento di una variabile casuale normale, ci sono diversi metodi:
Se il valore dell'asimmetria è compreso tra -1 e 1 allora la distribuzione si può considerare simmetrica altrimenti no.
Nell'esempio sopra i grafici a sinistra hanno un indice di asimmetria pari a 1,5 mentre quelli a destra uguale a -0,02
Se il valore della curtosi è compreso tra -1 e 1 allora la distribuzione si può considerare normale altrimenti no.
Nell'esempio sopra i grafici a sinistra hanno un indice di curtosi pari a 1,9 mentre quelli a destra uguale a 0,07
Se il valore del p-value è superiore a 0,05 il test di Shapiro-Wilk non risulta significativo e quindi la distribuzione è normale.
Nell'esempio sopra i grafici a sinistra hanno un p-value < a 0,001 mentre quelli a destra uguale a 0,2
Se il valore del p-value è superiore a 0,05 il test di Kolmogorov-Smirnov non risulta significativo e quindi la distribuzione è normale.
Nell'esempio sopra i grafici a sinistra hanno un p-value < a 0,001 mentre quelli a destra uguale a 0,919
Probabilità normale
DISTRIB.NORM.N (X;Media;Dev_standard;Cumulativo)
Probabilità normale
DISTRIB.NORM.ST.N (Z;Cumulativa)
Valore critico normale
INV.NORM.N (Probabilità;Media;Dev_standard)
Valore critico normale
INV.NORM.S (Probabilità)
Non esiste un comando specifico, ma SPSS fornisce gli strumenti per verificare se una variabile si distribuisce normalmente attraverso:
Test di Kolmogorov-Smirnov
Analizza >>> Test non parametrici >>> Finestre di dialogo legacy >>> K-S per 1 campione
Analizza >>> Statistiche descrittive >>> Esplora
Test di Shapiro-Wilk
Analizza >>> Statistiche descrittive >>> Esplora
La vita è la distribuzione di un errore o di errori.
(SAMUEL BUTLER - Scrittore inglese)