whatsapp

adriano gilardone Docente di Statistica Matematica Excel Spss sfruttare excel consulenze statistiche lezione videocorsi

blog

blog

Distribuzione normale

Ultima modifica (26 Febbraio 2025)

YouTube video

Postato il 4 Novembre 2021

Tag

Contenuti nascondi

1 Caratteristiche della distribuzione normale

1.1.1 Simmetria

1.1.2 Valori centrali

1.1.3 Probabilità

1.2 La funzione di densità

1.3 La deviazione standard

2 Come standardizzare un valore

2.1 Sottrazione

2.3 Punteggio Z

2.4 Esempio calcolo punteggio Z

3 Come leggere una curva gaussiana

3.1 Valori critici della distribuzione normale standardizzata (z)

3.1.1 Distribuzione a due code

3.1.2 Distribuzione a una coda

4 Perché standardizzare?

5 Quando una distribuzione è normale

5.1.1 Istogramma

5.2 Indici descrittivi

5.2.1 Asimmetria (Skewness in inglese)

5.2.2 Curtosi (Kurtosis in inglese)

5.3 Test d'ipotesi

5.3.1 Shapiro-Wilk (piccoli campioni)

5.3.2 Kolmogorov-Smirnov (grandi campioni)

6 Quando non vale il teorema centrale del limite

6.1 Numero insufficiente di osservazioni

6.2 Variabili non indipendenti

6.3 Distribuzioni con varianza infinita

6.4 Distribuzioni con code pesanti

6.5 Variabili non identicamente distribuite

6.6 Eterogeneità delle varianze

7 Distribuzione Normale EXCEL

8 Distribuzione Normale SPSS

La distribuzione normale, detta anche curva Gaussiana dal famoso matematico tedesco Gauss, è senza dubbio la distribuzione più usata in statistica.

Probabilmente non te ne sei mai accorto, ma sei circondato da fenomeni in natura che seguono un "andamento di tipo normale". Per esempio l'altezza o il peso delle persone, le auto ad un casello autostradale e persino le persone all'interno di un treno in metropolitana.

Detto questo come si fa a capire se una distribuzione è normale? Cosa significa distribuzione Gaussiana? E come posso vedere se una distribuzione è normale in Excel?

A queste e altre domande risponderò in questo articolo!

analisi dati tesi

Caratteristiche della distribuzione normale

Proprietà

La distribuzione normale si distingue dalle altre distribuzioni di probabilità in quanto possiede le seguenti caratteristiche:

Simmetria

É simmetrica o centrata rispetto al valore medio

Valori centrali

Media, moda e mediana coincidono

È chiaro che i fenomeni che studi non hanno una precisione millimetrica con queste caratteristiche; quello che conta è che la variabile tenda ad assumere la classica forma a campana e si avvicini alla distribuzione normale dimodoché si possano sfruttare le caratteristiche che permettono di eseguire test d'ipotesi e intervalli di confidenza. Si dice in questo caso che i dati si possono approssimare ad una normale.

Distribuzione normale — Distribuzione normale del QI mondiale

Probabilità

I valori di probabilità dipendono da due parametri: media (µ) e varianza (σ²)

Forma

La forma della distribuzione dipende dalla deviazione standard (σ)

Distribuzione normale LEPTOCURTICA (o ipernormale), BASSA deviazione standard

curva leptocurtica

Distribuzione normale MESOCURTICA (o normale), REGOLARE deviazione standard

curva mesocurtica

Distribuzione normale PLATICURTICA (o iponormale), ALTA deviazione standard

curva platicurtica

La funzione di densità

La funzione di densità di probabilità (PDF) della distribuzione normale è data dalla formula:

funzione di densità normale

Questa formula descrive come i valori della variabile X si distribuiscono attorno alla media μ, con una dispersione determinata dalla deviazione standard σ.

Maggiore è σ, più ampia sarà la distribuzione, indicando una maggiore variabilità dei dati. Al contrario, se σ è piccolo, i valori saranno più concentrati intorno alla media.

Negli esami di statistica però non si fa mai riferimento alla funzione di densità ma bensì alla sua cumulata che viene chiamata funzione di ripartizione. Tale funzione si ottiene integrando la funzione di densità, come del resto in tutte le variabili continue, ma qui il vantaggio è che c'è già una tavola teorica che ti viene fornita, risparmiandoti il calcolo dell'integrale.

Più avanti trovi tutta la spiegazione di come leggere una tavola di una distribuzione normale stanndardizzata (Z).

La deviazione standard

Se i dati in tuo possesso sono distribuiti normalmente puoi far uso di una legge empirica che ti permette di conoscere approssimativamente la probabilità che un certo evento si verifichi. Tale legge empirica si basa sulla conoscenza della deviazione standard e dal teorema di Chebyshev si ha che:

Il 68% dei dati si trovano entro una deviazione standard dalla media

(cioè risiedono tra -σ e +σ )

Il 95% dei dati si trovano entro due deviazioni standard dalla media

(cioè risiedono tra -2σ e +2σ )

Il 99,7% dei dati si trovano entro tre deviazioni standard dalla media

(cioè risiedono tra -3σ e +3σ )

Il grafico sotto esplicita il concetto che ti ho appena spiegato.

In altre parole, si hanno le probabilità del 68%, 95% e 99,7% che i dati in possesso cadano rispettivamente negli intervalli menzionati.

Questo ti consente di calcolare la media, ma soprattutto la deviazione standard di distribuzioni di dati che provengono da una popolazione normale e sapere quanto probabile sia ciascun dato della distribuzione.

YouTube video — La deviazione standard spiegata semplice con la metafora delle vacanze

Come standardizzare un valore

Spesso si ha la necessità di non utilizzare i valori di partenza, ma di usare valori standardizzati affinché possano essere confrontati tra di loro o al fine di sfruttare le potenzialità della distribuzione normale standardizzata.

Sottrazione

Prendi ogni singolo valore (x) e sottrai la media (µ) di tutta la variabile.

Divisione

Prendi la differenza calcolata prima e dividila per la deviazione standard (σ) di tutta la variabile.

corsi statistica

Punteggio Z

Con i due semplici passaggi spiegati sopra hai trovato il punteggio Z, detto Z-score in inglese.

Se tale punteggio è positivo, vorrà dire che quella osservazione per quella variabile ha un valore più elevato della media generale.

Se tale punteggio è negativo, vorrà dire che quella osservazione per quella variabile ha un valore meno elevato della media generale.

Se tale punteggio è nullo, vorrà dire che quella osservazione per quella variabile ha un valore uguale alla media generale.

Tale punteggio può essere confrontato con un valore teorico appartenente alla distribuzione normale standard per capire in quale range di probabilità si trova il valore osservato.

Questo confronto lo fai con una tavola statistica che rappresenta la funzione di ripartizione della normale standardizzata.

Qui sotto ti metto la tavola della distribuzione normale standardizzata che si usa comunemente durante un esame universitario. La tavola è realizzata da me in Excel tramite la funzione DISTRIB.NORM.ST.N

Esempio calcolo punteggio Z

Identificare i valori necessari:

Media (μ) = 70 kg
Deviazione standard (σ) = 10 kg
Valore da standardizzare (x) = 85 kg

Applicare la formula di standardizzazione:
z = (x - μ) / σ

Sostituire i valori nella formula:
z = (85 - 70) / 10

Eseguire i calcoli:
z = 15 / 10
z = 1,5

Il valore standardizzato (z-score) di 1,5 significa che il peso di 85 kg si trova 1,5 deviazioni standard sopra la media della distribuzione. Questa persona pesa più della media, precisamente 1,5 volte la deviazione standard al di sopra della media del gruppo.

Come leggere una curva gaussiana

La curva gaussiana è simmetrica rispetto alla media. Questo significa che la probabilità di trovare un valore a una certa distanza a sinistra della media è uguale alla probabilità di trovare un valore a una stessa distanza a destra della media.

I punti di inflessione della curva si trovano a una distanza di una deviazione standard (simbolo σ) dalla media (simbolo μ). Qui la curva cambia concavità, passando da concava a convessa (o viceversa).

L'area totale sotto la curva gaussiana è uguale a 1 (o 100%), rappresentando la totalità delle probabilità. Le aree sotto la curva possono essere utilizzate per determinare le probabilità cumulative:

tavola normale standardizzata — Tavola della normale standardizzata. Quantili positivi. Probabilità a sinistra del quantile.

Nel corso della mia carriera da docente universitario ho visto che gli studenti fanno molta difficoltà a interpretare questa tavola e confondono molto spesso ciò che sta dentro (probabilità) da ciò che sta fuori (quantili).

Ho deciso dunque rendere accessibile a tutti la lezione dedicata del mio videocorso sulla statistica inferenziale che parla proprio di come cercare i numeri all'interno della tavola. Qui sotto puoi vedere il video.

YouTube video — Esercizio svolto sull'interpretazione della tavola della normale standardizzata

Valori critici della distribuzione normale standardizzata (z)

Nella maggior parte dei casi in un esame universitario i valori critici z da ricercare sono sempre gli stessi. Questi vengono richiesti per il calcolo degli intervalli di confidenza o per i test d'ipotesi. Ti elenco qui sotto i principali facendo attenzione al fatto che la distribuzione sia a due code o a una coda:

Distribuzione a due code

IC al 90% ---> α = 0,10 ---> α/2 = 0,05 ---> 1-(α/2) = 0,95 ---> Z(0,95) = 1,65

IC al 95% ---> α = 0,05 ---> α/2 = 0,025 ---> 1-(α/2) = 0,975 ---> Z(0,975) = 1,96

IC al 99% ---> α = 0,01 ---> α/2 = 0,005 ---> 1-(α/2) = 0,995 ---> Z(0,995) = 2,58

Distribuzione a una coda

IC al 90% ---> α = 0,10 ---> 1-α = 0,90 ---> Z(0,90) = 1,28

IC al 95% ---> α = 0,05 ---> 1-α = 0,95 ---> Z(0,95) = 1,65

IC al 99% ---> α = 0,01 ---> 1-α = 0,99 ---> Z(0,99) = 2,33

Perché standardizzare?

Tre sono i principali motivi:

Aiuta a prendere decisioni più appropriate in certe situazioni
Semplifica la vita perché abbiamo bisogno di una sola tavola (la tavola della normale standardizzata) piuttosto che fare calcoli specifici per ogni valore di media e deviazione standard. Infatti, standardizzando i valori della distribuzione, si avrà sempre media 0 e varianza 1.
A valori positivi corrispondono i numeri che nella distribuzione reale superano la media, mentre a valori negativi corrispondono i numeri che nella distribuzione reale non superano la media.

Se stai facendo un esame universitario e hai bisogno di un aiuto per standardizzare un valore della distribuzione normale, ho preparato per un te un aiuto importante con l'uso della calcolatrice scientifica Sharp.

YouTube video — Esercizio svolto sulla standardizzazione tramite la calcolatrice scientifica

Se invece vuoi vedere un esempio che ti faccia capire meglio il significato della distribuzione normale, guardati il video all'inizio dell'articolo in cui spiego il concetto attraverso una metafora.

Quando una distribuzione è normale

Per riconoscere se effettivamente il fenomeno che stai studiando segue l'andamento di una variabile casuale normale, ci sono diversi metodi:

Grafici

Istogramma

istogramma normale — Distribuzione di frequenze tramite un istogramma

P-P plot

P-P plot

Indici descrittivi

Asimmetria (Skewness in inglese)

Se il valore dell'asimmetria è compreso tra -1 e 1 allora la distribuzione si può considerare simmetrica altrimenti no.

Nell'esempio sopra i grafici a sinistra hanno un indice di asimmetria pari a 1,5 mentre quelli a destra uguale a -0,02

Curtosi (Kurtosis in inglese)

Se il valore della curtosi è compreso tra -1 e 1 allora la distribuzione si può considerare normale altrimenti no.

Nell'esempio sopra i grafici a sinistra hanno un indice di curtosi pari a 1,9 mentre quelli a destra uguale a 0,07

Test d'ipotesi

Shapiro-Wilk (piccoli campioni)

Se il valore del p-value è superiore a 0,05 il test di Shapiro-Wilk non risulta significativo e quindi la distribuzione è normale.

Nell'esempio sopra i grafici a sinistra hanno un p-value < a 0,001 mentre quelli a destra uguale a 0,2

Kolmogorov-Smirnov (grandi campioni)

Se il valore del p-value è superiore a 0,05 il test di Kolmogorov-Smirnov non risulta significativo e quindi la distribuzione è normale.

Nell'esempio sopra i grafici a sinistra hanno un p-value < a 0,001 mentre quelli a destra uguale a 0,919

Quando non vale il teorema centrale del limite

Numero insufficiente di osservazioni

Il teorema centrale del limite si applica quando il numero di osservazioni è grande. Se il campione è troppo piccolo, la distribuzione della somma o della media delle variabili casuali potrebbe non essere approssimativamente normale.

Variabili non indipendenti

Il teorema richiede che le variabili casuali siano indipendenti l'una dall'altra. Se esistono dipendenze tra le variabili, la somma delle variabili potrebbe non seguire una distribuzione normale.

Distribuzioni con varianza infinita

Il teorema centrale del limite assume che le variabili casuali abbiano una varianza finita. Se le variabili hanno una varianza infinita, come nel caso delle distribuzioni di Pareto con esponente inferiore a 2, il teorema non si applica e la somma delle variabili potrebbe non convergere a una distribuzione normale.

Distribuzioni con code pesanti

Alcune distribuzioni hanno code pesanti, il che significa che esiste una maggiore probabilità di ottenere valori estremi rispetto a una distribuzione normale. In tali casi, la distribuzione della somma delle variabili potrebbe non essere normale anche per campioni di grandi dimensioni.

Variabili non identicamente distribuite

Il teorema richiede che le variabili siano identicamente distribuite. Se le variabili hanno distribuzioni diverse, la somma delle variabili potrebbe non seguire una distribuzione normale.

Eterogeneità delle varianze

Se le varianze delle variabili non sono uguali, il teorema centrale del limite può non applicarsi direttamente. In questi casi, possono essere necessari aggiustamenti per tenere conto della diversa variabilità delle variabili.

corso statistica

Distribuzione Normale EXCEL

Probabilità normale

DISTRIB.NORM.N (X;Media;Dev_standard;Cumulativo)

Probabilità normale

DISTRIB.NORM.ST.N (Z;Cumulativa)

Valore critico normale

INV.NORM.N (Probabilità;Media;Dev_standard)

Valore critico normale

INV.NORM.S (Probabilità)

Distribuzione Normale SPSS

Non esiste un comando specifico, ma SPSS fornisce gli strumenti per verificare se una variabile si distribuisce normalmente attraverso:

Test di Kolmogorov-Smirnov

Analizza >>> Test non parametrici >>> Finestre di dialogo legacy >>> K-S per 1 campione

Analizza >>> Statistiche descrittive >>> Esplora

Test di Shapiro-Wilk

Analizza >>> Statistiche descrittive >>> Esplora

Riassumendo

E’ una delle variabili più importanti e utilizzate in statistica in quanto molti fenomeni in natura si distribuiscono normalmente
La standardizzazione permette di confrontare fenomeni che hanno diverse unità di misura
L’uso della tavola della normale consente di conoscere probabilità associate a un fenomeno
Grazie alle sue caratteristiche è applicata in molti teoremi e test statistici

La vita è la distribuzione di un errore o di errori.

(SAMUEL BUTLER - Scrittore inglese)

Iscriviti alla Newsletter

Se hai bisogno d’informazioni che non hai trovato nella sezione servizi o dei video corsi, scrivimi un messaggio o chiamami.
Domande, prezzi, richieste, delucidazioni...tutto quello che ti serve. Cercherò di risponderti entro le 24h.