adriano gilardone Docente di Statistica Matematica Excel Spss sfruttare excel consulenze statistiche lezione videocorsi

blog

blog

Gli intervalli di confidenza in 5 step

YouTube video
Postato il 19 Novembre 2021
Tag

Il livello di confidenza

Nell’ambito della statistica inferenziale, molto spesso, si ha la necessità di stimare un numero che non si conosce.

Tale numero prende il nome di parametro della popolazione 𝜗 (che può essere una media, una proporzione, una varianza, ecc...) e lo si può stimare attraverso una stima puntuale o una stima intervallare.

La stima puntuale si effettua quando si utilizza un valore solo per stimare il parametro che stiamo analizzando, quindi viene utilizzato uno specifico punto per stimare il valore desiderato.

corso statistica

La stima intervallare, invece, è quella più usata e che ci interessa per affrontare l'argomento di questo articolo: da qui, infatti, nascono gli intervalli di confidenza (IC), che rappresentano quell’intervallo di valori in cui è probabile trovare il vero parametro della popolazione con un certo grado di confidenza. Da questo concetto si ricava anche quello di livello di confidenza 1-𝛼 dove 𝛼 è il livello di significatività (che ti ho spiegato qui). 

Questo grado di fiducia si esprime tramite una percentuale: il valore più comunemente utilizzato è il 95% cioè (1-0,05)%.

Ma cosa significa, dunque, l’espressione “intervallo di confidenza per la media al 95%”?
Vuol dire che confidi al 95% che l’intervallo conterrà il vero valore della media della popolazione

I parametri della popolazione

In generale, i parametri che più frequentemente capita di dover stimare sono:

  • la media µ della popolazione
  • la varianza σ2 della popolazione
  • la proporzione p di una popolazione di individui che presentano una determinata caratteristica
  • La differenza fra le medie di due popolazioni µ12
  • La differenza tra due proporzioni di popolazioni p1-p2

Perché si usano gli intervalli di confidenza

Nella fase di rilevazione dei dati statistici risulta impossibile studiare l’intera popolazione. Pensa, ad esempio, se un ricercatore dovesse rilevare le altezze di tutti i giovani liceali presenti nel territorio italiano. È evidente che sarebbe un lavoro enorme, che richiederebbe molto tempo e denaro. Nella pratica, quindi, l’esaminatore seleziona un campione della popolazione. Questo significa che lui può solo stimare i parametri della popolazione, senza mai poter esattamente ottenere i loro valori reali. Quindi se il campione è rappresentativo, gli intervalli di confidenza lo aiutano a scoprire il vero valore che sta cercando nella popolazione.

Campionamento

La stima campionaria

Per calcolare gli intervalli di confidenza per il parametro reale della popolazione hai bisogno della stima di tale parametro (𝜗*). Ad esempio, se devi stimare la media della popolazione utilizzerai la media campionaria, ovvero la somma delle osservazioni del campione fratto il numero di osservazioni

Se devi trovare l’intervallo di confidenza per la differenza tra due medie, la stima che utilizzerai sarà la differenza delle medie campionarie di ciascuno dei due campioni, e così via.

Qui sotto ti presento una tabella con l’elenco delle stime puntuali (colonna arancione) per ciascun parametro della popolazione (colonna verde). Qui ne ho messe solo quattro ma possono essere molte di più.

intervallo di confidenza
Tabella intervalli di confidenza

L’errore standard

Un altro tassello fondamentale per la costruzione di una stima intervallare è l’errore standard della stima (SE = Standard Error), ovvero l’errore che commetti considerando il valore campionario 𝜗* piuttosto che quello dell’intera popolazione. 

analisi dati tesi

Variabile casuale e valori critici

Considerati i parametri noti e non noti della popolazione in esame, ottieni una variabile casuale, di cui si conosce la distribuzione di probabilità e a partire dalla quale puoi ricavare i cosiddetti valori critici, utili ai fini del calcolo degli intervalli di confidenza. 

Questi valori critici, ±z1-𝛼/2 sono i valori estremi sulla curva della distribuzione che delimitano l’area sottesa centrale con probabilità (1-𝛼)% da quelle sottese nelle due code ciascuna corrispondente ad (𝛼/2)%.

Intervallo di confidenza
Intervallo di confidenza per la distribuzione normale standardizzata

Per capire meglio il concetto, guarda il grafico qui sotto che rappresenta la funzione di densità della media della popolazione, che segue una distribuzione normale che ho spiegato in questo articolo

Avendo scelto un livello di fiducia del 95%, il valore critico 1,96 si trova andando a consultare la tavola statistica della distribuzione normale standard. Questo significa che la probabilità che il valore medio della popolazione sia compresa tra -1,96 e 1,96 deviazioni standard è del 95%.

Di contro hai una probabilità del 5% (suddivisa tra le due code) che la media della popolazione rimanga al di fuori di tale intervallo.

intervallo di confidenza al 95%
Intervallo di confidenza al 95% per la distribuzione normale standardizzata

L’esempio grafico è stato fatto con la normale standardizzata (Z) ma vale lo stesso principio per la t-student (T).

Se vuoi capire il concetto di normale standardizzata puoi guardarti il mio video in merito a questo argomento

YouTube video

Come calcolare gli intervalli di confidenza

Qui di seguito ti elenco i vari passi da seguire per calcolare gli estremi degli intervalli di confidenza.

La stima

Il primo passaggio da seguire è quello della stima. Facendo riferimento alla tabella che ti ho mostrato sopra, la stima si calcola in base al parametro della popolazione che si vuole stimare.

Ad esempio, nel caso della media (prima riga) la stima è rappresentata dalla media campionaria xm, che si calcola facendo la somma dei valori del campione diviso il numero totale dei valori; se invece ti interessa stimare la proporzione della popolazione (seconda riga), calcoli la proporzione campionaria come il rapporto tra il numero di osservazioni che presentano la caratteristica in questione diviso il numero totale delle osservazioni.

corso statistica

L'errore standard

Una volta fatta la stima, dobbiamo tenere conto dell'errore standard.

Per questo, facciamo riferimento ancora alla stessa tabella, e in particolare alla quarta colonna, che ti indica come calcolare l’errore standard nei vari casi. Puoi notare che tale valore dipende sia dalla deviazione standard σ del campione o dei campioni che dalla numerosità campionaria n.

Il valore critico z o t

A questo punto, prendiamo in considerazione il valore critico, cioè, come abbiamo detto prima, i valori estremi sulla curva della distribuzione.

Se la variabile casuale segue una distribuzione normale allora il valore critico non devi calcolarlo in nessun modo, puoi trovarlo semplicemente guardando sulla seguente tavola.

tavola normale standardizzata
Tavola Z della normale standardizzata

Per tua comodità, eccoti un elenco dei valori z corrispondenti ai principali livelli di confidenza:

Livelli di confidenza
Principali valori z

Per approfondire ancora questo argomento, ti lascio il video della mia lezione gratuita, in cui ti spiego in modo chiaro e semplice come leggere la tavola della distribuzione normale standardizzata.

YouTube video
La tavola della distribuzione normale standardizzata

Se invece hai a che fare con una t di Student, non dovrai comunque calcolare nulla, ma dovrai consultare quest’altra tavola.

Tavola t-student
Tavola t di Student

Il margine di errore

A questo punto, devi moltiplicare l’errore standard calcolato al punto 2 per il valore critico trovato al punto 3.

L'estremo inferiore e l'estremo superiore

Per trovare l’estremo inferiore devi sottrarre il margine d’errore dalla stima.

Per trovare l'estremo superiore devi sommare il margine d’errore alla stima.

Osservazioni sull’ampiezza degli intervalli di confidenza

Adesso ti faccio osservare che modificando la dimensione campionaria e/o il livello di confidenza, si modifica l’ampiezza dell’intervallo e di conseguenza anche l’accuratezza della stima.

Il cambiamento della numerosità

Se aumenti la dimensione campionaria n → l’errore standard diminuisce → il margine di errore diminuisce pure → i due estremi dell’intervallo si avvicinano alla stima → l’intervallo si restringe.

In particolare, ti mostro cosa succede se quadruplichi n nel caso specifico di un intervallo per la media della popolazione:

Errore standard della media
L'aumento della dimensione campionaria

Come puoi vedere, nel caso 4n l’intervallo si è dimezzato.

Il cambiamento della varianza

Se la varianza σ2 dei dati diminuisce, diminuisce pure l’errore standard e quindi ricadi nel caso 1.

Il cambiamento del livello di confidenza

Ma cosa succede se cambi il livello di confidenza? Te lo mostro con un esempio numerico.

Prendi in esame l’intervallo di confidenza al 95% e confrontalo con quello al 99%. 
Per il primo hai un valore critico pari a z1-𝛼/2 = 1,96 mentre per il secondo z1-𝛼/2 = 2,576. Osserva che se il valore critico aumenta → aumenta anche il margine di errore → aumenta l’ampiezza dell’intervallo. Quindi, al crescere del livello di confidenza aumenta anche l’ampiezza dell’intervallo.

Il cambiamento dell'interpretazione statistica

Dal punto di vista statistico un intervallo più ampio indica una stima meno accurata.

Potrei facilmente indovinare il range in cui il tuo reddito annuale si trova dicendoti che esso sta tra 0 e 10 miliardi; la mia stima è sicuramente corretta ma poco precisa dato, che gli estremi del range si allontanano molto dal tuo reale reddito.

RICORDA: a parità di condizioni, gli intervalli di confidenza aumentano quando diminuisci il livello alfa di significatività, generando più probabilità nel trovare il parametro della popolazione ma al tempo stesso creando più imprecisione della stima.

Viceversa, a parità di condizioni, gli intervalli di confidenza diminuiscono quando aumenti il livello alfa di significatività, generando meno probabilità nel trovare il parametro della popolazione ma al tempo stesso creando più precisione della stima.

Intervalli di confidenza EXCEL

CONFIDENZA.NORM (Alfa;Dev_Standard;Dimensioni)

CONFIDENZA.T (Alfa;Dev_Standard;Dimensioni)

Intervalli di confidenza SPSS

Non esiste un comando specifico. Quasi tutte le statistiche vengono restituite con il proprio intervallo di confidenza.

Riassumendo

  • Gli intervalli di confidenza stimano uno parametro o più parametri incogniti della popolazione analizzata.
  • Per stimare il vero parametro 𝜗 della popolazione si sceglie l’opportuna stima campionaria che varia in base al parametro.
  • Per calcolare gli intervalli di confidenza, oltre alla stima, sono necessari il valore critico proveniente dalla distribuzione della variabile casuale e l’errore standard della stima.
  • L’ampiezza degli intervalli di confidenza variano al variare di dimensione del campione, varianza e livello di confidenza.

Il modo migliore per scoprire se ci si può fidare di qualcuno è di dargli fiducia.

(ERNEST HEMINGWAY- Scrittore e giornalista statunitense)

Ripetizioni private

Ho intrapreso una interessante collaborazione con il sito di TROVAPROF.IT

Questa start-up mette in relazione studenti che cercano lezioni private con professori di qualsiasi materia. Se stai cercano delle ripetizioni per le materie che non tratto io, allora ti consiglio di fare un salto su TROVAPROF.IT, un portale completamente gratuito per dare o ricevere lezioni private.

Iscriviti alla Newsletter

Se hai bisogno d’informazioni che non hai trovato nella sezione servizi o dei video corsi, scrivimi un messaggio o chiamami.
Domande, prezzi, richieste, delucidazioni...tutto quello che ti serve. Cercherò di risponderti entro le 24h.
Newsletter

Consenso al trattamento dei dati
Utilizzerò i tuoi dati (nome ed indirizzo mail) solo per inviarti gratuitamente via mail la newsletter mensile. Niente spam, niente scocciature, ti disiscrivi in un click quando vuoi.

linkedin facebook pinterest youtube rss twitter instagram facebook-blank rss-blank linkedin-blank pinterest youtube twitter instagram