fbpx

Gli intervalli di confidenza in 5 step

Postato il 19 Novembre 2021
Tag

Livello di confidenza

Nell’ambito della statistica inferenziale molto spesso si ha la necessità di stimare un numero che non si conosce.

Tale numero prende il nome di parametro della popolazione 𝜗 (che può essere una media, una proporzione, una varianza, ecc...) e lo si può stimare attraverso una stima puntuale o una stima intervallare.

La stima intervallare è quella più usata da qui nascono gli intervalli di confidenza (IC) che rappresenta quell’intervallo di valori in cui è probabile trovare il vero parametro della popolazione con un certo grado di confidenza, da qui ecco il concetto di livello di confidenza 1-𝛼 dove 𝛼 è il livello di significatività che ti ho spiegato qui

Questo grado di fiducia si esprime tramite una percentuale; il valore più comunemente utilizzato è il 95% cioè (1-0,05)%.

Cosa significa dunque l’espressione “intervallo di confidenza per la media al 95%”?

Vuol dire che confidi al 95% che l’intervallo conterrà il vero valore della media della popolazione. 

Livello di confidenza

Parametri della popolazione

In generale, i parametri che più frequentemente capita di dover stimare sono:

  • la media µ della popolazione
  • la varianza σ2 della popolazione
  • la proporzione p di una popolazione di individui che presentano una determinata caratteristica
  • La differenza fra le medie di due popolazioni µ12
  • La differenza tra due proporzioni di popolazioni p1-p2

Perché si usano gli intervalli di confidenza

Nella fase di rilevazione dei dati statistici risulta impossibile studiare l’intera popolazione. Pensa, ad esempio, se un ricercatore dovesse rilevare le altezze di tutti i giovani liceali presenti nel territorio italiano. E’ evidente che sarebbe un lavoro enorme che richiederebbe molto tempo e denaro. Nella pratica, quindi, l’esaminatore seleziona un campione della popolazione. Questo significa che lui può solo stimare i parametri della popolazione senza mai poter esattamente ottenere i loro valori reali. Quindi se il campione è rappresentativo, l’intervallo di confidenza lo aiuta a scoprire il vero valore che sta cercando nella popolazione.

Campionamento

La stima campionaria

Per calcolare l’intervallo di confidenza per il parametro reale della popolazione hai bisogno della stima di tale parametro (𝜗*). Ad esempio, se devi stimare la media della popolazione utilizzerai la media campionaria, ovvero la somma delle osservazioni del campione fratto il numero di osservazioni. 

Se devi trovare l’intervallo di confidenza per la differenza tra due medie, la stima che utilizzerai sarà la differenza delle medie campionarie di ciascuno dei due campioni, e così via.

Qui sotto ti presento una tabella con l’elenco delle stime puntuali (seconda colonna) per ciascun parametro della popolazione (prima colonna). Qui ne ho messe solo quattro ma possono essere molte di più.

Intervalli di confidenza

L’errore standard

Un altro tassello fondamentale per la costruzione di una stima intervallare è l’errore standard della stima (SE = Standard Error), ovvero l’errore che commetti considerando il valore campionario 𝜗* piuttosto che quello dell’intera popolazione. 

Variabile casuale e valori critici

Considerati i parametri noti e non noti della popolazione in esame ottieni una variabile casuale di cui si conosce la distribuzione di probabilità e a partire dalla quale puoi ricavare i cosiddetti valori critici utili ai fini del calcolo dell’intervallo di confidenza. 

Questi valori critici, ±z1-𝛼/2 sono i valori estremi sulla curva della distribuzione che delimitano l’area sottesa centrale con probabilità (1-𝛼)% da quelle sottese nelle due code ciascuna corrispondente ad (𝛼/2)%.

Intervallo di confidenza

Per capire meglio il concetto guarda il grafico qui sotto che rappresenta la funzione di densità della media della popolazione che segue una distribuzione normale che ho spiegato in questo articolo

Avendo scelto un livello di fiducia del 95%, il valore critico 1,96 si trova andando a consultare la tavola statistica della distribuzione normale standard. Questo significa che la probabilità che il valore medio della popolazione sia compresa tra -1,96 e 1,96 deviazioni standard è del 95%; di contro hai una probabilità del 5% (suddivisa tra le due code) che la media della popolazione rimanga al di fuori di tale intervallo.

L’esempio grafica è stato fatto con la normale standardizzata (Z) ma vale lo stesso principio per la t-student (T).

Se vuoi capire il concetto di normale standardizzata puoi guardarti il mio video in merito a questo argomento

Intervallo di confidenza al 95%

Come calcolare gli intervalli di confidenza

Qui di seguito ti elenco i vari passi da seguire per calcolare gli estremi di un intervallo di confidenza.

1) Stima

Facendo riferimento alla tabella che ti ho mostrato sopra, la stima si calcola in base al parametro della popolazione che si vuole stimare. Ad esempio, nel caso della media (prima riga) la stima è rappresentata dalla media campionaria xm che si calcola facendo la somma dei valori del campione diviso il numero totale dei valori; se invece ti interessa stimare la proporzione della popolazione (seconda riga) calcoli la proporzione campionaria come il rapporto tra il numero di osservazioni che presentano la caratteristica in questione diviso il numero totale delle osservazioni.

2) Errore standard

Continua ancora a guardare la stessa tabella, in particolare la quarta colonna che ti indica come calcolare l’errore standard nei vari casi. Puoi notare che tale valore dipende sia dalla deviazione standard σ del campione o dei campioni che dalla numerosità campionaria n.

3) Valore critico z o t

Se la variabile casuale segue una distribuzione normale allora il valore critico lo trovi sulla seguente tavola

Tavola della normale standardizzata

Ti elenco i valori z corrispondenti ai principali livelli di confidenza:

Livelli di confidenza

Se invece hai a che fare con una t di Student, consulta quest’altra tavola

Tavola T di Student

4) Margine di errore

Moltiplica l’errore standard calcolato al punto 2 per il valore critico trovato al punto 3.

5) Estremo inferiore ed estremo superiore

Sottrai il margine d’errore dalla stima per trovare l’estremo inferiore.

Somma il margine d’errore alla stima per trovare l’estremo superiore.

Osservazioni sull’ampiezza degli intervalli di confidenza

Adesso ti faccio osservare che modificando la dimensione campionaria e/o il livello di confidenza, si modifica l’ampiezza dell’intervallo e di conseguenza anche l’accuratezza della stima.

1) Cambiamento della numerosità

Se aumenti la dimensione campionaria n → l’errore standard diminuisce → il margine di errore diminuisce pure → i due estremi dell’intervallo si avvicinano alla stima → l’intervallo si restringe.

In particolare, ti mostro cosa succede se quadruplichi n nel caso specifico di un intervallo per la media della popolazione:

Errore standard della media

Come puoi vedere nel caso 4n l’intervallo si è dimezzato.

2) Cambiamento della varianza

Se la varianza σ2 dei dati diminuisce, diminuisce pure l’errore standard e quindi ricadi nel caso 1)

3) Cambiamento del livello di confidenza

Ma cosa succede se cambi il livello di confidenza? Te lo mostro con un esempio numerico. Prendi in esame l’ intervallo di confidenza al 95% e confrontalo con quello al 99%. 

Per il primo hai un valore critico pari a z1-𝛼/2 = 1,96 mentre per il secondo z1-𝛼/2 = 2,576. Osserva che se il valore critico aumenta → aumenta anche il margine di errore → aumenta l’ampiezza dell’intervallo. Quindi, al crescere del livello di confidenza aumenta pure l’ampiezza dell’intervallo.

4) Cambiamento dell’interpretazione statistica

Dal punto di vista statistico un intervallo più ampio indica una stima meno accurata. Potrei facilmente indovinare il range in cui il tuo reddito annuale si trova dicendoti che esso sta tra 0 e 10 miliardi; la mia stima è sicuramente corretta ma poco precisa dato che gli estremi del range si allontanano molto dal tuo reale reddito.

RICORDA: a parità di condizioni, gli intervalli di confidenza aumentano quando diminuisci il livello alfa di significatività generando più probabilità nel trovare il parametro della popolazione ma al tempo stesso creando più imprecisione della stima.

Viceversa a parità di condizioni, gli intervalli di confidenza diminuiscono quando aumenti il livello alfa di significatività generando meno probabilità nel trovare il parametro della popolazione ma al tempo stesso creando più precisione della stima.

COMANDI SOFTWARE:

  • Intervalli di confidenza EXCEL:

CONFIDENZA.NORM (Alfa;Dev_Standard;Dimensioni).

CONFIDENZA.T (Alfa;Dev_Standard;Dimensioni)

  • Intervalli di confidenza SPSS: Non esiste un comando specifico

Riassumendo

  • Gli intervalli di confidenza stimano uno parametro o più parametri incogniti della popolazione analizzata.
  • Per stimare il vero parametro 𝜗 della popolazione si sceglie l’opportuna stima campionaria che varia in base al parametro
  • Per calcolare gli intervalli di confidenza, oltre alla stima, sono necessari il valore critico proveniente dalla distribuzione della variabile casuale e l’errore standard della stima.
  • L’ampiezza dell’intervallo varia al variare di dimensione del campione, varianza e livello di confidenza.

Il modo migliore per scoprire se ci si può fidare di qualcuno è di dargli fiducia.

(ERNEST HEMINGWAY- Scrittore e giornalista statunitense)

Iscriviti alla Newsletter

Se hai bisogno d’informazioni che non hai trovato nella sezione servizi o dei video corsi, scrivimi un messaggio o chiamami.
Domande, prezzi, richieste, delucidazioni...tutto quello che ti serve. Cercherò di risponderti entro le 24h.

Consenso al trattamento dei dati
Utilizzerò i tuoi dati (nome ed indirizzo mail) solo per inviarti gratuitamente via mail la newsletter mensile. Niente spam, niente scocciature, ti disiscrivi in un click quando vuoi.

linkedin facebook pinterest youtube rss twitter instagram facebook-blank rss-blank linkedin-blank pinterest youtube twitter instagram