Nell’ambito della statistica inferenziale, molto spesso, si ha la necessità di stimare un numero che non si conosce.
Tale numero prende il nome di parametro della popolazione 𝜗 (che può essere una media, una proporzione, una varianza, ecc...) e lo si può stimare attraverso una stima puntuale o una stima intervallare.
La stima puntuale si effettua quando si utilizza un valore solo per stimare il parametro che stiamo analizzando, quindi viene utilizzato uno specifico punto per stimare il valore desiderato.
La stima intervallare, invece, è quella più usata e che ci interessa per affrontare l'argomento di questo articolo: da qui, infatti, nascono gli intervalli di confidenza (IC), che rappresentano quell’intervallo di valori in cui è probabile trovare il vero parametro della popolazione con un certo grado di confidenza. Da questo concetto si ricava anche quello di livello di confidenza 1-𝛼 dove 𝛼 è il livello di significatività (che ti ho spiegato qui).
Questo grado di fiducia si esprime tramite una percentuale: il valore più comunemente utilizzato è il 95% cioè (1-0,05)%.
Ma cosa significa, dunque, l’espressione “intervallo di confidenza per la media al 95%”?
Vuol dire che confidi al 95% che l’intervallo conterrà il vero valore della media della popolazione.
In generale, i parametri che più frequentemente capita di dover stimare sono:
Nella fase di rilevazione dei dati statistici risulta impossibile studiare l’intera popolazione. Pensa, ad esempio, se un ricercatore dovesse rilevare le altezze di tutti i giovani liceali presenti nel territorio italiano. È evidente che sarebbe un lavoro enorme, che richiederebbe molto tempo e denaro. Nella pratica, quindi, l’esaminatore seleziona un campione della popolazione. Questo significa che lui può solo stimare i parametri della popolazione, senza mai poter esattamente ottenere i loro valori reali. Quindi se il campione è rappresentativo, gli intervalli di confidenza lo aiutano a scoprire il vero valore che sta cercando nella popolazione.
Per calcolare gli intervalli di confidenza per il parametro reale della popolazione hai bisogno della stima di tale parametro (𝜗*). Ad esempio, se devi stimare la media della popolazione utilizzerai la media campionaria, ovvero la somma delle osservazioni del campione fratto il numero di osservazioni.
Se devi trovare l’intervallo di confidenza per la differenza tra due medie, la stima che utilizzerai sarà la differenza delle medie campionarie di ciascuno dei due campioni, e così via.
Qui sotto ti presento una tabella con l’elenco delle stime puntuali (colonna arancione) per ciascun parametro della popolazione (colonna verde). Qui ne ho messe solo quattro ma possono essere molte di più.
Un altro tassello fondamentale per la costruzione di una stima intervallare è l’errore standard della stima (SE = Standard Error), ovvero l’errore che commetti considerando il valore campionario 𝜗* piuttosto che quello dell’intera popolazione.
Considerati i parametri noti e non noti della popolazione in esame, ottieni una variabile casuale, di cui si conosce la distribuzione di probabilità e a partire dalla quale puoi ricavare i cosiddetti valori critici, utili ai fini del calcolo degli intervalli di confidenza.
Questi valori critici, ±z1-𝛼/2 sono i valori estremi sulla curva della distribuzione che delimitano l’area sottesa centrale con probabilità (1-𝛼)% da quelle sottese nelle due code ciascuna corrispondente ad (𝛼/2)%.
Per capire meglio il concetto, guarda il grafico qui sotto che rappresenta la funzione di densità della media della popolazione, che segue una distribuzione normale che ho spiegato in questo articolo.
Avendo scelto un livello di fiducia del 95%, il valore critico 1,96 si trova andando a consultare la tavola statistica della distribuzione normale standard. Questo significa che la probabilità che il valore medio della popolazione sia compresa tra -1,96 e 1,96 deviazioni standard è del 95%.
Di contro hai una probabilità del 5% (suddivisa tra le due code) che la media della popolazione rimanga al di fuori di tale intervallo.
L’esempio grafico è stato fatto con la normale standardizzata (Z) ma vale lo stesso principio per la t-student (T).
Se vuoi capire il concetto di normale standardizzata puoi guardarti il mio video in merito a questo argomento
Qui di seguito ti elenco i vari passi da seguire per calcolare gli estremi degli intervalli di confidenza.
Il primo passaggio da seguire è quello della stima. Facendo riferimento alla tabella che ti ho mostrato sopra, la stima si calcola in base al parametro della popolazione che si vuole stimare.
Ad esempio, nel caso della media (prima riga) la stima è rappresentata dalla media campionaria xm, che si calcola facendo la somma dei valori del campione diviso il numero totale dei valori; se invece ti interessa stimare la proporzione della popolazione (seconda riga), calcoli la proporzione campionaria come il rapporto tra il numero di osservazioni che presentano la caratteristica in questione diviso il numero totale delle osservazioni.
Una volta fatta la stima, dobbiamo tenere conto dell'errore standard.
Per questo, facciamo riferimento ancora alla stessa tabella, e in particolare alla quarta colonna, che ti indica come calcolare l’errore standard nei vari casi. Puoi notare che tale valore dipende sia dalla deviazione standard σ del campione o dei campioni che dalla numerosità campionaria n.
A questo punto, prendiamo in considerazione il valore critico, cioè, come abbiamo detto prima, i valori estremi sulla curva della distribuzione.
Se la variabile casuale segue una distribuzione normale allora il valore critico non devi calcolarlo in nessun modo, puoi trovarlo semplicemente guardando sulla seguente tavola.
Per tua comodità, eccoti un elenco dei valori z corrispondenti ai principali livelli di confidenza:
Per approfondire ancora questo argomento, ti lascio il video della mia lezione gratuita, in cui ti spiego in modo chiaro e semplice come leggere la tavola della distribuzione normale standardizzata.
Se invece hai a che fare con una t di Student, non dovrai comunque calcolare nulla, ma dovrai consultare quest’altra tavola.
A questo punto, devi moltiplicare l’errore standard calcolato al punto 2 per il valore critico trovato al punto 3.
Per trovare l’estremo inferiore devi sottrarre il margine d’errore dalla stima.
Per trovare l'estremo superiore devi sommare il margine d’errore alla stima.
Adesso ti faccio osservare che modificando la dimensione campionaria e/o il livello di confidenza, si modifica l’ampiezza dell’intervallo e di conseguenza anche l’accuratezza della stima.
Se aumenti la dimensione campionaria n → l’errore standard diminuisce → il margine di errore diminuisce pure → i due estremi dell’intervallo si avvicinano alla stima → l’intervallo si restringe.
In particolare, ti mostro cosa succede se quadruplichi n nel caso specifico di un intervallo per la media della popolazione:
Come puoi vedere, nel caso 4n l’intervallo si è dimezzato.
Se la varianza σ2 dei dati diminuisce, diminuisce pure l’errore standard e quindi ricadi nel caso 1.
Ma cosa succede se cambi il livello di confidenza? Te lo mostro con un esempio numerico.
Prendi in esame l’intervallo di confidenza al 95% e confrontalo con quello al 99%.
Per il primo hai un valore critico pari a z1-𝛼/2 = 1,96 mentre per il secondo z1-𝛼/2 = 2,576. Osserva che se il valore critico aumenta → aumenta anche il margine di errore → aumenta l’ampiezza dell’intervallo. Quindi, al crescere del livello di confidenza aumenta anche l’ampiezza dell’intervallo.
Dal punto di vista statistico un intervallo più ampio indica una stima meno accurata.
Potrei facilmente indovinare il range in cui il tuo reddito annuale si trova dicendoti che esso sta tra 0 e 10 miliardi; la mia stima è sicuramente corretta ma poco precisa dato, che gli estremi del range si allontanano molto dal tuo reale reddito.
RICORDA: a parità di condizioni, gli intervalli di confidenza aumentano quando diminuisci il livello alfa di significatività, generando più probabilità nel trovare il parametro della popolazione ma al tempo stesso creando più imprecisione della stima.
Viceversa, a parità di condizioni, gli intervalli di confidenza diminuiscono quando aumenti il livello alfa di significatività, generando meno probabilità nel trovare il parametro della popolazione ma al tempo stesso creando più precisione della stima.
CONFIDENZA.NORM (Alfa;Dev_Standard;Dimensioni)
CONFIDENZA.T (Alfa;Dev_Standard;Dimensioni)
Non esiste un comando specifico. Quasi tutte le statistiche vengono restituite con il proprio intervallo di confidenza.
Il modo migliore per scoprire se ci si può fidare di qualcuno è di dargli fiducia.
(ERNEST HEMINGWAY- Scrittore e giornalista statunitense)