Uno stimatore è una funzione che utilizza i dati di un campione per stimare il parametro di una popolazione. Tra i più importanti stimatori ci sono la media campionaria, la varianza campionaria corretta e la proporzione campionaria.
Gli stimatori vengono utilizzati in diverse tecniche statistiche, tra cui:
per stimare i parametri di un modello lineare, come regressori e intercetta, che descrivono la relazione tra una variabile dipendente e una o più variabili indipendenti.
per analizzare e prevedere l'evoluzione di fenomeni nel tempo utilizzando modelli che dipendono dai parametri stimati.
per monitorare e migliorare la qualità dei processi produttivi.
per stimare i tassi di rischio.
per quantificare l'incertezza associata a decisioni basate su dati limitati o variabili casuali.
Lo stimatore dei minimi quadrati è quello che minimizza la somma degli errori quadratici tra i valori osservati e i valori stimati.
Gli errori quadratici sono la differenza tra il valore osservato e il valore teorico il tutto elevato al quadrato dimodoché conti il numero e non il segno. Sommando poi tutti questi errori si ottiene un valore che è il più piccolo possibile rispetto ad altre stime.
L'esempio tipico di questo metodo si ha nella regressione lineare quando si stimano i coefficienti della funzione lineare che descrive la relazione tra la variabile dipendente e le variabili indipendenti.
Lo stimatore di massima verosimiglianza è quello che massimizza la funzione di verosimiglianza, ovvero la probabilità di osservare i dati del campione dati i valori del parametro.
Il metodo dei momenti è un approccio per stimare i parametri di una distribuzione confrontando i momenti campionari con i momenti teorici della distribuzione.
Sicuramente conosci già il momento primo perché è la media aritmetica e il momento secondo che è utilizzato nel metodo indiretto per il calcolo della varianza
Uno stimatore è non distorto se il suo valore atteso è uguale al parametro da stimare. In altre parole, uno stimatore non distorto non presenta errori sistematici.
T è il simbolo di un generico stimatore che verrà cambiato a seconda dei casi. Per esempio se ci fosse la media campionaria scriveresti E (Xm), mentre per la varianza campionaria E (S2).
Ɵ invece è un numero.
Uno stimatore è consistente se la sua varianza tende a zero quando la dimensione del campione aumenta. In altre parole, uno stimatore consistente diventa sempre più preciso con l'aumentare delle osservazioni.
per ogni ε > 0, dove:
rappresenta la probabilità che la differenza assoluta tra lo stimatore Tn e il vero valore del parametro θ abbia un certo valore.
Ti ricordo che ε è il simbolo che in matematica si usa per dire "un numero molto piccolo".
L'efficienza di uno stimatore è una misura della sua precisione rispetto ad altri stimatori. Uno stimatore è efficiente se ha la minima varianza tra tutti gli stimatori corretti.
Comunque per capire nel concreto come si calcolano e cosa vogliono dire queste proprietà degli stimatori, ti rimando al mio videocorso sulla statistica inferenziale.
Vediamo ora i due più importanti stimatori partendo da quello della media.
Come prima cosa definiamo:
xi = modalità i-esima del campione
ni = frequenza i-esima del campione
n = numerosità del campione
Si tratta di calcolare una semplice media aritmetica attraverso la classica formula
∑ ( xi * ni ) / n
Se hai dubbi guardati la lezione presa dal mio videocorso sulla statistica descrittiva
Lo stimatore della media è la media campionaria, che viene utilizzata per stimare la media della popolazione.
Tale stimatore è corretto (o non distorto) questo perché se dovessi prendere tutti i possibili campioni di una popolazione e calcolare la loro media otterresti una distribuzione tale per cui il suo valor medio sarebbe uguale alla media della popolazione iniziale, che è proprio il parametro che stai stimando.
Supponi che hai una popolazione di soli tre individui che hanno rispettivamente 10, 20 e 30 anni.
La media della loro età è: µ = ( 10 + 20 + 30 ) / 3 = 20 anni.
Adesso prendi tutti i possibili campioni di due persone e calcolaci la media:
Campione 1 ( 10 ; 20) : Media 1 = ( 10 + 20 ) / 2 = 15
Campione 2 ( 10 ; 30) : Media 2 = ( 10 + 30 ) / 2 = 20
Campione 3 ( 20 ; 30) : Media 3 = ( 10 + 30 ) / 2 = 25
La proprietà di correttezza si ottiene perché il valor medio dello stimatore, quindi di questa nuova distribuzione, è uguale alla media della popolazione trovata in precedenza.
E (Xm) = ( 15 + 20 + 25 ) / 3 = 20 anni.
µ = ( 10 + 20 + 30 ) / 3 = 20 anni.
E (Xm) = µ
Questa dimostrazione si può fare perchè ho preso numeri piccoli, ma ovviamente vale anche se avessi una popolazione e un campione molto più grandi.
Per valutare la consistenza devi vedere se la varianza dello stimatore tende a zero quando la numerosità (n) del campione tende all'infinito, quindi concettualmente tende alla numerosità della popolazione.
La varianza della media campionaria è uguale a σ2 / n
Quindi se al posto di n metti un numero grandissimo ottieni che la varianza diventa piccolissima e quindi tende a zero. Ecco dunque verificata la consistenza della media campionaria.
Per capire l'efficienza dovresti prendere altri stimatori simili, come la mediana o una media ponderata diversamente, e confrontare le rispettive varianze.
Puoi facilmente trovare che la varianza della media campionaria sarà sempre la più piccola dimostrando quindi la proprietà dell'efficienza.
Lo stimatore della varianza è la varianza campionaria corretta, che viene utilizzata per stimare la varianza della popolazione.
Se prendessi la varianza campionaria non corretta questa sarebbe, come dice il nome stesso, uno stimatore distorto.
Si tratta di calcolare una semplice varianza con la differenza che alla fine del calcolo devi moltiplicarla per un fattore di correzione.
Ti lascio un video con il quale puoi facilmente apprendere, attraverso l'uso della calcolatrice SHARP, il calcolo di entrambe le varianze.
Per farti comprendere il perché questo stimatore sia non distorno riprendiamo l'esempio precedente quello in cui ci sono tre individui di 10, 20 e 30 anni e calcoliamo la varianza della popolazione sapendo che la media è 20 anni.
generalmente si presuppone che il campione estratto sia con reinserimento quindi tutti i casi possibili diventano 9 perché è come se estraessi un individuo a caso al primo tentativo e poi potessi ripescarlo al secondo.
Il fattore di correzione per cui devi moltiplicare la varianza è: n / (n-1)
La varianza della popolazione è: σ2 = ( 102 + 202 + 302 ) / 3 - 202 = 66,67
Ora prendi tutti i possibili campioni e calcolaci la varianza per ciascuno:
Campione 1 ( 10 ; 10) : Varianza 1 = ( 102 + 102 ) / 2 - 102 = 0
Campione 2 ( 10 ; 20) : Varianza 2 = ( 102 + 202 ) / 2 - 152 = 25
Campione 3 ( 10 ; 30) : Varianza 3 = ( 102 + 302 ) / 2 - 202 = 100
Campione 4 ( 20 ; 10) : Varianza 4 = ( 202 + 102 ) / 2 - 152 = 25
Campione 5 ( 20 ; 20) : Varianza 5 = ( 202 + 202 ) / 2 - 202 = 0
Campione 6 ( 20 ; 30) : Varianza 6 = ( 202 + 302 ) / 2 - 252 = 25
Campione 7 ( 30 ; 10) : Varianza 7 = ( 302 + 102 ) / 2 - 202 = 100
Campione 8 ( 30 ; 20) : Varianza 8 = ( 302 + 202 ) / 2 - 252 = 25
Campione 9 ( 30 ; 30) : Varianza 9 = ( 302 + 302 ) / 2 - 302 = 0
E (S2) = ( 0 + 25 + 100 + 25 + 0 + 25 + 100 + 25 + 0 ) / 9 = 33,33
σ2 = ( 102 + 202 + 302 ) / 3 - 202 = 66,67
E (S2) ≠ σ2 come vedi la varianza campionaria risulta distorta, ma se la moltiplichi per il fattore di correzione ti risulterà uguale alla varianza della popolazione
E (S2corr) = E (S2) * n / (n-1) = 33,33 * 2/1 = 66,67
Ti propongo anche il caso in cui le estrazioni siano fatte senza reinserimento:
Il fattore di correzione per cui devi moltiplicare la varianza è: n * (N-1) / N.
Dove n = numerosità del campione (in questo esempio 2), mentre N = numerosità della popolazione (in questo esempio 3)
La varianza della popolazione è: σ2 = ( 102 + 202 + 302 ) / 3 - 202 = 66,67
Ora prendi tutti i possibili campioni e calcolaci la varianza per ciascuno:
Campione 1 ( 10 ; 20) : Varianza 1 = ( 102 + 202 ) / 2 - 152 = 25
Campione 2 ( 10 ; 30) : Varianza 2 = ( 102 + 302 ) / 2 - 202 = 100
Campione 3 ( 20 ; 30) : Varianza 3 = ( 202 + 302 ) / 2 - 252 = 25
E (S2) = ( 25 + 100 + 25 ) / 3 = 50
σ2 = ( 102 + 202 + 302 ) / 3 - 202 = 66,67
E (S2) ≠ σ2 come vedi anche in questo caso la varianza campionaria risulta distorta, ma se la moltiplichi per il fattore di correzione ti risulterà uguale alla varianza della popolazione
E (S2corr) = E (S2) * n * (N-1) / N = 50 * 2 * 2/3 = 66,67
Dopo tutti questi calcoli dei vari stimatori, se ti sono rimasti dubbi sul concetto della varianza guarda questo mio video in cui te la spiego in modo semplice e chiaro utilizzando una metafora statistica.
Quando si sceglie uno stimatore, è importante considerare i possibili valori del parametro da stimare. Alcuni stimatori possono essere più adatti per stimare parametri che assumono valori in un intervallo specifico, mentre altri possono essere più adatti per parametri con valori su una scala più ampia.
Il confronto tra stimatori può essere basato su varie proprietà, come la correttezza, la consistenza e l'efficienza.
È fondamentale selezionare uno stimatore che sia appropriato per il parametro di interesse e che possa fornire stime accurate e precise.
Non esiste un comando specifico
Non esiste un comando specifico
"Se torturi i numeri abbastanza a lungo, confesseranno qualsiasi cosa."
Gregg Easterbrook