fbpx

Statistica inferenziale: 2 approcci da conoscere

Postato il 11 Maggio 2020
Tag

La statistica inferenziale, o inferenza statistica, trasferisce le caratteristiche di un campione alla totalità della popolazione, mediante un esperimento casuale.

Analizzare i dati di un’intera popolazione è quasi certamente impossibile per via dei tempi e dei costi ed è per questo che si fa riferimento allo studio dei campioni.

 A grandi linee ci sono due approcci che si possono seguire:

  1. Approccio frequentista
  2. Approccio bayesiano 

Approccio frequentista

Nella corrente frequentista si fanno dichiarazioni su quante volte si dirà la verità usando una tecnica statistica e si stabilisce una probabilità a priori che verrà impiegata nei calcoli successivi.

Secondo tale teoria la probabilità di un evento è associabile alla sua frequenza, vediamone un esempio.

Esempio probabilità a priori

Immagine di lanciare in aria una moneta molte volte, diciamo tendenti all’infinito, allora la probabilità che uscirà testa si avvicinerà al 50%.

Quando fai questo, stabilisci a priori quale sarà la probabilità di azzeccare il lancio perché se dovessi lanciare un milione di volte la moneta, circa la metà dei casi risulterebbe testa.

Intervallo di confidenza

Statistica inferenziale

Lo strumento più utilizzato è l’intervallo di confidenza nel quale appunto si confida che con le ipotesi di partenza, il metodo utilizzato sarà corretto ad un certo livello di confidenza. Questo livello è solitamente fissato al 95% ed in altre occasioni anche al 90% o al 99%.

Per stabilire se la statistica test è significativa si osserva il p-value che è il valore più piccolo per l’errore di primo tipo cioè la probabilità di rifiutare l’ipotesi nulla quando questa è vera.

Approccio bayesiano

Nel pensiero bayesiano si attribuisce una probabilità a posteriori e si conferisce una probabilità di verità direttamente ad un intervallo.

Il vantaggio di questo approccio è che si possono utilizzare tutte le informazioni disponibili e l’inferenza statistica risulta più semplice rispetto a quella frequentista per cui si adatta benissimo ai problemi decisionali.

Il difetto principale è riconducibile al fatto che si fa uso di un elemento di soggettività che la precedente non ha.

Esempio probabilità a posteriori

Tornando all’esempio della moneta qui l’approccio è differente in quanto considero il 50% come il livello di incertezza con cui sarò in grado di prevedere l’esito finale.

Per capire a fondo la differenza con la scuola frequentista immagina di lanciare tu la moneta e guardare l’esito, ma di non comunicarlo ad un tuo amico.

Per l’altra persona la probabilità del 50% che esca testa vale solo nell’approccio bayesiano in quanto il processo non è incerto di per sé.

Essendo il lancio già avvenuto, tu hai la consapevolezza del risultato, ma ciò che ne determina l’incertezza è la non conoscenza altrui.

Il punto centrale di tutto questo è legato al teorema di Bayes dal quale prende il nome la teoria.

Non voglio in questo articolo dilungarmi sulla formula, ma sappi solo che lo scopo è calcolare una probabilità a posteriori sulla base di una probabilità a priori.

Esempio teorema di Bayes

L’esempio tipico si ha quando si fanno delle analisi mediche. Supponi di fare un test che identifica un virus nel 90% dei casi, probabilità a priori, e alla fine del test risulti positivo. A questo punto ci si chiede: “visto che il test è positivo, qual è la probabilità che il risultato sia sbagliato?” Questa è la probabilità a posteriori.

Alcune tecniche statistiche

All’interno della Statistica inferenziale esistono diverse tecniche e di seguito te ne mostro solo alcune ricordandoti che di connessione, anova a una via, e regressione semplice te ne parlo anche nel mio video corso di SPSS.

Ancova

È la combinazione dell’analisi della regressione con l’analisi della varianza. Si mette in relazione un carattere quantitativo che dipenderà da uno qualitativo come nel caso dell’anova, ma si introduce anche una variabile quantitativa come nella regressione.

Esempio Ancova

Se stai studiando l'efficacia di due farmaci che facciano diminuire il colesterolo nel sangue ti è utile nel disegno di ricerca inserire anche la variabile età. Infatti, l'effetto dei farmaci potrebbe essere covariato dalla presenza all’interno dei singoli gruppi di persone con età differente.

Anova a misure ripetute

Si usa quando voglio misurare una variabile quantitativa nel tempo e vedere se il suo valore cambia. E’ un'evoluzione del t-test a campioni dipendendenti (o accoppiati) che si usa quando si hanno solo due rilevazioni temporali.

Esempio Anova a misure ripetute

Un esempio potrebbe essere valutare l’aggressività di un gruppo di persone durante un trattamento psicologico. Per stabilire la significatività del test guardi sempre il p-value e per osservare bene le differenze del tempo puoi usare un grafico a linee che ti mostra la crescita o la decrescita dell’aggressività.

Anova mista

Come dice il nome stesso è un mix tra un’anova e un’anova a misure ripetute. Qui si vuole vedere come cambiano gli effetti medi nel tempo di un fenomeno quantitativo suddiviso per le categorie di un carattere qualitativo.

Esempio Anova mista

Supponi che è un dentista sia interessato a vedere la perdita ossea del paziente dopo un intervento. Suddivide i pazienti in due gruppi in base a due differenti impianti di utilizzo. Le rilevazioni vengono fatte annualmente per un periodo di 5 anni.

L'interesse sarà nel vedere la differenza di perdita ossea tra i due gruppi, ma anche tra un anno e l'altro.

Regressione lineare multipla

Tutte le variabili devono essere di tipo quantitativo oppure dummy. Le variabili dummy sono quelle codificate con 0 e 1 dove l’uno rappresenta la presenza di una caratteristica.

La regressione prevede una variabile quantitativa che dipende da più di una variabile qualitativa o dummy.

Esempio Regressione lineare multipla

Immagina un modello nel quale il fatturato dell'azienda possa dipendere dalle spese in ricerca e sviluppo che tale azienda sostiene, dagli investimenti in pubblicità e dall’ ottimizzazione dei costi di produzione.

Ogni variabile ha un proprio coefficiente che se risulta significativo informa sul fatto che il carattere indipendente influisce su quello dipendente.

Se si raccolgono abbastanza dati, qualsiasi cosa può essere dimostrata con metodi statistici.

Legge di Williams e Holland

Iscriviti alla Newsletter

Se hai bisogno d’informazioni che non hai trovato nella sezione servizi o dei video corsi, scrivimi un messaggio o chiamami.
Domande, prezzi, richieste, delucidazioni...tutto quello che ti serve. Cercherò di risponderti entro le 24h.

Consenso al trattamento dei dati
Utilizzerò i tuoi dati (nome ed indirizzo mail) solo per inviarti gratuitamente via mail la newsletter mensile. Niente spam, niente scocciature, ti disiscrivi in un click quando vuoi.

linkedin facebook pinterest youtube rss twitter instagram facebook-blank rss-blank linkedin-blank pinterest youtube twitter instagram