La statistica inferenziale, detta anche inferenza statistica o statistica induttiva, è quel processo di trasferimento delle caratteristiche di un campione alla totalità della popolazione , mediante un esperimento casuale. Si può dire che si tratta di un passaggio che trasla in un'ottica generale dei dati che si riferiscono ad un aspetto specifico, difatti inferenziale significa "Attinente a prove deducibili o generalizzazioni di dati parziali".
Ma quando si mette in pratica la statistica inferenziale, e per quali motivi?
Partiamo facendo una precisazione che può sembrare banale: analizzare i dati di un’intera popolazione è quasi impossibile per via dei tempi e dei costi che questa operazione richiederebbe, ed è per questo che si fa riferimento allo studio dei campioni.
Questo metodo viene applicato in tantissimi campi, uno di questi è, per esempio, la ricerca storica. Nel caso di alcuni periodi storici l'opera di generalizzazione è obbligatoria perchè abbiamo così poche testimonianze che altrimenti dovremmo semplicemente evitare di esprimerci su quel tempo; in altri, invece, analizzare in modo dettagliato e profondo ogni manoscritto, lettera, o libro richiederebbe troppo tempo data la mole di dati presenti. Quindi il lavoro dello studioso sarà quello di analizzarne un campione che egli considera adeguato così che, poi, la ricerca basata su di esso si possa considerare esemplificativa a livello generale.
Come potrai immaginare, in realtà applichi inconsapevolmente la statistica inferenziale ogni giorno. Infatti, prendere in considerazione una parte e considerarla esemplificativa di un tutto è un tipico modo di approcciarsi ad alcune situazioni, come per esempio l'acquisto online di un prodotto.
Prova a pensarci: decidi di acquistare delle scarpe su un sito, e ne trovi un paio che ti piacciono moltissimo. Ovviamente, non puoi sapere la taglia esatta prima di comprarle, perchè non puoi provarle, però a casa ne hai già altre della stessa marca. Ecco, fare inferenza significa pensare che, visto che appartengono allo stesso brand, le taglie delle due scarpe saranno uguali, e quindi potrai sceglierla sulla base di quelle che già possiedi.
A grandi linee ci sono due approcci che si possono seguire:
Nella corrente frequentista, per effettuare la statistica inferenziale si fanno dichiarazioni su quante volte si dirà la verità usando una tecnica statistica, e si stabilisce una probabilità a priori che verrà in seguito impiegata nei calcoli successivi.
Secondo tale teoria, la probabilità di un evento è semplicemente associabile alla sua frequenza.
Cerchiamo di analizzarlo in modo più dettagliato vedendone un esempio pratico.
Possiamo spiegare l'approccio frequentista con un esempio molto intuitivo, facendo riferimento a una situazione che, sono certo, avrai già vissuto più volte nella tua vita: il gioco di testa o croce.
Immagina di lanciare in aria una moneta, ma molte, molte volte, diciamo tendenti all’infinito. La corrente frequentista afferma che, in questo caso, la probabilità che esca testa si avvicinerà sempre di più al 50%.
Facendo questo ragionamento, si stabilisce a priori quale sarà la probabilità di azzeccare il lancio, perché sto affermando che, se dovessi lanciare un milione di volte la moneta, circa la metà dei casi risulterebbe testa.
L'intervallo di confidenza è lo strumento più utilizzato nell'approccio frequentista per effettuare la statistica inferenziale. In questo caso si confida che, con le ipotesi di partenza, il metodo utilizzato sarà corretto ad un certo livello di confidenza, solitamente fissato al 95% ed in altre occasioni anche al 90% o al 99%.
Per stabilire se la statistica test è significativa si osserva il p-value, che è il valore più piccolo per l’errore di primo tipo, cioè la probabilità di rifiutare l’ipotesi nulla quando questa è vera.
Il secondo approccio utilizzato per effettuare la statistica inferenziale è quello bayesiano. Nel pensiero bayesiano si attribuisce una probabilità a posteriori e si conferisce una probabilità di verità direttamente ad un intervallo.
Il vantaggio è che si possono utilizzare tutte le informazioni disponibili, e l’inferenza statistica risulta più semplice rispetto a quella frequentista, per cui si adatta benissimo ai problemi decisionali.
Di contro, però, lo svantaggio principale è il fatto che si fa uso di un elemento di soggettività, che la precedente invece non ha.
Tornando all’esempio della moneta qui l’approccio è differente, in quanto considero il 50% come il livello di incertezza con cui sarò in grado di prevedere l’esito finale.
Per capire a fondo la differenza con la scuola frequentista immagina di lanciare tu la moneta e guardare l’esito, ma di non comunicarlo ad un tuo amico. Per l’altra persona la probabilità del 50% che esca testa vale solo nell’approccio bayesiano, in quanto il processo non è incerto di per sé. Essendo il lancio già avvenuto, tu hai la consapevolezza del risultato, ma ciò che ne determina l’incertezza è la non conoscenza altrui.
Il punto centrale di tutto questo è legato al teorema di Bayes, dal quale prende il nome la teoria, e che ti ho spiegato in modo dettagliato nell'articolo dedicato a questo argomento. In questo momento non voglio dilungarmi sulla formula, ma sappi solo che lo scopo è calcolare una probabilità a posteriori sulla base di una probabilità a priori.
L’esempio tipico si ha quando si fanno delle analisi mediche: supponi di fare un test che identifica un virus nel 90% dei casi (probabilità a priori) e alla fine del test risulti positivo.
A questo punto ci si chiede: “Visto che il test è positivo, qual è la probabilità che il risultato sia sbagliato?”: questa è la probabilità a posteriori.
Come puoi immaginare, il processo di statistica inferenziale non può essere considerato completamente esatto, proprio perchè non si basa su dati certi, quindi avrà sempre una marginalità di errore.
Come si effettua allora, in questo caso, l'analisi dei dati? Questo argomento è abbastanza ampio, e quindi te ne parlerò in altri articoli dedicati specificatamente ad esso. Un consiglio che posso darti, però, è tenere sempre bene a mente la rappresentatività del campione che hai utilizzato, perchè ti aiuterà a capire entro quali limiti la tua statistica inferenziale può essere considerata esemplificativa.
All’interno della statistica inferenziale esistono diverse tecniche: di seguito te ne mostro solo alcune, ricordandoti che di connessione, anova a una via e regressione semplice te ne parlo in modo approfondito anche nel mio video corso di SPSS.
È la combinazione dell’analisi della regressione con l’analisi della varianza. Si mette in relazione un carattere quantitativo che dipenderà da uno qualitativo, come nel caso dell’anova, ma si introduce anche una variabile quantitativa come nella regressione.
Se stai studiando l'efficacia di due farmaci che facciano diminuire il colesterolo nel sangue ti è utile nel disegno di ricerca inserire anche la variabile età. Infatti, l'effetto dei farmaci potrebbe essere covariato dalla presenza all’interno dei singoli gruppi di persone con età differente.
Si usa quando voglio misurare una variabile quantitativa nel tempo e vedere se il suo valore cambia. É un'evoluzione del t-test a campioni dipendenti (o accoppiati) che si usa quando si hanno solo due rilevazioni temporali.
Un esempio potrebbe essere valutare l’aggressività di un gruppo di persone durante un trattamento psicologico. Per stabilire la significatività del test guardi sempre il p-value e per osservare bene le differenze del tempo puoi usare un grafico a linee, che ti mostra la crescita o la decrescita dell’aggressività.
Come dice il nome stesso è un mix tra un’anova e un’anova a misure ripetute. Qui si vuole vedere come cambiano gli effetti medi nel tempo di un fenomeno quantitativo suddiviso per le categorie di un carattere qualitativo.
Supponi che un dentista sia interessato a vedere la perdita ossea del paziente dopo un intervento. Suddividerà quindi i pazienti in due gruppi in base a due differenti impianti di utilizzo, e le rilevazioni verranno fatte annualmente per un periodo di 5 anni.
L'interesse sarà non solo nel vedere la differenza di perdita ossea tra i due gruppi, ma anche tra un anno e l'altro.
Tutte le variabili devono essere di tipo quantitativo oppure dummy. Le variabili dummy sono quelle codificate con 0 e 1 dove l’uno rappresenta la presenza di una caratteristica.
La regressione prevede una variabile quantitativa che dipende da più di una variabile qualitativa o dummy.
Immagina un modello nel quale il fatturato dell'azienda possa dipendere dalle spese in ricerca e sviluppo che tale azienda sostiene, dagli investimenti in pubblicità e dall’ottimizzazione dei costi di produzione.
Ogni variabile ha un proprio coefficiente che, se risulta significativo, informa sul fatto che il carattere indipendente influisce su quello dipendente.
Come puoi vedere, la statistica inferenziale è un argomento molto vasto, che può essere approcciato attraverso differenti tecniche statistiche. In questo articolo ho voluto illustrartene due in modo più dettagliato e darti una panoramica delle altre, ma c'è ovviamente molto altro da dire per poter conoscere a fondo la materia.
Per questo motivo, ho deciso di creare un videocorso dedicato alla statistica inferenziale, dove ti spiego in modo chiaro ed efficace tutto ciò che ti serve sapere su di essa.
Come abbiamo visto, quindi, la statistica inferenziale si occupa di partire dai dati rilevati su un campione specifico per poi utilizzarli come esemplificativo generale.
La differenza con la statistica descrittiva è che quest'ultima invece non generalizza, ma prende in considerazione il campione di dati analizzato e estrapola delle informazioni basandosi su questo segmento, senza poi espanderlo.
Se si raccolgono abbastanza dati, qualsiasi cosa può essere dimostrata con metodi statistici.
Legge di Williams e Holland