whatsapp

adriano gilardone Docente di Statistica Matematica Excel Spss sfruttare excel consulenze statistiche lezione videocorsi

blog

blog

Statistica inferenziale: approcci da conoscere

Ultima modifica (6 Aprile 2025)

YouTube video

Postato il 11 Maggio 2020

Tag

Contenuti nascondi

1 Cosa si intende per statistica inferenziale

1.1 Procedura tipica

1.2 Importanza del campionamento

1.3 Errori e incertezze

1.4 Applicazioni pratiche di statistica inferenziale

2 Cosa si intende per inferenza. Facciamo degli esempi

2.1 Esempio pratico di statistica inferenziale

2.1.2 Procedura

2.1.2.1 Selezione del campione

2.1.2.2 Implementazione del programma

2.1.2.3 Raccolta e Analisi dei Dati

2.1.2.4 Conclusione

2.2 Significato di inferenza

3 Quanto deve essere numeroso un campione statistico

3.1 Margini di errore desiderati

3.2 Livello di confidenza

3.3 Variabilità della popolazione

3.4 Tasso di risposta previsto

4 Qual è la differenza tra statistica descrittiva e statistica inferenziale

5 Per cosa utilizziamo l'inferenza?

5.1 Previsione e predizione

5.2 Test di ipotesi

5.3 Stima dei parametri

5.4 Costruzione di modelli

5.5 Decisione e politiche basate su dati

6 Quando un'inferenza è corretta

6.1 Rappresentatività del campione

6.2 Dimensione del campione adeguata

6.3 Correttezza nei metodi statistici

6.4 Robustezza delle inferenze

7 L'approccio frequentista

7.1 La probabilità a priori: testa o croce?

7.1.1 L'approccio frequentista e l'intervallo di confidenza

8 L'approccio bayesiano

8.1 La probabilità a posteriori: testa o croce?

8.2 Esempio del teorema di Bayes

8.3 Probabilità a priori

8.5 Probabilità a posteriori

8.6 Decisione basata su evidenza completa

9 Quando si usa il test di Fisher

9.1 Campioni piccoli

9.2 Tabelle di contingenza 2x2

9.3 Verifica di indipendenza

9.4 Dati con distribuzione non uniforme

9.5 Esempio pratico del test di Fisher

10 Cosa si intende per p-value?

10.1 Definizione di p-value

10.2 Interpretazione del p-value

10.2.1 P-value Basso (tipicamente < 0.05)

10.2.2 P-value Alto

10.3 Decisioni basate sul p-value

10.4 Esempio pratico di applicazione del P-value

11 Quando si utilizza il test del chi quadrato?

11.1 Test di indipendenza

11.2 Test di bontà di adattamento

11.3 Analisi di frequenza

11.4 Condizioni di applicabilità

11.5 Limitazioni e considerazioni

11.6 Esempio pratico: analisi del comportamento elettorale

12 Esempio di statistica inferenziale

13 L'analisi dei dati nella statistica inferenziale

14 Le altre tecniche statistiche

14.1.1 Esempio dell'Ancova

14.2 Anova a misure ripetute

14.2.1 Esempio dell'Anova a misure ripetute

14.3 Anova mista

14.3.1 Esempio dell'Anova mista

14.4 Regressione lineare multipla

14.4.1 Esempio della regressione lineare multipla

Cosa si intende per statistica inferenziale e in che modo si differenzia dalla statistica descrittiva?

In questo articolo, rispondo a queste e altre domande su uno degli argomenti portanti della statistica, attraverso definizioni pratiche ed esempi concreti, come sono solito fare. E se già mi conosci e mi segui anche su YouTube, lo sai bene anche tu.

Vuoi preparare il tuo esame in modo veloce ed efficace?

Scarica la guida, gratis

Cosa si intende per statistica inferenziale

La statistica inferenziale si basa su modelli probabilistici per formulare e verificare ipotesi.

Tramite l'uso di metodi come i test di ipotesi e le tecniche di stima, permette di:

Stimare i parametri di una popolazione. Ad esempio, usando un campione di studenti, potrebbe stimare la media di altezza degli studenti di una scuola.
Testare le ipotesi su questi parametri. Per esempio, determinare se esiste una differenza significativa tra le medie di due gruppi.
Prevedere futuri risultati basandosi su dati storici.

Procedura tipica

La procedura inizia con la formulazione di una ipotesi nulla (che assume l'assenza di un effetto o di una differenza) e una ipotesi alternativa (che propone l'esistenza di un effetto).

Utilizzando un approccio statistico, i dati raccolti dal campione sono analizzati per determinare se rifiutare l'ipotesi nulla a favore dell'ipotesi alternativa.

Importanza del campionamento

L'accuratezza delle inferenze dipende fortemente dalla qualità del campionamento, per questo è indispensabile fare in modo che sia quanto più possibile rappresentativo della popolazione

Un campionamento scorretto può portare a bias cognitivi, rendendo i risultati dell'analisi inferenziale inaffidabili.

Playlist con 166 video dui bias cognitivi

Errori e incertezze

La statistica non è matematica, semplicemente utilizza questa scienza per fare calcoli. Per questo non è perfetta e tiene conto dell'incertezza e dell'errore. La statistica inferenziale usa il concetto di probabilità per esprimere il grado di fiducia nelle conclusioni tratte.

Per esempio, un "livello di significatività" del 5% in un test di ipotesi indica che c'è una probabilità del 5% che le conclusioni siano errate (errore di tipo I).

Applicazioni pratiche di statistica inferenziale

L'applicazione della statistica inferenziale si estende attraverso molti settori, dalla ricerca scientifica alla finanza, dalla sociologia alla politica.

È ampiamente utilizzata per prendere decisioni basate su dati limitati, per validare teorie scientifiche, per migliorare i prodotti in ingegneria e per ottimizzare strategie in ambito commerciale e governativo.

corso statistica

Cosa si intende per inferenza. Facciamo degli esempi

Te lo spiego con parole ancora più semplici: l'inferenza si riferisce al processo di trarre conclusioni su una popolazione più ampia a partire da un campione.

Esempio pratico di statistica inferenziale

Scenario

Sei in un'organizzazione non profit che vuole valutare l'effetto di un programma di educazione finanziaria sul miglioramento della gestione delle finanze personali nelle comunità a basso reddito.

Procedura

Selezione del campione

L'organizzazione seleziona un campione casuale di 500 famiglie da diverse comunità a basso reddito.

Questo campione è scelto per riflettere varie dimensioni demografiche, incluse età, genere e composizione familiare, per assicurare che i risultati siano rappresentativi della popolazione target.

Implementazione del programma

Metà delle famiglie nel campione partecipa a un programma di educazione finanziaria che dura sei mesi, mentre l'altra metà non riceve alcuna formazione specifica e funge da gruppo di controllo.

Raccolta e Analisi dei Dati

Prima dell'inizio del programma e sei mesi dopo la sua conclusione, l'organizzazione raccoglie dati dettagliati sulle abitudini di spesa e risparmio di tutte le famiglie partecipanti. Si utilizza la statistica inferenziale per analizzare i dati e applicare test di ipotesi per verificare l'efficacia del programma.

Conclusione

Dopo l'analisi di statistica inferenziale, si scopre che le famiglie che hanno partecipato al programma mostrano un miglioramento significativo nella gestione delle loro finanze rispetto al gruppo di controllo, con un aumento medio del 20% nei risparmi mensili e una riduzione del 15% nel debito non ipotecario, con un livello di confidenza del 95%.

Significato di inferenza

Questo esempio illustra come l'inferenza statistica possa essere utilizzata per valutare l'impatto delle politiche sociali. Basandosi su un campione rappresentativo e su metodi inferenziali, è possibile trarre conclusioni affidabili sull'efficacia delle iniziative di intervento sociale e influenzare decisioni future su scala più ampia.

L'inferenza in questo contesto non solo fornisce una base per affermare l'efficacia del programma, ma offre anche insight preziosi su come potenziare ulteriori interventi, contribuendo così a una migliore allocazione delle risorse e a un impatto sociale più profondo.

Quanto deve essere numeroso un campione statistico

A questo punto ti starai sicuramente chiedendo quanto deve essere numeroso un campione, secondo la statistica inferenziale, per essere davvero rappresentativo di una popolazione

Determinare la grandezza adeguata di un campione non è una decisione arbitraria, ma segue criteri basati su vari fattori.

Margini di errore desiderati

Un margine di errore più piccolo richiede un campione più grande.

Questo margine rappresenta l'intervallo entro il quale gli analisti si aspettano che i risultati del campione riflettano quelli della popolazione totale.

corso statistica

Livello di confidenza

Il livello di confidenza, spesso impostato al 95% o al 99%, indica la probabilità che il parametro della popolazione cada entro il margine di errore.

Livelli di confidenza più alti necessitano di campioni più grandi per mantenere un margine di errore ridotto.

Variabilità della popolazione

La variabilità o dispersione nei dati influisce direttamente sulla dimensione del campione. Popolazioni con maggiore variabilità richiedono campioni più grandi per ottenere una stima accurata della media o di altre statistiche.

Tasso di risposta previsto

In ricerche come sondaggi, dove non tutti i partecipanti rispondono, è necessario un campione più grande per compensare i non rispondenti e garantire che il campione finale sia rappresentativo.

Qual è la differenza tra statistica descrittiva e statistica inferenziale

La statistica descrittiva si concentra sulla raccolta e presentazione dei dati per riassumerli visivamente e numericamente, fornendo un colpo d'occhio sulle caratteristiche immediate dei dati raccolti.

In contrasto, la statistica inferenziale va oltre la semplice descrizione, utilizzando i dati per trarre conclusioni e fare previsioni che si estendono oltre il campione osservato.

Per cosa utilizziamo l'inferenza?

Per rispondere in modo chiaro a questa domanda, ricorro ad alcuni dei principali utilizzi della statistica inferenziale nelle varie discipline e situazioni.

Previsione e predizione

La statistica inferenziale permette di fare previsioni su eventi futuri basandosi su dati storici o attuali.

In economia, ad esempio, si usano modelli inferenziali per prevedere le tendenze di mercato, le fluttuazioni economiche o l'efficacia di politiche economiche basandosi su campioni di dati economici.

Test di ipotesi

Un altro uso fondamentale dell'inferenza è il test di ipotesi, che aiuta a determinare se una certa ipotesi statistica (chiamata ipotesi nulla) possa essere rifiutata o meno, basandosi sui dati di un campione.

Questo metodo è ampiamente usato in ricerca scientifica, marketing, controllo di qualità, e altri campi per validare o confutare teorie e modelli.

YouTube video

Test di ipotesi spiegato semplice con una metafora

Stima dei parametri

La statistica inferenziale è utilizzata per stimare i parametri di una popolazione più ampia basandosi su un campione ridotto.

Per esempio, i ricercatori in campo medico potrebbero voler stimare la proporzione di persone che rispondono positivamente a un trattamento basandosi su un campione rappresentativo di pazienti.

Costruzione di modelli

La statistica inferenziale è essenziale nella costruzione di modelli che descrivono la relazione tra variabili.

Attraverso tecniche come la regressione lineare o la regressione logistica, i ricercatori possono inferire come variabili indipendenti influenzino una variabile dipendente, facilitando la comprensione di fenomeni complessi.

corsi di statistica

Decisione e politiche basate su dati

Nel contesto governativo o organizzativo, la statistica inferenziale è utilizzata per formulare politiche basate su evidenze.

Per esempio, le inferenze tratte da dati raccolti tramite sondaggi o ricerche possono influenzare le decisioni politiche, la pianificazione urbana o le strategie di intervento sociale.

Quando un'inferenza è corretta

Un'Inferenza è considerata corretta quando soddisfa criteri di validità e affidabilità che assicurano l'applicabilità delle conclusioni tratte da un campione alla popolazione più ampia.

Vediamo i principali.

Rappresentatività del campione

Per essere affidabile, la statistica inferenziale deve basarsi su un campione che rappresenti fedelmente la popolazione da cui è tratto.

Questo significa che il campione deve essere selezionato con metodi che minimizzino il bias, come il campionamento casuale o stratificato, per assicurare che ogni segmento della popolazione sia adeguatamente rappresentato.

Dimensione del campione adeguata

La dimensione del campione influisce direttamente sulla precisione della statistica inferenziale.

Un campione più ampio riduce l'errore di stima e aumenta la precisione delle inferenze, rendendo i risultati più affidabili.

La dimensione del campione deve essere calcolata in modo da bilanciare precisione desiderata e risorse disponibili.

Correttezza nei metodi statistici

La scelta e l'applicazione corretta dei test statistici, la verifica delle assunzioni sottostanti questi test (come la normalità dei dati), e l'interpretazione appropriata dei risultati sono tutti fattori che determinano la correttezza dell'Inferenza.

Robustezza delle inferenze

Una statistica inferenziale corretta deve essere robusta, ossia deve rimanere valida anche in presenza di piccole variazioni nei dati o nei metodi utilizzati.

L'analisi di sensibilità può essere impiegata per testare la robustezza delle inferenze, assicurando che le conclusioni siano solide e affidabili.

L'approccio frequentista

Nella corrente frequentista, per effettuare la statistica inferenziale si fanno dichiarazioni su quante volte si dirà la verità usando una tecnica statistica, e si stabilisce una probabilità a priori che verrà in seguito impiegata nei calcoli successivi.

Secondo tale teoria, la probabilità di un evento è semplicemente associabile alla sua frequenza.

Cerchiamo di analizzarlo in modo più dettagliato vedendone un esempio pratico.

La probabilità a priori: testa o croce?

Possiamo spiegare l'approccio frequentista con un esempio molto intuitivo, facendo riferimento a una situazione che, sono certo, avrai già vissuto più volte nella tua vita: il gioco di testa o croce.
Immagina di lanciare in aria una moneta, ma molte, molte volte, diciamo tendenti all’infinito. La corrente frequentista afferma che, in questo caso, la probabilità che esca testa si avvicinerà sempre di più al 50%.

Facendo questo ragionamento, si stabilisce a priori quale sarà la probabilità di azzeccare il lancio, perché sto affermando che, se dovessi lanciare un milione di volte la moneta, circa la metà dei casi risulterebbe testa.

L'approccio frequentista e l'intervallo di confidenza

intervalli di confidenza

L'intervallo di confidenza è lo strumento più utilizzato nell'approccio frequentista per effettuare la statistica inferenziale. In questo caso si confida che, con le ipotesi di partenza, il metodo utilizzato sarà corretto ad un certo livello di confidenza, solitamente fissato al 95% ed in altre occasioni anche al 90% o al 99%.

Per stabilire se la statistica test è significativa si osserva il p-value, che è il valore più piccolo per l’errore di primo tipo, cioè la probabilità di rifiutare l’ipotesi nulla quando questa è vera.

L'approccio bayesiano

Il secondo approccio utilizzato per effettuare la statistica inferenziale è quello bayesiano. Nel pensiero bayesiano si attribuisce una probabilità a posteriori e si conferisce una probabilità di verità direttamente ad un intervallo.

Il vantaggio è che si possono utilizzare tutte le informazioni disponibili, e l’inferenza statistica risulta più semplice rispetto a quella frequentista, per cui si adatta benissimo ai problemi decisionali.

Di contro, però, lo svantaggio principale è il fatto che si fa uso di un elemento di soggettività, che la precedente invece non ha.

La probabilità a posteriori: testa o croce?

Tornando all’esempio della moneta qui l’approccio è differente, in quanto considero il 50% come il livello di incertezza con cui sarò in grado di prevedere l’esito finale.

Per capire a fondo la differenza con la scuola frequentista immagina di lanciare tu la moneta e guardare l’esito, ma di non comunicarlo ad un tuo amico. Per l’altra persona la probabilità del 50% che esca testa vale solo nell’approccio bayesiano, in quanto il processo non è incerto di per sé. Essendo il lancio già avvenuto, tu hai la consapevolezza del risultato, ma ciò che ne determina l’incertezza è la non conoscenza altrui.

Il punto centrale di tutto questo è legato al teorema di Bayes, dal quale prende il nome la teoria, e che ti ho spiegato in modo dettagliato nell'articolo dedicato a questo argomento. In questo momento non voglio dilungarmi sulla formula, ma sappi solo che lo scopo è calcolare una probabilità a posteriori sulla base di una probabilità a priori.

Esempio del teorema di Bayes

L’esempio tipico si ha quando si fanno delle analisi mediche: supponi di fare un test che identifica un virus nel 90% dei casi (probabilità a priori) e alla fine del test risulti positivo.
A questo punto ci si chiede: “Visto che il test è positivo, qual è la probabilità che il risultato sia sbagliato?”: questa è la probabilità a posteriori.

YouTube video — Il teorema di Bayes spiegato semplice con una metafora

Vediamo i principi fondamentali su cui si basa l'inferenza bayesiana.

Probabilità a priori

L'inferenza bayesiana inizia con quello che è noto come probabilità a priori, che è la probabilità iniziale attribuita a un ipotetico evento prima di osservare i dati attuali.

Questa probabilità riflette le conoscenze o le convinzioni preesistenti riguardo all'evento, prima di qualsiasi prova empirica.

Likelihood

Una volta che i dati sono disponibili, viene calcolata la likelihood, che è la probabilità di osservare i dati a partire da un certo modello o ipotesi.

La likelihood misura quanto bene l'ipotesi spiega i dati osservati. In termini tecnici, si tratta di valutare la funzione di likelihood del modello dati i dati osservati.

Probabilità a posteriori

Utilizzando il teorema di Bayes, le probabilità a priori sono aggiornate per ottenere le probabilità a posteriori. Queste ultime riflettono quanto sia probabile un'ipotesi dopo aver preso in considerazione i nuovi dati.

Decisione basata su evidenza completa

A differenza dell'approccio frequentista che usa solo i dati osservati per fare inferenze, l'inferenza bayesiana incorpora sia le precedenti conoscenze sia i nuovi dati per fare decisioni informate.

Questo permette una valutazione più completa dell'incertezza e può offrire inferenze più flessibili e adattabili.

corsi statistica

Quando si usa il test di Fisher

Il test di Fisher, noto anche come test esatto di Fisher, è uno strumento statistico utilizzato per analizzare le associazioni tra variabili categoriche in tabelle di contingenza, specialmente quando i campioni di dati sono piccoli.

Ti spiego in quali contesti e per quali motivi si applica questo test.

Campioni piccoli

Il test di Fisher è particolarmente utile quando le dimensioni del campione sono così piccole che altri test, come il test del chi quadrato, potrebbero non fornire risultati affidabili.

Il test di Fisher è esatto, il che significa che non si basa su approssimazioni distributive e fornisce una soluzione precisa per la significatività statistica.

Tabelle di contingenza 2x2

Questo test è ideale per le tabelle di contingenza 2x2, dove le righe rappresentano due gruppi categorici e le colonne due esiti possibili.

Ad esempio, potrebbe essere utilizzato per determinare se esiste una relazione significativa tra il genere dei soggetti (maschile e femminile) e una risposta binaria a un trattamento (efficace o non efficace).

Verifica di indipendenza

Il test di Fisher è usato in statistica inferenziale per verificare l'ipotesi di indipendenza tra le variabili categoriche.

Aiuta a determinare se le proporzioni di una categoria differiscono significativamente in base alle classificazioni di un'altra categoria, indicando se due caratteristiche sono associate o meno.

Dati con distribuzione non uniforme

Quando i dati nelle celle della tabella di contingenza sono distribuiti in modo non uniforme, con alcune celle aventi frequenze molto basse o nulle, il test di Fisher diventa un'alternativa preferibile al test del chi quadrato, che richiede che la maggior parte delle celle abbia un valore atteso di 5 o superiore per garantire l'accuratezza.

Esempio pratico del test di Fisher

Supponiamo che un sociologo voglia esaminare l'effetto dell'educazione sull'opinione politica. Utilizzando una piccola campionatura di individui divisi in due gruppi (con e senza istruzione superiore) e due esiti possibili (supporto o non supporto a una certa politica), il test di Fisher è utile per determinare se l'istruzione influisce significativamente sulle opinioni politiche.

Cosa si intende per p-value?

YouTube video — P-value spiegato semplice con una metafora

Il p-value, o valore p, è utilizzato per determinare la significatività statistica dei risultati ottenuti in una indagine di statistica inferenziale.

Esso misura la probabilità di ottenere risultati almeno altrettanto estremi di quelli osservati, sotto l'ipotesi nulla che non ci sia differenza o effetto reale.

Vediamo come funziona e perché è così importante nella statistica inferenziale.

Definizione di p-value

Il p-value è calcolato nel contesto di un test di ipotesi statistico.

Rappresenta la probabilità di ottenere un risultato (o uno più estremo) puramente per caso, quando l'ipotesi nulla è vera.

Un p-value basso suggerisce che l'effetto osservato nei dati è improbabile che sia casuale, e quindi l'ipotesi nulla deve essere rifiutata.

Interpretazione del p-value

P-value Basso (tipicamente < 0.05)

Indica che c'è una bassa probabilità che l'effetto osservato sia dovuto al caso, suggerendo che l'ipotesi alternativa potrebbe essere vera.

P-value Alto

Suggerisce che l'effetto osservato potrebbe essere dovuto al caso e, quindi, non ci sono sufficienti prove per rifiutare l'ipotesi nulla.

Decisioni basate sul p-value

Nel contesto della statistica inferenziale e di test di ipotesi, un p-value viene spesso utilizzato per decidere se rifiutare l'ipotesi nulla.

Ad esempio, in molte discipline scientifiche che si avvalgono della statistica inferenziale, un p-value inferiore a 0.05 è considerato statisticamente significativo, il che significa che ci sono meno del 5% di probabilità che i risultati siano casuali se l'ipotesi nulla fosse vera.

Esempio pratico di applicazione del P-value

Supponiamo che uno psicologo voglia testare se una nuova terapia è più efficace del trattamento standard nel ridurre l'ansia.

Dopo aver condotto un esperimento su due gruppi (uno con la nuova terapia e uno con il trattamento standard), calcola il p-value basato sulla differenza nelle medie di ansietà tra i due gruppi.

Se il p-value è inferiore a 0.05, e i valori di ansia inferiori con il nuovo trattamento, può concludere con una certa sicurezza che la nuova terapia è significativamente più efficace nel ridurre l'ansietà rispetto al trattamento standard.

Quando si utilizza il test del chi quadrato?

YouTube video

Il test del chi quadrato spiegato semplice con una metafora

Il test del chi quadrato (χ²) è una tecnica statistica usata per determinare se esiste una differenza significativa tra le frequenze osservate e quelle attese in una o più categorie.

È uno degli strumenti più utilizzati per testare l'ipotesi di indipendenza o di adattamento.

Ti svelo le situazioni più comuni in cui il test del chi quadrato trova applicazione.

Test di indipendenza

Il test del chi quadrato è comunemente utilizzato in statistica inferenziale per analizzare tabelle di contingenza formate da due variabili categoriche.

Serve per determinare se esiste una relazione di dipendenza in distribuzione tra due variabili qualitative in una popolazione.

Ad esempio, un ricercatore potrebbe usare il test del chi quadrato per determinare se il genere (maschio o femmina) è indipendente dal preferire un certo tipo di cibo (vegetariano, onnivoro).

Test di bontà di adattamento

Questo uso del test del chi quadrato verifica quanto bene una distribuzione osservata di dati si adatti a una distribuzione teorica.

È utile per verificare se un campione proviene da una popolazione con una distribuzione specifica.

Ad esempio, un ricercatore potrebbe voler sapere se il numero di studenti che preferiscono differenti facoltà universitarie segue una distribuzione uniforme.

corsi di statistica

Analisi di frequenza

Il test del chi quadrato è utilizzato anche per confrontare le frequenze osservate di eventi contro le frequenze attese.

In contesti di ricerca di mercato, ad esempio, potrebbe essere usato per determinare se il numero di clienti che scelgono una determinata marca in differenti regioni è distribuito come atteso o se ci sono deviazioni significative.

Condizioni di applicabilità

Il test del chi quadrato richiede che i dati siano in forma numerica e categorica, e che le osservazioni siano indipendenti l'una dall'altra.

Inoltre, è importante che il numero di osservazioni attese in ogni cella della tabella di contingenza sia sufficientemente alto (tipicamente almeno 5) per evitare distorsioni nei risultati.

Limitazioni e considerazioni

Benché il test del chi quadrato sia molto versatile, ha delle limitazioni.

Non dovrebbe essere usato se le frequenze attese in una cella della tabella di contingenza sono troppo basse (meno di 5), perché potrebbe portare a conclusioni errate.

Inoltre, il test non fornisce informazioni dirette sulla natura o sulla forza della relazione, solo sulla sua esistenza o assenza.

Esempio pratico: analisi del comportamento elettorale

Supponiamo che un analista politico voglia esplorare se l'affiliazione politica degli elettori (partito A, B, o C) sia associata alla loro età (18-25, 26-35, 36+ anni).

Utilizzando il test del chi quadrato, l'analista può guardare i dati raccolti da un sondaggio per vedere se le preferenze di voto sono distribuite in modo indipendente dall'età degli elettori o se ci sono tendenze specifiche legate all'età nei comportamenti di voto.

La statistica inferenziale, detta anche inferenza statistica o statistica induttiva, è quel processo di trasferimento delle caratteristiche di un campione alla totalità della popolazione , mediante un esperimento casuale. Si può dire che si tratta di un passaggio che trasla in un'ottica generale dei dati che si riferiscono ad un aspetto specifico, difatti inferenziale significa "Attinente a prove deducibili o generalizzazioni di dati parziali".

Ma quando si mette in pratica la statistica inferenziale, e per quali motivi?

Partiamo facendo una precisazione che può sembrare banale: analizzare i dati di un’intera popolazione è quasi impossibile per via dei tempi e dei costi che questa operazione richiederebbe, ed è per questo che si fa riferimento allo studio dei campioni.

corso statistica

Esempio di statistica inferenziale

Come potrai immaginare, in realtà applichi inconsapevolmente la statistica inferenziale ogni giorno. Infatti, prendere in considerazione una parte e considerarla esemplificativa di un tutto è un tipico modo di approcciarsi ad alcune situazioni, come per esempio l'acquisto online di un prodotto.
Prova a pensarci: decidi di acquistare delle scarpe su un sito, e ne trovi un paio che ti piacciono moltissimo. Ovviamente, non puoi sapere la taglia esatta prima di comprarle, perchè non puoi provarle, però a casa ne hai già altre della stessa marca. Ecco, fare inferenza significa pensare che, visto che appartengono allo stesso brand, le taglie delle due scarpe saranno uguali, e quindi potrai sceglierla sulla base di quelle che già possiedi.

L'analisi dei dati nella statistica inferenziale

Come puoi immaginare, il processo di statistica inferenziale non può essere considerato completamente esatto, proprio perchè non si basa su dati certi, quindi avrà sempre una marginalità di errore.
Come si effettua allora, in questo caso, l'analisi dei dati? Questo argomento è abbastanza ampio, e quindi te ne parlerò in altri articoli dedicati specificatamente ad esso. Un consiglio che posso darti, però, è tenere sempre bene a mente la rappresentatività del campione che hai utilizzato, perchè ti aiuterà a capire entro quali limiti la tua statistica inferenziale può essere considerata esemplificativa.

Le altre tecniche statistiche

All’interno della statistica inferenziale esistono diverse tecniche: di seguito te ne mostro solo alcune, ricordandoti che di connessione, anova a una via e regressione semplice te ne parlo in modo approfondito anche nel mio video corso di SPSS.

Ancova

È la combinazione dell’analisi della regressione con l’analisi della varianza. Si mette in relazione un carattere quantitativo che dipenderà da uno qualitativo, come nel caso dell’anova, ma si introduce anche una variabile quantitativa come nella regressione.

Esempio dell'Ancova

Se stai studiando l'efficacia di due farmaci che facciano diminuire il colesterolo nel sangue ti è utile nel disegno di ricerca inserire anche la variabile età. Infatti, l'effetto dei farmaci potrebbe essere covariato dalla presenza all’interno dei singoli gruppi di persone con età differente.

Anova a misure ripetute

Si usa quando voglio misurare una variabile quantitativa nel tempo e vedere se il suo valore cambia. É un'evoluzione del t-test a campioni dipendenti (o accoppiati) che si usa quando si hanno solo due rilevazioni temporali.

Esempio dell'Anova a misure ripetute

Un esempio potrebbe essere valutare l’aggressività di un gruppo di persone durante un trattamento psicologico. Per stabilire la significatività del test guardi sempre il p-value e per osservare bene le differenze del tempo puoi usare un grafico a linee, che ti mostra la crescita o la decrescita dell’aggressività.

Anova mista

Come dice il nome stesso è un mix tra un’anova e un’anova a misure ripetute. Qui si vuole vedere come cambiano gli effetti medi nel tempo di un fenomeno quantitativo suddiviso per le categorie di un carattere qualitativo.

Esempio dell'Anova mista

Supponi che un dentista sia interessato a vedere la perdita ossea del paziente dopo un intervento. Suddividerà quindi i pazienti in due gruppi in base a due differenti impianti di utilizzo, e le rilevazioni verranno fatte annualmente per un periodo di 5 anni.

L'interesse sarà non solo nel vedere la differenza di perdita ossea tra i due gruppi, ma anche tra un anno e l'altro.

Regressione lineare multipla

Tutte le variabili devono essere di tipo quantitativo oppure dummy. Le variabili dummy sono quelle codificate con 0 e 1 dove l’uno rappresenta la presenza di una caratteristica.

La regressione prevede una variabile quantitativa che dipende da più di una variabile qualitativa o dummy.

Esempio della regressione lineare multipla

Immagina un modello nel quale il fatturato dell'azienda possa dipendere dalle spese in ricerca e sviluppo che tale azienda sostiene, dagli investimenti in pubblicità e dall’ottimizzazione dei costi di produzione.

Ogni variabile ha un proprio coefficiente che, se risulta significativo, informa sul fatto che il carattere indipendente influisce su quello dipendente.

Come puoi vedere, la statistica inferenziale è un argomento molto vasto, che può essere approcciato attraverso differenti tecniche statistiche. In questo articolo ho voluto illustrartene due in modo più dettagliato e darti una panoramica delle altre, ma c'è ovviamente molto altro da dire per poter conoscere a fondo la materia.
Per questo motivo, ho deciso di creare un videocorso dedicato alla statistica inferenziale, dove ti spiego in modo chiaro ed efficace tutto ciò che ti serve sapere su di essa.

corsi di statistica

Riassumendo

La statistica inferenziale è un processo di trasferimento delle caratteristiche di un campione alla totalità della popolazione
Questo tipo di statistica si utilizza per ottenere un risultato generalizzato partendo da un campione di analisi ridotto
L'approccio frequentista effettua questo processo stabilendo una probabilità a priori che verrà impiegata nei calcoli successivi
L'approccio bayesiano invece effettua questo processo stabilendo una probabilità a posteriori e conferendo una probabilità di verità direttamente ad un intervallo

Se si raccolgono abbastanza dati, qualsiasi cosa può essere dimostrata con metodi statistici.

Legge di Williams e Holland

Iscriviti alla Newsletter

Se hai bisogno d’informazioni che non hai trovato nella sezione servizi o dei video corsi, scrivimi un messaggio o chiamami.
Domande, prezzi, richieste, delucidazioni...tutto quello che ti serve. Cercherò di risponderti entro le 24h.