whatsapp
Adriano Gilardone
Adriano Gilardone
adriano gilardone Docente di Statistica Matematica Excel Spss sfruttare excel consulenze statistiche lezione videocorsi
blog

blog

Test del Chi quadro

YouTube video
Postato il 25 Ottobre 2021
Tag

A cosa serve il test del Chi quadro

Il test del Chi quadro è una tecnica statistica utilizzata per valutare se esiste una differenza significativa tra le frequenze osservate in un campione e le frequenze attese sotto una specifica ipotesi. In altre parole, verifica se le differenze tra i dati osservati e i dati teorici sono dovute al caso o se c'è un'effettiva discrepanza.

Ma le frequenze attese, o teoriche, a cosa si riferiscono? Riguardano la situazione di indipendenza statistica, o stocastica, che si ha quando un fenomeno è indipendente da un altro, quindi non c'è una relazione, o associazione.

Quando si usa il test del Chi quadro

Il test del Chi quadro è principalmente usato in due occasioni:

Test d'indipendenza: Serve per verificare se due variabili categoriali sono indipendenti.

Ad esempio, puoi valutare se l'incidenza del tumore al polmone (Tumore = SI , Tumore = NO) è collegata all'essere fumatore (Fumatore = SI , Fumatore = NO)

Test d'adattamento: Serve per confrontare la distribuzione osservata con una distribuzione teorica. A volte questo test prende il nome di Test di Pizzetti o Test di Pizzetti-Pearson, dal nome di Paolo Pizzetti a cui si riconosce un contributo.

Ad esempio, puoi valutare se l'uscita di un numero alla roulette è casuale, e quindi segue una distribuzione uniforme, o invece non lo è e la roulette è stata manipolata.

Il sistema di ipotesi

Il test del Chi quadro di indipendenza è un test non parametrico che si effettua con lo scopo di verificare se esiste associazione, o dipendenza, tra due variabili categoriche.

Il sistema d’ipotesi del test è il seguente:

  • H0 (ipotesi nulla): La Variabile 1 è indipendente dalla Variabile 2
  • H1 (ipotesi alternativa): La Variabile 1 non è indipendente dalla Variabile 2
corso statistica

Caratteri dipendenti e indipendenti in distribuzione

Partiamo facendo una precisazione, e vediamo qual è la differenza tra fenomeni dipendenti e indipendenti in distribuzione.

Molto semplicemente, indipendenti in distribuzione significa che, al cambiare della categoria di un primo fenomeno, indipendentemente dalla modalità selezionata, il secondo fenomeno avrà comunque la stessa distribuzione percentuale.

Facciamo un esempio pratico, osservando due gruppi, uno formato da 10 persone che abitano in città e uno da 10 persone che abitano in campagna.

Se alla domanda "Usi la macchina tutti i giorni della settimana?" sia il gruppo 1 (i cittadini), sia il gruppo 2 (i campagnoli), rispondono al 60% con "sì" e al 40% con "no", allora si diranno totalmente indipendenti in distribuzione.

Viceversa, se alla domanda "Usi la macchina tutti i giorni della settimana?" il gruppo 1 (i cittadini) risponde con un 100% si, mentre il gruppo 2 (i campagnoli), risponde con un 100% no, allora si diranno totalmente dipendenti in distribuzione.

Per comprendere meglio i caratteri dipendenti e indipendenti in distribuzione, ma anche il significato dell'indice Chi quadro, ti metto a disposizione un'altra lezione gratuita nel quale ti spiego le distribuzioni condizionate per riga (o per colonna) che concettualmente servono per l'interpretazione del risultato.

YouTube video
Dipendenza in distribuzione tratto dai video corsi di statistica

I dati e la tabella di contingenza

Per condurre il test devi disporre le due variabili qualitative su una tabella di contingenza chiamata anche cross-tabulation, crosstab oppure two-way table, in cui nelle righe metti le modalità della Variabile 1, mentre nelle colonne quelle della Variabile 2. 

In tal modo ogni cella della tabella riporta il numero di osservazioni (frequenze osservate congiunte) per una specifica coppia di modalità. Un esempio di tabella di contingenza con i risultati del test è mostrato qui sotto:

test chi quadro
Tabella di contingenza

Come interpretare il test del Chi quadro

Formula del Chi quadro

Ho precedentemente spiegato il procedimento del calcolo del Chi quadrato; se non conosci la procedura di calcolo ti invito a leggerlo perché quel valore si riferisce al test che devi valutare, ed è quindi il punto di partenza che devi avere ben presente. Ti scrivi comunque la formula per il calcolo del Chi quadro:

Chi quadro

Interpretazione Chi quadro

Tale statistica è una variabile con distribuzione Chi-quadro con (r-1) * (c-1) gradi di libertà, dove r e c sono rispettivamente il numero di righe e di colonne della tabella di contingenza, ossia, il numero di modalità della prima variabile e il numero di modalità della seconda variabile.

Ricorda che la statistica-test non assume mai valori negativi, e per capire se accettare o rifiutare l’ipotesi nulla di partenza dovrai confrontare questo valore con il valore teorico che trovi sulle tavole della distribuzione Chi quadro.

Quali valori può assumere il Chi quadro

Il valore del chi quadro (χ2) può variare da zero a infinito. Un valore di zero indica che non vi è alcuna differenza tra le frequenze osservate e quelle attese, suggerendo che le variabili sono indipendenti tra loro. 

Valori più alti di χ2 indicano una maggiore discrepanza tra le frequenze osservate e attese, suggerendo che potrebbe esserci una relazione tra le variabili.

È importante notare che il valore di χ2 non ha un limite superiore e può diventare molto grande se le differenze tra le frequenze osservate e attese sono significative. Tuttavia, per interpretare correttamente il valore di χ2, è necessario confrontarlo con un valore critico in una tavola del chi quadro, che dipende dai gradi di libertà e dal livello di significatività scelto per il test.

In sintesi, il valore del chi quadro fornisce un'indicazione quantitativa della relazione tra le variabili e, confrontato con i valori critici appropriati, aiuta a determinare se le differenze osservate sono statisticamente significative.

Lettura della tavola del Chi quadro

tavola chi quadro
Tavola Chi quadro
  • Scegli un valore prefissato alfa che nella tavola si trova sulle colonne. (esempio: alfa = 0,05)
  • Calcola i gradi di libertà facendo (r-1) * (c-1) che nella tavola si trovano sulle righe (gdl = 1 * 1 = 1)
  • Incrocia i due valori e all’interno della tavola troverai il valore teorico da confrontare con la statistica-test. (Chi quadro teorico = 3,84)

Esito del test del Chi quadro con la tavola

  • Se il test è maggiore del valore teorico, allora rifiuti H0 affermando che le due variabili possono essere considerate dipendenti a livello = 0.05
  • Se il test è minore del valore teorico, allora non rifiuti H0 e asserisci che non è possibile concludere che le due variabili siano dipendenti.à
analisi dati tesi

Esito del test del Chi quadro con il p-value

Alternativamente al confronto tra test e valore critico, puoi procedere al confronto tra  il p-value e il livello di significatività alfa.

Il p-value, o valore p, è la probabilità di ottenere uno specifico insieme di osservazioni nel caso in cui l’ipotesi nulla fosse vera. Questo numero viene calcolato a partire da un test statistico basato appunto sui risultati osservati.

  • Se il p-value è minore del livello di significatività prefissato, allora rifiuti H0 affermando che le due variabili possono essere considerate dipendenti a livello = 0.05
  • Se il p-value è maggiore del livello di significatività prefissato, allora non rifiuti H0 e asserisci che non è possibile concludere che le due variabili siano dipendenti.
YouTube video
P-value spiegato semplice con una metafora

Problemi con il test del Chi quadro

Vediamo ora quali problemi potresti incontrare quando effettui il test del Chi quadro.

Poche frequenze

I risultati del test del Chi quadro d'indipendenza non sono attendibili quando nella tabella di contingenza delle frequenze attese (o teoriche) compaiono celle con frequenza minore o uguale a 5. Se si presenta tale situazione puoi rimediare in due modi:

  1. Ingrandendo il campione delle osservazioni.
  2. Accorpare due o più categorie in una nuova categoria in modo da ottenere una frequenza assoluta maggiore.

Troppe frequenze

Un altro limite del test si ha quando le frequenze osservate sono molto grandi. Per capire meglio la questione ti riporto qui di seguito un esempio.

Riprendendo la tabella iniziale, i risultati erano i seguenti:

Chi quadro

Se per assurdo dovessi dividere tutte le celle presenti per 100, ti ritroveresti ad avere le stesse proporzioni, solo con un campione che è un centesimo del precedente. A questo punto ricalcola il test del Chi quadro con il relativo p-value. Cosa noti?

Chi quadro

Noti che il valore del chi quadro è uguale a quello di prima diviso 100, ma il p-value (0,136) non è significativo dato che supera la soglia alfa del 0,05.

La situazione analizzata nei due casi è la stessa, infatti, avendo diviso per 100 tutti i valori, ciascuna cella mantiene la stessa distribuzione parziale rispetto al proprio totale di riga o di colonna.

Quindi il secondo test non può essere considerato significativo nonostante le distribuzioni condizionate siano identiche. 

La V di Cramer

Questo argomento si lega a doppio filo con un altro, cioè quello dell'indice V di Cramer.

La V di Cramer è uno degli indici utilizzati per mostrare l'intensità del grado di connessione tra due caratteri qualitativi, ed è proprio questa sua caratteristica che la collega al test del Chi quadro.

In statistica una volta trovato il p-value devi sempre associare un altro indice che definisce la grandezza dell'effetto che in inglese si chiama Effect Size.

Il test, infatti, come abbiamo sottolineato all'inizio dell'articolo si limita a verificare se esiste associazione, o dipendenza, tra due variabili, ma non calcola quanto è intensa questa connessione, che è proprio lo scopo, invece, di questo indice.

La V di Cramer avrà un valore che si trova tra 0, che indica l'indipendenza statistica (non esiste connessione) a 1, che viene definita totale dipendenza in distribuzione.

corsi statistica

Altri indici di connessione

In statistica ci sono numerosi indici di connessione, alcuni dei quali non si basano sull'indice del Chi quadro, come per esempio l'indice di Mortara (M). Qui di seguito ti elenco altri indici nella cui formula è presente il Chi-quadro:

  • Indice di contingenza quadratica media2)
  • Indice Phi, media quadratica delle contingenze (Φ)
  • Indice di Tschuprow (T)
  • Indice Chi quadro di Pearson normalizzato2N)

Infine, se ancora non sei certo di avere capito questo argomento in modo esaustivo, nel video iniziale puoi trovare il test del Chi quadro spiegato semplice attraverso una metafora!

Inoltre, se vuoi vedere un esempio caratteristico di una tabella a doppia entrata, guarda questo mio video tratto dal mio videocorso di statistica bivariata.

Quando usare il Chi quadro e quando t-Student?

Spesso i miei studenti mi pongono questa domanda. La verità è che il test del Chi quadro e il test t di Student sono entrambi utilizzati per verificare ipotesi, ma si applicano a situazioni diverse e rispondono a domande di ricerca differenti. Ecco una guida per capire quando utilizzare ciascuno di questi test.

Test del Chi quadro

Il test del Chi quadro viene utilizzato principalmente per analizzare dati categoriali e per verificare l'indipendenza o l'associazione tra due variabili categoriali.

Quando usarlo

  • Dati categoriali: quando le tue variabili sono categoriali, come ad esempio il sesso (maschio/femmina), il risultato di un test (positivo/negativo), o le preferenze di prodotto (A/B/C).
  • Verificare la dipendenza in distribuzione: quando vuoi verificare se c'è un'associazione tra due variabili categoriali in una tabella di contingenza. Ad esempio, se vuoi sapere se c'è una relazione tra il genere e la preferenza per un tipo di servizio.

Test t di Student

Il test t di Student è utilizzato per confrontare le medie di due gruppi e vedere se sono significativamente differenti tra loro. Esistono diverse varianti del test t di Student, tra cui il test t per campioni indipendenti, il test t per campioni appaiati e il test t per un campione.

Quando usarlo

  • Dati numerici: quando la variabile dipendente è quantitiva come altezza, peso, tempo o punteggi di test.
  • Confrontare due medie: quando vuoi confrontare la media di due gruppi indipendenti (test t per campioni indipendenti) o la media dello stesso gruppo in due momenti diversi o sotto due condizioni diverse (test t per campioni appaiati).
  • Verificare l'ipotesi su una media: quando vuoi testare se la media di un campione differisce da un valore noto o atteso (test t per un campione).

Test del Chi quadro EXCEL

TEST.CHI.QUAD (Int_effettivo;Int_previsto)
N.B. viene restituito il p-value calcolato sul valore del Chi quadro che però non viene mostrato

Test del Chi quadro SPSS

Analizza >>> Statistiche descrittive >>> Tabelle di contingenza

YouTube video
Intro test del Chi quadro corso SPSS

Riassumendo

  • Il test del Chi quadro è un test non parametrico utilizzato per verificare se c’è indipendenza tra due caratteri qualitativi (fenomeni nominali o ordinali)
  • Le frequenze attese di ogni cella devono essere maggiori o uguali a 5
  • La numerosità totale della tabella non deve essere eccessivamente grande
  • La statistica-test assume sempre valori maggiori o uguali a 0. Più è grande e più ci sarà associazione tra le due variabili. Più si avvicina a 0 e più si va verso la situazione di indipendenza stocastica

Se il denaro è la tua speranza per l'indipendenza, non ne avrai mai. La sola vera sicurezza che un uomo può avere a questo mondo è una scorta di conoscenza, esperienza e capacità.

(Henry Ford)

Iscriviti alla Newsletter

Se hai bisogno d’informazioni che non hai trovato nella sezione servizi o dei video corsi, scrivimi un messaggio o chiamami.
Domande, prezzi, richieste, delucidazioni...tutto quello che ti serve. Cercherò di risponderti entro le 24h.
Newsletter

Consenso al trattamento dei dati
Utilizzerò i tuoi dati (nome ed indirizzo mail) solo per inviarti gratuitamente via mail la newsletter mensile. Niente spam, niente scocciature, ti disiscrivi in un click quando vuoi.

arrow-up-circle
error: Content is protected !!
linkedin facebook pinterest youtube rss twitter instagram facebook-blank rss-blank linkedin-blank pinterest youtube twitter instagram