Il test del Chi-quadrato di indipendenza è un test non parametrico che si effettua con lo scopo di verificare se esiste associazione, o dipendenza, tra due variabili categoriche.
Il sistema d’ipotesi del test è il seguente:
Partiamo però facendo una precisazione, e vedendo qual è la differenza tra caratteri dipendenti e indipendenti in distribuzione.
Molto semplicemente, indipendenti in distribuzione significa che, al cambiare della categoria di un primo fenomeno, indipendentemente dalla modalità selezionata, il secondo fenomeno avrà comunque la stessa distribuzione percentuale.
Facciamo un esempio pratico, osservando due gruppi, uno formato da 10 persone che abitano in città e uno da 10 persone che abitano in campagna. Se alla domanda "Usi la macchina tutti i giorni della settimana?" sia il gruppo 1 (i cittadini) che il gruppo 2 (i campagnoli) hanno risposto al 60% con "sì" e al 40% con "no", allora si diranno totalmente indipendenti in distribuzione.
Vediamo ora il contrario, cioè due caratteri totalmente dipendenti in distribuzione.
Prendendo ancora lo stesso esempio, immaginiamo che, questa volta, quelli che abitano in città abbiano risposto al 100% con "no" e allo 0% con "sì", e viceversa quelli che abitano in campagna, 0% "no" e 100% "sì". Diremo quindi che i due fenomeni saranno in totale dipendenza in distribuzione.
Per comprendere meglio i caratteri dipendenti e indipendenti in distribuzione, ma anche il significato dell'indice Chi Quadrato, ti metto a disposizione un'altra lezione gratuita nel quale ti spiego le distribuzioni condizionate per riga (o per colonna) che concettualmente servono per l'interpretazione del risultato.
Per condurre il test devi disporre le due variabili qualitative su una tabella di contingenza chiamata anche cross-tabulation, crosstab oppure two-way table, in cui nelle righe metti le modalità della Variabile 1, mentre nelle colonne quelle della Variabile 2.
In tal modo ogni cella della tabella riporta il numero di osservazioni (frequenze osservate congiunte) per una specifica coppia di modalità. Un esempio di tabella di contingenza con i risultati del test è mostrato qui sotto:
Ho precedentemente spiegato il procedimento del calcolo del Chi-quadrato in questo articolo: se non conosci la procedura di calcolo ti invito a leggerlo perché quel valore si riferisce al test che devi valutare, ed è quindi il punto di partenza che devi avere ben presente.
Tale statistica è una variabile con distribuzione Chi-quadro con (r-1) * (c-1) gradi di libertà, dove r e c sono rispettivamente il numero di righe e di colonne della tabella di contingenza, ossia, il numero di modalità della prima variabile e il numero di modalità della seconda variabile.
Ricorda che la statistica-test non assume mai valori negativi, e per capire se accettare o rifiutare l’ipotesi nulla di partenza dovrai confrontare questo valore con il valore teorico che trovi sulle tavole della distribuzione chi-quadrato.
Alternativamente al confronto tra test e valore critico, puoi procedere al confronto tra il p-value e il livello di significatività alfa.
Il p-value, o valore p, è la probabilità di ottenere uno specifico insieme di osservazioni nel caso in cui l’ipotesi nulla fosse vera. Questo numero viene calcolato a partire da un test statistico basato appunto sui risultati osservati.
Vediamo ora quali problemi potresti incontrare quando effettui il test del Chi-quadrato.
I risultati del test del Chi-quadrato d'indipendenza non sono attendibili quando nella tabella di contingenza delle frequenze attese (o teoriche) compaiono celle con frequenza minore o uguale a 5. Se si presenta tale situazione puoi rimediare in due modi:
Un altro limite del test si ha quando le frequenze osservate sono molto grandi. Per capire meglio la questione ti riporto qui di seguito un esempio.
Riprendendo la tabella iniziale, i risultati erano i seguenti:
Se per assurdo dovessi dividere tutte le celle presenti per 100, ti ritroveresti ad avere le stesse proporzioni, solo con un campione che è un decimo del precedente. A questo punto ricalcola il test del Chi-Quadrato con il relativo p-value. Cosa noti?
Noti che il valore del chi-quadro è uguale a quello di prima diviso 100, ma il p-value (0,136) non è significativo dato che supera la soglia alfa del 0,05.
La situazione analizzata nei due casi è la stessa, infatti, avendo diviso per 100 tutti i valori, ciascuna cella mantiene la stessa distribuzione parziale rispetto al proprio totale di riga o di colonna.
Quindi il secondo test non può essere considerato significativo nonostante le distribuzioni condizionate siano identiche.
Questo argomento si lega a doppio filo con un altro, cioè quello dell'indice V di Cramer.
La V di Cramer è uno degli indici utilizzati per mostrare l'intensità del grado di connessione tra due caratteri qualitativi, ed è proprio questa sua caratteristica che la collega al test del Chi-quadrato.
Il test, infatti, come abbiamo sottolineato all'inizio dell'articolo si limita a verificare se esiste associazione, o dipendenza, tra due variabili, ma non calcola quanto è intensa questa connessione, che è proprio lo scopo, invece, di questo indice.
La V di Cramer avrà un valore che si trova tra 0, che indica l'indipendenza statistica (non esiste connessione) a 1, che viene definita totale dipendenza in distribuzione.
In statistica ci sono numerosi indici di connessione, alcuni dei quali non si basano sull'indice del Chi-quadrato, come per esempio l'indice di Mortara (M). Qui di seguito ti elenco altri indici nella cui formula è presente il Chi-quadro:
Infine, se ancora non sei certo di avere capito questo argomento in modo esaustivo, nel video iniziale puoi trovare il test del Chi-quadro spiegato semplice attraverso una metafora!
Inoltre, se vuoi vedere un esempio caratteristico di una tabella a doppia entrata, guarda questo mio video tratto dal mio videocorso di statistica bivariata.
TEST.CHI.QUAD (Int_effettivo;Int_previsto)
N.B. viene restituito il p-value calcolato sul valore del chi-quadro che però non viene mostrato
Analizza >>> Statistiche descrittive >>> Tabelle di contingenza
Se il denaro è la tua speranza per l'indipendenza, non ne avrai mai. La sola vera sicurezza che un uomo può avere a questo mondo è una scorta di conoscenza, esperienza e capacità.
(Henry Ford)