Se qualche volta nella vita hai avuto a che fare con la statistica, probabilmente ti sarai imbattuto nel Chi Quadro di Pearson.
Il suo utilizzo è vastissimo e anche se di per sé il numero che trovi è poco commentabile, l’uso all’interno di alcune tecniche statistiche, aiuta il ricercatore a prendere decisioni importanti.
Cercherò di farti capire come si calcola e ti illustrerò il significato del perché si usano determinate formule.
Successivamente, in altri articoli, entrerò nel dettaglio delle tecniche per mostrare il funzionamento dell’indice del Chi Quadro, detto anche indice del Chi Quadrato, per il momento è importante che tu conosca la differenza tra caratteri indipendenti e dipendenti in distribuzione e gli scopi per i quale si utilizza il Chi Quadro.
Partiamo però facendo una precisazione, e vedendo qual è la differenza tra caratteri dipendenti e indipendenti in distribuzione.
Molto semplicemente, indipendenti in distribuzione significa che, al cambiare della categoria di un primo fenomeno, indipendentemente dalla modalità selezionata, il secondo avrà comunque la stessa distribuzione percentuale.
Facciamo un esempio pratico, osservando due gruppi, uno formato da 10 persone che abitano in città e uno da 10 persone che abitano in campagna. Se alla domanda "Usi la macchina tutti i giorni della settimana?" sia il gruppo 1 (i cittadini) che il gruppo 2 (i campagnoli) hanno risposto al 60% con "sì" e al 40% con "no", allora si diranno totalmente indipendenti in distribuzione.
Vediamo ora il contrario, cioè due caratteri totalmente dipendenti in distribuzione.
Prendendo ancora lo stesso esempio, immaginiamo che, questa volta, quelli che abitano in città abbiano risposto al 100% con "no" e allo 0% con "sì", e viceversa quelli che abitano in campagna, 0% "no" e 100% "sì". Diremo quindi che i due fenomeni saranno in totale dipendenza in distribuzione.
Per comprendere meglio i caratteri dipendenti e indipendenti in distribuzione, ma anche il significato dell'indice Chi Quadrato, ti metto a disposizione un'altra lezione gratuita nel quale ti spiego le distribuzioni condizionate per riga (o per colonna) che concettualmente servono per l'interpretazione del risultato.
Quando hai a disposizione una tabella a doppia entrata, è interessante capire se esiste un legame tra le due variabili. Entrambi i caratteri devono essere necessariamente qualitativi o, nel caso fossero quantitativi, almeno categorizzati.
L’obiettivo è quello di confrontare le distribuzioni percentuali per riga (o per colonna) per vedere se ogni modalità di un fenomeno si associa ad una particolare modalità dell’altro fenomeno.
Le distribuzioni percentuali le ottiene dividendo ogni valore all'interno della tabella per il suo totale di riga (o di colonna).
Il Chi Quadro ti dirà se le due variabili sono indipendenti in distribuzione o, come si suol dire, stocasticamente indipendenti.
In questa situazione dovrai eseguire il test d’indipendenza del Chi-Quadrato e se risulterà significativo, cioè se il suo valore sarà effettivamente diverso da zero, potrai dire che un fattore dipende dall'altro affermando che esiste un’associazione lineare.
Oltre al menzionato test, il suo valore viene inserito in molteplici indici che ti misurano l’effect size ovvero quanto è intensa la relazione tra le due variabili.
Uno dei più famosi indici è la V di Cramer, che ti spiego in modo semplice in questo video, utilizzando una metafora statistica.
A volte l’interesse è posto non tanto sulla stima di un parametro, ma sulla distribuzione della variabile stessa.
Per distribuzione si intende una semplice tabella con modalità e frequenze associate. Rappresentata graficamente può esserti utile per individuare la forma della curva.
Le distribuzioni ovviamente sono tantissime ma è giusto ricordarne alcune come per esempio la normale gaussiana, la binomiale, l’esponenziale, la pareto, la beta, ecc…
In questo approccio, al contrario di prima, speri che il Chi Quadro si avvicini a zero perché significherebbe che hai individuato la forma corretta della distribuzione.
Per fare questo devi eseguire il test d’adattamento del Chi Quadro a volte chiamato anche test di Pizzetti-Pearson.
Ora che hai chiaro il campo in cui stiamo ragionando, è di fondamentale importanza come viene calcolato il Chi Quadro di Pearson i cui passaggi poi, ti risulteranno logici per lo scopo finale.
nij = frequenze assolute congiunte
nij* = frequenze teoriche o attese
cij = contingenze
ni. = frequenze totali di riga
n.j = frequenze totali di colonna
Sono le frequenze di partenza, quello che osservi dal tuo campione e che vai a rappresentare in una tabella a doppia entrata. Se non sai cos'è, ti metto a disposizione una mia lezione tratta dal video corso sulla statistica bivariata nella quale ti spiego simbologia e significato.
nij* = (ni. * n.j) / N
Per ogni cella della tabella devi moltiplicare il rispettivo totale di riga per il totale di colonna e dividerlo per N che il totale della tabella.
Se la tabella iniziale fosse per esempio una 3x2, quindi con 6 celle, tu dovrai ottenere altrettante frequenze teoriche.
Queste frequenze vengono anche dette di indipendenza statistica perché se fossero uguali alle frequenze di partenza, allora ti ritroveresti proprio nella situazione d’indipendenza in distribuzione.
cij = nij - nij*
Fai la differenza tra le frequenze osservate (nij) e le frequenze teoriche (nij*). Anche qui esegui tante differenze quante sono le caselle di partenza.
X2 = (cij)2 / nij*
Per ogni casella calcola le contingenze al quadrato diviso le teoriche. Una volta completata la tabella, somma i valori. Il totale sarà proprio il Chi-Quadrato.
Questa formula del Chi Quadro che ti ho appena spiegato non è l'unica esistente, si può calcolare anche con un'altra formula nella quale si prendono in considerazione le frequenze relative congiunte (fij2), le frequenze relative di riga (fi.) e le frequenze relative di colonna (f.j)
Come già detto rimando ad altri articoli la spiegazione delle tecniche vere e proprie, ma quello su cui voglio farti ragionare ora è il perché di tutti questi calcoli per ottenere il valore finale.
La ragione risiede nel confrontare una situazione reale con una teorica. Il calcolo delle frequenze attese non è di facile intuizione, ma è una regola matematica per la quale si ottengono numeri casuali in una tabella a doppia entrata.
Se le due tabelle sono identiche, o per lo meno simili, allora non può sussistere una relazione tra i due fenomeni perché risultano avere numeri inseriti a caso.
TEST.CHI.QUAD (int_effettivo;int_previsto).
N.B. viene restituito il p-value calcolato sul valore del Chi Quadro che però non viene mostrato
Analizza >>> Statistiche descrittive >>> Tabelle di contingenza
Di posti dove studiare statistica ce n'erano pochi e nessuno aveva un dottorato. Mi iscrissi quindi a matematica alla Columbia University, ma capii presto che i matematici non consideravano la statistica una cosa seria. Il mio professore mi convinse a passare al dottorato in economia. I suoi corsi di statistica erano meravigliosi e incominciai a percepire che c'erano molti problemi in economia per i quali la matematica e la statistica sarebbero state utili.
(KENNETH ARROW - Economista statunitense, Nobel per l’economia nel 1972)