blog
Se qualche volta nella vita hai avuto a che fare con la statistica, probabilmente ti sarai imbattuto nel Chi quadrato di Pearson.
Il suo utilizzo è vastissimo e anche se di per sé il numero che trovi è poco commentabile, l’uso all’interno di alcune tecniche statistiche, aiuta il ricercatore a prendere decisioni importanti.
Cercherò di farti capire come si calcola e ti illustrerò il significato del perché si usano determinate formule.
Successivamente, in altri articoli, entrerò nel dettaglio delle tecniche per mostrare il funzionamento del Test del Chi quadro, o Test del Chi quadrato, per il momento è importante che tu conosca la differenza tra caratteri indipendenti e dipendenti in distribuzione e gli scopi per i quale si utilizza il Chi quadrato.
Il motivo per il quale il Chi quadrato è molto utilizzato risiede nel fatto che si vuole individuare l'indipendenza in distribuzione, o meglio si spera di trovare una dipendenza in distribuzione.
Innanzitutto devi sapere che hai bisogno di due caratteri qualitativi, cioè le cui modalità siano delle categorie, nominali o ordinali non ha importanza.
Se la distribuzione di frequenza di un fenomeno cambia al cambiare delle modalità dell'altro, allora avrai una dipendenza in distribuzione, da non confondere con la dipendenza in media che riguarda l'argomento dell'Anova.
In questo articolo voglio che ti concentri di più sul calcolo vero e proprio del Chi quadrato che ti servirá per gli esercizi di un esame universitario.
Nell'articolo sul Test del Chi quadro invece approfondisco questo aspetto. Per il momento guardati una delle mie lezioni gratuite sulle distribuzioni condizionate per riga (o per colonna).
Quando hai a disposizione una tabella a doppia entrata, è interessante capire se esiste un legame tra le due variabili. Entrambi i caratteri devono essere necessariamente qualitativi o, nel caso fossero quantitativi, almeno categorizzati.
L’obiettivo è quello di confrontare le distribuzioni percentuali per riga (o per colonna) per vedere se ogni modalità di un fenomeno si associa ad una particolare modalità dell’altro fenomeno.
Le distribuzioni percentuali le ottiene dividendo ogni valore all'interno della tabella per il suo totale di riga (o di colonna).
Il Chi quadrato ti dirà se le due variabili sono indipendenti in distribuzione o, come si suol dire, stocasticamente indipendenti.
In questa situazione dovrai eseguire il test d’indipendenza del Chi quadrato e se risulterà significativo, cioè se il suo valore sarà effettivamente diverso da zero, potrai dire che un fattore dipende dall'altro affermando che esiste una connessione.
Oltre al menzionato test, il suo valore viene inserito in molteplici indici che ti misurano l'effect size cioè quanto è intensa la relazione tra le due variabili.
Uno dei più famosi indici che misura l'effect size è l'indice V di Cramer, che ti spiego in modo semplice in questo video, utilizzando una metafora statistica.
A volte l’interesse è posto non tanto sulla stima di un parametro, ma sulla distribuzione della variabile stessa.
Per distribuzione si intende una semplice tabella con modalità e frequenze associate. Rappresentata graficamente può esserti utile per individuare la forma della curva.
Le distribuzioni ovviamente sono tantissime ma è giusto ricordarne alcune come per esempio la normale gaussiana, la binomiale, l’esponenziale, la pareto, la beta, ecc…
In questo approccio, al contrario di prima, speri che il Chi quadrato si avvicini a zero perché significherebbe che hai individuato la forma corretta della distribuzione.
Per fare questo devi eseguire il test d’adattamento del Chi quadrato a volte chiamato anche test di Pizzetti-Pearson.
Ora che hai chiaro il campo in cui stiamo ragionando, è di fondamentale importanza come viene calcolato il Chi quadrato di Pearson i cui passaggi poi, ti risulteranno logici per lo scopo finale.
nij = frequenze assolute congiunte
nij* = frequenze teoriche o attese
cij = contingenze
ni. = frequenze totali di riga
n.j = frequenze totali di colonna
Sono le frequenze di partenza, quello che osservi dal tuo campione e che vai a rappresentare in una tabella a doppia entrata. Se non sai cos'è, ti metto a disposizione una mia lezione tratta dal video corso sulla statistica bivariata nella quale ti spiego simbologia e significato.
nij* = (ni. * n.j) / N
Per ogni cella della tabella devi moltiplicare il rispettivo totale di riga per il totale di colonna e dividerlo per N che il totale della tabella.
Se la tabella iniziale fosse per esempio una 3x2, quindi con 6 celle, tu dovrai ottenere altrettante frequenze teoriche.
Queste frequenze vengono anche dette di indipendenza statistica perché se fossero uguali alle frequenze di partenza, allora ti ritroveresti proprio nella situazione d’indipendenza in distribuzione.
cij = nij - nij*
Fai la differenza tra le frequenze osservate (nij) e le frequenze teoriche (nij*). Anche qui esegui tante differenze quante sono le caselle di partenza.
X2 = (cij)2 / nij*
Per ogni casella calcola le contingenze al quadrato diviso le teoriche. Una volta completata la tabella, somma i valori. Il totale sarà proprio il Chi-Quadrato.
Questa formula del Chi quadrato che ti ho appena spiegato non è l'unica esistente, si può calcolare anche con un'altra formula nella quale si prendono in considerazione le frequenze relative congiunte (fij2), le frequenze relative di riga (fi.) e le frequenze relative di colonna (f.j)
Supponiamo di voler capire se c'è o meno differenza dello sport praticato tra maschi e femmine.
Tabella dei dati osservati:
\[
\begin{array}{|c|c|c|c|c|}
\hline
& \textbf{Calcio} & \textbf{Basket} & \textbf{Volley} & \textbf{Totale} \\
\hline
\textbf{Maschi} & 54 & 30 & 16 & 100 \\
\textbf{Femmine} & 26 & 60 & 114 & 200 \\
\hline
\textbf{Totale} & 80 & 90 & 130 & 300 \\
\hline
\end{array}
\]
Calcolo delle frequenze attese:
\[
\begin{align*}
E_{11} &= \frac{100 \times 80}{300} = 26.67 \\
E_{12} &= \frac{100 \times 90}{300} = 30 \\
E_{13} &= \frac{100 \times 130}{300} = 43.33 \\
E_{21} &= \frac{200 \times 80}{300} = 53.33 \\
E_{22} &= \frac{200 \times 90}{300} = 60 \\
E_{23} &= \frac{200 \times 130}{300} = 86.67 \\
\end{align*}
\]
Calcolo del Chi quadro:
\[
\begin{align*}
\chi^2 &= \sum \frac{(O_{ij} - E_{ij})^2}{E_{ij}} \\
&= \frac{(54 - 26.67)^2}{26.67} + \frac{(30 - 30)^2}{30} + \frac{(16 - 43.33)^2}{43.33} \\
&+ \frac{(26 - 53.33)^2}{53.33} + \frac{(60 - 60)^2}{60} + \frac{(114 - 86.67)^2}{86.67}
\end{align*}
\]
Somma dei termini:
\[
\begin{align*}
\frac{(54 - 26.67)^2}{26.67} &= 28.02 \\
\frac{(30 - 30)^2}{30} &= 0 \\
\frac{(16 - 43.33)^2}{43.33} &= 17.26 \\
\frac{(26 - 53.33)^2}{53.33} &= 14.01 \\
\frac{(60 - 60)^2}{60} &= 0 \\
\frac{(114 - 86.67)^2}{86.67} &= 8.63 \\
\end{align*}
\]
Conclusione:
\[
\chi^2 = 67.92
\]
Arrivati a questo punto però l'esercizio dovrebbe continuare con il test del chi-quadro o con un indice di connessione come la V di Cramer. Ti rimando quindi agli articoli specifici per comprenderne meglio il significato.
Come già detto rimando ad altri articoli la spiegazione delle tecniche vere e proprie, ma quello su cui voglio farti ragionare ora è il perché di tutti questi calcoli per ottenere il valore finale.
La ragione risiede nel confrontare una situazione reale con una teorica. Il calcolo delle frequenze attese non è di facile intuizione, ma è una regola matematica per la quale si ottengono numeri casuali in una tabella a doppia entrata.
Se le due tabelle sono identiche, o per lo meno simili, allora non può sussistere una relazione tra i due fenomeni perché risultano avere numeri inseriti a caso.
TEST.CHI.QUAD (int_effettivo;int_previsto).
N.B. viene restituito il p-value calcolato sul valore del Chi quadrato che però non viene mostrato
Analizza >>> Statistiche descrittive >>> Tabelle di contingenza
Di posti dove studiare statistica ce n'erano pochi e nessuno aveva un dottorato. Mi iscrissi quindi a matematica alla Columbia University, ma capii presto che i matematici non consideravano la statistica una cosa seria. Il mio professore mi convinse a passare al dottorato in economia. I suoi corsi di statistica erano meravigliosi e incominciai a percepire che c'erano molti problemi in economia per i quali la matematica e la statistica sarebbero state utili.
(KENNETH ARROW - Economista statunitense, Nobel per l’economia nel 1972)
Iscriviti alla Newsletter