blog
Nell’ambito dello studio sulla dipendenza in distribuzione, cioè la connessione tra due caratteri qualitativi, sono di particolare importanza gli indici che mostrano l’intensità del grado di connessione, e l'indice V di Cramer è uno dei più importanti.
Il riferimento più comune a questi indici è il calcolo del Chi Quadro, che si utilizza poi per calcolare i cosiddetti indici normalizzati.
Partiamo con una prima caratteristica: un indice normalizzato sta tra 0 e 1, che sono sempre le condizioni estreme. In questo caso 0 significa indipendenza statistica, mentre 1 totale dipendenza in distribuzione.
Quello che cerca di fare questa tecnica è di mettere in relazione due caratteri statistici di tipo qualitativo, per vedere se sussiste una relazione. Per farlo ci si avvale di un indice come la V di Cramer.
Se vuoi approfondire la vita del famoso matematico svizzero Gabriel Cramer ti lascio il link ad una pagina molto interessante.
Prima di tutto, facciamo questa distinzione molto importante: quando prendiamo in considerazione la V di Cramer parliamo sempre di dipendenza o indipendenza in distribuzione, non in media.
Vediamo qual è la differenza.
Con dipendenza/indipendenza in distribuzione si prendono in considerazione le diverse distribuzioni percentuali delle differenti modalità che ricordiamo essere delle categorie e non dei numeri.
Con dipendenza/indipendenza in media, invece, si confrontano un carattere quantitavo, quindi formato da numeri, con il quale si calcola appunto una media all'interno di ogni modalità del carattere qualitativo. Questo dato non serve per calcolare l'indice V di Cramer, mentre viene utilizzato quando si deve calcolare l'Anova.
Se vuoi capire meglio il significato dell'ANOVA, ti lascio questo mio video, dove ti parlo della scomposizione della varianza tra gruppi e della varianza nei gruppi.
ipotizziamo due gruppi, uno formato da 100 persone che abitano in città e uno da 100 persone che abitano in campagna.
Se alla domanda "Usi la macchina nei giorni lavorativi?" sia il gruppo 1 (i cittadini), sia il gruppo 2 (i campagnoli), rispondono al 60% con "sì" e al 40% con "no", allora si diranno indipendenti in distribuzione.
Viceversa, se alla domanda "Usi la macchina nei giorni lavorativi?" il gruppo 1 (i cittadini) risponde con un 100% si, mentre il gruppo 2 (i campagnoli), risponde con un 100% no, allora si diranno dipendenti in distribuzione.
Nota bene: 0 e 1 sono due casi limite, anzi, nella realtà quasi mai l'indice V di Cramer si avvicina a 1, al massimo supera lo 0,5.
Per comprendere meglio i caratteri dipendenti e indipendenti in distribuzione, ti metto a disposizione un'altra lezione gratuita nel quale ti spiego le distribuzioni condizionate per riga (o per colonna) che concettualmente servono per l'interpretazione del risultato.
Come abbiamo visto, quindi, questo indice varia da un minimo di 0 ad un massimo di +1. Per questo, è molto facile stabilire se due caratteri sono indipendenti, perchè se risulta 0 sarai in presenza di un'indipendenza assoluta tra i due fenomeni.
Se il numero non è specificatamente 0 non puoi dire di avere un caso di indipendenza, ma se risulta un numero non troppo lontano dallo zero puoi comunque dire che non c’è un legame tra le variabili.
Viceversa, se la V di Cramer è 1 allora avrai la massima connessione tra due caratteri e quindi le frequenze di una modalità di un carattere saranno tutte quante legate ad una sola modalità dell’altro carattere.
Questa cosa non avviene mai nella pratica, ma se il valore tende ad avvicinarsi ad 1 potrai dire che il legame dei fenomeni è molto alto.
Vediamo ora i diversi passaggi per capire come si calcola l'indice V di Cramer.
Vedi l’articolo per i calcoli del Chi Quadro.
Dividi il Chi Quadro per N (numerosità del campione) trovando l’indice di contingenza quadratica media (Phi Quadro).
Fai la radice quadrata del punto precedente trovando l’indice Phi.
Prendi l’indice Phi e dividilo per la radice quadrata del minimo tra il numero di righe -1 e il numero di colonne -1
In questo esercizio riprendo quello che ti ho spiegato nell'articolo sul Test del Chi quadro dove ipotizziamo una relazione tra il fumo e il tumore al polmone.
Calcolo della V di Cramer:
\[
V = \sqrt{\frac{\chi^2}{n \cdot k}}
\]
Dove:
\[
k = \min(r-1, c-1)
\]
Nel nostro caso, la tabella ha \( r = 2 \) righe e \( c = 2 \) colonne, quindi:
\[
k = \min(2-1, 2-1) = \min(1,1) = 1
\]
Ora possiamo calcolare la V di Cramer:
\[
\begin{align*}
\chi^2 &= 222.22, \quad n = 6000, \quad k = 1 \\
V &= \sqrt{\frac{222.22}{6000 \cdot 1}} \\
V &= \sqrt{\frac{222.22}{6000}} \\
V &= \sqrt{0.037} \\
V &\approx 0.192
\end{align*}
\]
Interpretazione:
La V di Cramer assume valori tra 0 e 1, dove:
Nel nostro caso, \( V \approx 0.192 \) indica una associazione debole tra il fumo e i tumori.
Visto che il p-value è inferiore al livello alfa di 0,05, possiamo dire che c'è significatività e quindi una relazione tra le due variabili. Ma quanto è intensa questa connessione? A questa domanda risponde appunto l'indice V di Cramer.
Nell'articolo sul Test del Chi quadro mettevo in evidenza il fatto che se dividi tutte le celle per 100, ti ritrovi con le stesse proporzioni, ma il valore del chi quadro è uguale a quello di prima diviso 100 e il p-value (0,136) non è significativo dato che supera la soglia alfa del 0,05.
Ma per il calcolo della V di Cramer invece il risultato non cambia rimanendo V = 0,192. Questo perchè se osservi la sua formula avrai al numeratore il chi quadro, che viene diviso per 100, e al denominatore N, che viene anch'essa divisa per 100, pertano i due valori si annullano e il risultato finale è uguale al precedente
All'inizio dell'articolo trovi il mio video dove ti spiego la V di Cramer attraverso una metafora semplice, quella della lampadina!
Non esiste un comando specifico
Analizza >>> Statistiche descrittive >>> Tabelle di contingenza
Le statistiche dicono che una donna dà alla luce un bambino ogni quattro secondi. Il nostro problema è trovare quella donna e fermarla.
(HENNY YOUNGMAN - Comico inglese-americano)
Iscriviti alla Newsletter