Nell’ambito dello studio sulla dipendenza in distribuzione, cioè la connessione tra due caratteri qualitativi, sono di particolare importanza gli indici che mostrano l’intensità del grado di connessione, e l'indice V di Cramer è uno dei più importanti.
Il riferimento più comune a questi indici è il calcolo del Chi Quadro, che si utilizza poi per calcolare i cosiddetti indici normalizzati.
Partiamo con una prima caratteristica: un indice normalizzato sta tra 0 e 1, che sono sempre le condizioni estreme. In questo caso 0 significa indipendenza statistica, mentre 1 totale dipendenza in distribuzione.
Quello che cerca di fare questa tecnica è di mettere in relazione due caratteri statistici di tipo qualitativo, per vedere se sussiste una relazione. Per farlo ci si avvale di un indice come la V di Cramer.
Se vuoi approfondire la vita del famoso matematico svizzero Gabriel Cramer ti lascio il link ad una pagina molto interessante.
Prima di tutto, facciamo questa distinzione molto importante: quando prendiamo in considerazione la V di Cramer parliamo sempre di dipendenza o indipendenza in distribuzione, non in media.
Vediamo qual è la differenza.
Con dipendenza/indipendenza in distribuzione si prendono in considerazione le diverse distribuzioni percentuali delle differenti modalità.
Con dipendenza/indipendenza in media, invece, si confrontano le medie di ogni modalità del fenomeno qualitativo. Questo dato non serve per calcolare l'indice V di Cramer, mentre viene utilizzato quando si deve calcolare l'ANOVA.
Se vuoi capire meglio il significato dell'ANOVA, ti lascio questo mio video, dove ti parlo della scomposizione della varianza tra gruppi e della varianza nei gruppi.
Qual è la differenza tra caratteri dipendenti e indipendenti in distribuzione?
Partiamo da vedere cosa significa quando sono indipendenti in distribuzione. Molto semplicemente, significa che, al cambiare della categoria di un primo fenomeno, il secondo avrà comunque la stessa distribuzione percentuale.
Facciamo un esempio pratico, osservando due gruppi, uno formato da 10 persone che abitano in città e uno da 10 persone che abitano in campagna. Se alla domanda "Usi la macchina tutti i giorni della settimana?" sia il gruppo 1 (i cittadini) che il gruppo 2 (i campagnoli) hanno risposto al 60% con "sì" e al 40% con "no", allora si diranno totalmente indipendenti in distribuzione. La V di Cramer, in questo caso (estremo), sarà uguale a 0.
Vediamo ora il contrario, cioè due caratteri totalmente dipendenti in distribuzione.
Prendendo ancora lo stesso esempio, immaginiamo che, questa volta, quelli che abitano in città abbiano risposto al 100% con "no" e allo 0% con "sì", e viceversa quelli che abitano in campagna, 0% "no" e 100% "sì". In questo caso (estremo) la V di Cramer sarà uguale a 1, cioè i due fenomeni saranno in totale dipendenza in distribuzione.
Nota bene: 0 e 1 sono due casi limite, anzi, nella realtà quasi mai l'indice V di Cramer si avvicina a 1, al massimo supera lo 0,5.
Per comprendere meglio i caratteri dipendenti e indipendenti in distribuzione, ti metto a disposizione un'altra lezione gratuita nel quale ti spiego le distribuzioni condizionate per riga (o per colonna) che concettualmente servono per l'interpretazione del risultato.
Come abbiamo visto, quindi, questo indice varia da un minimo di 0 ad un massimo di +1. Per questo, è molto facile stabilire se due caratteri sono indipendenti, perchè se risulta 0 sarai in presenza di un'indipendenza assoluta tra i due fenomeni. Se il numero non è specificatamente 0 non puoi dire di avere un caso di indipendenza, ma se risulta un numero non troppo lontano dallo zero puoi comunque dire che non c’è un legame tra le variabili.
Viceversa, se la V di Cramer è 1 allora avrai la massima connessione tra due caratteri e quindi le frequenze di una modalità di un carattere saranno tutte quante legate ad una sola modalità dell’altro carattere.
Questa cosa non avviene mai nella pratica, ma se il valore tende ad avvicinarsi ad 1 potrai dire che il legame dei fenomeni è molto alto.
Vediamo ora i diversi passaggi per capire come si calcola l'indice V di Cramer.
Vedi l’articolo per i calcoli del Chi Quadro.
Dividi il Chi Quadro per N (numerosità del campione) trovando l’indice di contingenza quadratica media (Phi Quadro).
Fai la radice quadrata del punto precedente trovando l’indice Phi.
Prendi l’indice Phi e dividilo per la radice quadrata del minimo tra il numero di righe -1 e il numero di colonne -1
All'inizio dell'articolo trovi il mio video dove ti spiego la V di Cramer attraverso una metafora semplice, quella della lampadina!
Non esiste un comando specifico
Analizza >>> Statistiche descrittive >>> Tabelle di contingenza
Le statistiche dicono che una donna dà alla luce un bambino ogni quattro secondi. Il nostro problema è trovare quella donna e fermarla.
(HENNY YOUNGMAN - Comico inglese-americano)