whatsapp

adriano gilardone Docente di Statistica Matematica Excel Spss sfruttare excel consulenze statistiche lezione videocorsi

blog

blog

Indice V di Cramer

Ultima modifica (26 Febbraio 2025)

YouTube video

Postato il 3 Giugno 2020

Tag

Contenuti nascondi

1 Indipendenza in distribuzione o indipendenza in media?

2 Esempio indipendenza o dipendenza in distribuzione

3 Interpretazione: i risultati fuori dai casi limite

4 Come calcolare la V di Cramer

4.1 Calcola il Chi Quadro

4.2 Dividi per N

4.3 Radice quadrata

4.4 Phi / Radq [ min(r-1;c-1) ]

4.5 Esempio V di Cramer

5 Indice V di Cramer EXCEL

6 Indice V di Cramer SPSS

Nell’ambito dello studio sulla dipendenza in distribuzione, cioè la connessione tra due caratteri qualitativi, sono di particolare importanza gli indici che mostrano l’intensità del grado di connessione, e l'indice V di Cramer è uno dei più importanti.

Il riferimento più comune a questi indici è il calcolo del Chi Quadro, che si utilizza poi per calcolare i cosiddetti indici normalizzati.

Partiamo con una prima caratteristica: un indice normalizzato sta tra 0 e 1, che sono sempre le condizioni estreme. In questo caso 0 significa indipendenza statistica, mentre 1 totale dipendenza in distribuzione.

Quello che cerca di fare questa tecnica è di mettere in relazione due caratteri statistici di tipo qualitativo, per vedere se sussiste una relazione. Per farlo ci si avvale di un indice come la V di Cramer.

Se vuoi approfondire la vita del famoso matematico svizzero Gabriel Cramer ti lascio il link ad una pagina molto interessante.

corsi statistica

Indipendenza in distribuzione o indipendenza in media?

Prima di tutto, facciamo questa distinzione molto importante: quando prendiamo in considerazione la V di Cramer parliamo sempre di dipendenza o indipendenza in distribuzione, non in media.
Vediamo qual è la differenza.

Con dipendenza/indipendenza in distribuzione si prendono in considerazione le diverse distribuzioni percentuali delle differenti modalità che ricordiamo essere delle categorie e non dei numeri.

Con dipendenza/indipendenza in media, invece, si confrontano un carattere quantitavo, quindi formato da numeri, con il quale si calcola appunto una media all'interno di ogni modalità del carattere qualitativo. Questo dato non serve per calcolare l'indice V di Cramer, mentre viene utilizzato quando si deve calcolare l'Anova.

Se vuoi capire meglio il significato dell'ANOVA, ti lascio questo mio video, dove ti parlo della scomposizione della varianza tra gruppi e della varianza nei gruppi.

YouTube video — Varianza tra gruppi e nei gruppi spiegata semplice

Esempio indipendenza o dipendenza in distribuzione

ipotizziamo due gruppi, uno formato da 100 persone che abitano in città e uno da 100 persone che abitano in campagna.

Se alla domanda "Usi la macchina nei giorni lavorativi?" sia il gruppo 1 (i cittadini), sia il gruppo 2 (i campagnoli), rispondono al 60% con "sì" e al 40% con "no", allora si diranno indipendenti in distribuzione.

Viceversa, se alla domanda "Usi la macchina nei giorni lavorativi?" il gruppo 1 (i cittadini) risponde con un 100% si, mentre il gruppo 2 (i campagnoli), risponde con un 100% no, allora si diranno dipendenti in distribuzione.

Nota bene: 0 e 1 sono due casi limite, anzi, nella realtà quasi mai l'indice V di Cramer si avvicina a 1, al massimo supera lo 0,5.

Per comprendere meglio i caratteri dipendenti e indipendenti in distribuzione, ti metto a disposizione un'altra lezione gratuita nel quale ti spiego le distribuzioni condizionate per riga (o per colonna) che concettualmente servono per l'interpretazione del risultato.

YouTube video — Dipendenza in distribuzione

Interpretazione: i risultati fuori dai casi limite

Come abbiamo visto, quindi, questo indice varia da un minimo di 0 ad un massimo di +1. Per questo, è molto facile stabilire se due caratteri sono indipendenti, perchè se risulta 0 sarai in presenza di un'indipendenza assoluta tra i due fenomeni.

Se il numero non è specificatamente 0 non puoi dire di avere un caso di indipendenza, ma se risulta un numero non troppo lontano dallo zero puoi comunque dire che non c’è un legame tra le variabili.

Viceversa, se la V di Cramer è 1 allora avrai la massima connessione tra due caratteri e quindi le frequenze di una modalità di un carattere saranno tutte quante legate ad una sola modalità dell’altro carattere.

Questa cosa non avviene mai nella pratica, ma se il valore tende ad avvicinarsi ad 1 potrai dire che il legame dei fenomeni è molto alto.

YouTube video — Spiegazione della tabella a doppia entrata

Come calcolare la V di Cramer

Vediamo ora i diversi passaggi per capire come si calcola l'indice V di Cramer.

Calcola il Chi Quadro

Vedi l’articolo per i calcoli del Chi Quadro.

Dividi per N

Dividi il Chi Quadro per N (numerosità del campione) trovando l’indice di contingenza quadratica media (Phi Quadro).

Radice quadrata

Fai la radice quadrata del punto precedente trovando l’indice Phi.

Phi / Radq [ min(r-1;c-1) ]

Prendi l’indice Phi e dividilo per la radice quadrata del minimo tra il numero di righe -1 e il numero di colonne -1

Esempio V di Cramer

In questo esercizio riprendo quello che ti ho spiegato nell'articolo sul Test del Chi quadro dove ipotizziamo una relazione tra il fumo e il tumore al polmone.

Chi quadro

Calcolo della V di Cramer:

\[
V = \sqrt{\frac{\chi^2}{n \cdot k}}
\]

Dove:

\[
k = \min(r-1, c-1)
\]

Nel nostro caso, la tabella ha \( r = 2 \) righe e \( c = 2 \) colonne, quindi:

\[
k = \min(2-1, 2-1) = \min(1,1) = 1
\]

Ora possiamo calcolare la V di Cramer:

\[
\begin{align*}
\chi^2 &= 222.22, \quad n = 6000, \quad k = 1 \\
V &= \sqrt{\frac{222.22}{6000 \cdot 1}} \\
V &= \sqrt{\frac{222.22}{6000}} \\
V &= \sqrt{0.037} \\
V &\approx 0.192
\end{align*}
\]

Interpretazione:

La V di Cramer assume valori tra 0 e 1, dove:

\( V = 0 \) indica assenza di associazione
Valori vicini a 1 indicano un'associazione forte

Nel nostro caso, \( V \approx 0.192 \) indica una associazione debole tra il fumo e i tumori.

Visto che il p-value è inferiore al livello alfa di 0,05, possiamo dire che c'è significatività e quindi una relazione tra le due variabili. Ma quanto è intensa questa connessione? A questa domanda risponde appunto l'indice V di Cramer.

Nell'articolo sul Test del Chi quadro mettevo in evidenza il fatto che se dividi tutte le celle per 100, ti ritrovi con le stesse proporzioni, ma il valore del chi quadro è uguale a quello di prima diviso 100 e il p-value (0,136) non è significativo dato che supera la soglia alfa del 0,05.

chi quadro

Ma per il calcolo della V di Cramer invece il risultato non cambia rimanendo V = 0,192. Questo perchè se osservi la sua formula avrai al numeratore il chi quadro, che viene diviso per 100, e al denominatore N, che viene anch'essa divisa per 100, pertano i due valori si annullano e il risultato finale è uguale al precedente

All'inizio dell'articolo trovi il mio video dove ti spiego la V di Cramer attraverso una metafora semplice, quella della lampadina!

Indice V di Cramer EXCEL

Non esiste un comando specifico

Indice V di Cramer SPSS

Analizza >>> Statistiche descrittive >>> Tabelle di contingenza

Riassumendo

La V di Cramer è uno dei più importanti indicatori nel campo della dipendenza in distribuzione.
É un indice di connessione normalizzato che serve per misurare l’intensità del legame tra due variabili qualitative.
Se si avvicina a zero c’è scarsa connessione mentre se si avvicina a 1 c’è uno stretto legame tra le due variabili.

Le statistiche dicono che una donna dà alla luce un bambino ogni quattro secondi. Il nostro problema è trovare quella donna e fermarla.

(HENNY YOUNGMAN - Comico inglese-americano)

Iscriviti alla Newsletter

Se hai bisogno d’informazioni che non hai trovato nella sezione servizi o dei video corsi, scrivimi un messaggio o chiamami.
Domande, prezzi, richieste, delucidazioni...tutto quello che ti serve. Cercherò di risponderti entro le 24h.