adriano gilardone Docente di Statistica Matematica Excel Spss sfruttare excel consulenze statistiche lezione videocorsi

blog

blog

Chi Quadro

YouTube video
Postato il 1 Giugno 2020
Tag

Se qualche volta nella vita hai avuto a che fare con la statistica, probabilmente ti sarai imbattuto nel Chi Quadro di Pearson.

Il suo utilizzo è vastissimo e anche se di per sé il numero che trovi è poco commentabile, l’uso all’interno di alcune tecniche statistiche, aiuta il ricercatore a prendere decisioni importanti.

Cercherò di farti capire come si calcola e ti illustrerò il significato del perché si usano determinate formule.

Successivamente, in altri articoli, entrerò nel dettaglio delle tecniche per mostrare il funzionamento dell’indice del Chi Quadro, detto anche indice del Chi Quadrato, per il momento è importante che tu conosca la differenza tra caratteri indipendenti e dipendenti in distribuzione e gli scopi per i quale si utilizza il Chi Quadro.

analisi dati tesi

Caratteri dipendenti e indipendenti in distribuzione

Partiamo però facendo una precisazione, e vedendo qual è la differenza tra caratteri dipendenti e indipendenti in distribuzione.
Molto semplicemente, indipendenti in distribuzione significa che, al cambiare della categoria di un primo fenomeno, indipendentemente dalla modalità selezionata, il secondo avrà comunque la stessa distribuzione percentuale.
Facciamo un esempio pratico, osservando due gruppi, uno formato da 10 persone che abitano in città e uno da 10 persone che abitano in campagna. Se alla domanda "Usi la macchina tutti i giorni della settimana?" sia il gruppo 1 (i cittadini) che il gruppo 2 (i campagnoli) hanno risposto al 60% con "sì" e al 40% con "no", allora si diranno totalmente indipendenti in distribuzione.

Vediamo ora il contrario, cioè due caratteri totalmente dipendenti in distribuzione.
Prendendo ancora lo stesso esempio, immaginiamo che, questa volta, quelli che abitano in città abbiano risposto al 100% con "no" e allo 0% con "sì", e viceversa quelli che abitano in campagna, 0% "no" e 100% "sì". Diremo quindi che i due fenomeni saranno in totale dipendenza in distribuzione.

Per comprendere meglio i caratteri dipendenti e indipendenti in distribuzione, ma anche il significato dell'indice Chi Quadrato, ti metto a disposizione un'altra lezione gratuita nel quale ti spiego le distribuzioni condizionate per riga (o per colonna) che concettualmente servono per l'interpretazione del risultato.

YouTube video
Dipendenza in distribuzione

Scopi

Quando hai a disposizione una tabella a doppia entrata, è interessante capire se esiste un legame tra le due variabili. Entrambi i caratteri devono essere necessariamente qualitativi o, nel caso fossero quantitativi, almeno categorizzati.

L’obiettivo è quello di confrontare le distribuzioni percentuali per riga (o per colonna) per vedere se ogni modalità di un fenomeno si associa ad una particolare modalità dell’altro fenomeno.

Le distribuzioni percentuali le ottiene dividendo ogni valore all'interno della tabella per il suo totale di riga (o di colonna).

Il Chi Quadro ti dirà se le due variabili sono indipendenti in distribuzione o, come si suol dire, stocasticamente indipendenti.

In questa situazione dovrai eseguire il test d’indipendenza del Chi-Quadrato e se risulterà significativo, cioè se il suo valore sarà effettivamente diverso da zero, potrai dire che un fattore dipende dall'altro affermando che esiste un’associazione lineare.

Oltre al menzionato test, il suo valore viene inserito in molteplici indici che ti misurano l’effect size ovvero quanto è intensa la relazione tra le due variabili.

Uno dei più famosi indici è la V di Cramer, che ti spiego in modo semplice in questo video, utilizzando una metafora statistica.

YouTube video
Indice V di Cramer spiegato semplice con una metafora statistica

Adattamento di funzioni

A volte l’interesse è posto non tanto sulla stima di un parametro, ma sulla distribuzione della variabile stessa.

Per distribuzione si intende una semplice tabella con modalità e frequenze associate. Rappresentata graficamente può esserti utile per individuare la forma della curva.

Le distribuzioni ovviamente sono tantissime ma è giusto ricordarne alcune come per esempio la normale gaussiana, la binomiale, l’esponenziale, la pareto, la beta, ecc…

In questo approccio, al contrario di prima, speri che il Chi Quadro si avvicini a zero perché significherebbe che hai individuato la forma corretta della distribuzione.

Per fare questo devi eseguire il test d’adattamento del Chi Quadro a volte chiamato anche test di Pizzetti-Pearson.

Ora che hai chiaro il campo in cui stiamo ragionando, è di fondamentale importanza come viene calcolato il Chi Quadro di Pearson i cui passaggi poi, ti risulteranno logici per lo scopo finale.

corso statistica

Come calcolare il Chi Quadro

Premesse

nij = frequenze assolute congiunte

nij* = frequenze teoriche o attese

cij = contingenze

ni. = frequenze totali di riga

n.j = frequenze totali di colonna

Calcola le frequenze assolute congiunte (nij)

Sono le frequenze di partenza, quello che osservi dal tuo campione e che vai a rappresentare in una tabella a doppia entrata. Se non sai cos'è, ti metto a disposizione una mia lezione tratta dal video corso sulla statistica bivariata nella quale ti spiego simbologia e significato.

YouTube video
Spiegazione tabella a doppia entrata

Calcola le frequenze teoriche o attese (nij*)

nij* = (ni. * n.j) / N

Per ogni cella della tabella devi moltiplicare il rispettivo totale di riga per il totale di colonna e dividerlo per N che il totale della tabella.

Se la tabella iniziale fosse per esempio una 3x2, quindi con 6 celle, tu dovrai ottenere altrettante frequenze teoriche.

Queste frequenze vengono anche dette di indipendenza statistica perché se fossero uguali alle frequenze di partenza, allora ti ritroveresti proprio nella situazione d’indipendenza in distribuzione.

Calcola le contingenze assolute (cij)

cij = nij - nij*

Fai la differenza tra le frequenze osservate (nij) e le frequenze teoriche (nij*). Anche qui esegui tante differenze quante sono le caselle di partenza.

Calcola la tabella del Chi Quadro (X2)

X2 = (cij)2 / nij*

Per ogni casella calcola le contingenze al quadrato diviso le teoriche. Una volta completata la tabella, somma i valori. Il totale sarà proprio il Chi-Quadrato.

Questa formula del Chi Quadro che ti ho appena spiegato non è l'unica esistente, si può calcolare anche con un'altra formula nella quale si prendono in considerazione le frequenze relative congiunte (fij2), le frequenze relative di riga (fi.) e le frequenze relative di colonna (f.j)

Chi Quadro
Formule del Chi Quadro

Conclusioni

Come già detto rimando ad altri articoli la spiegazione delle tecniche vere e proprie, ma quello su cui voglio farti ragionare ora è il perché di tutti questi calcoli per ottenere il valore finale.

La ragione risiede nel confrontare una situazione reale con una teorica. Il calcolo delle frequenze attese non è di facile intuizione, ma è una regola matematica per la quale si ottengono numeri casuali in una tabella a doppia entrata.

Se le due tabelle sono identiche, o per lo meno simili, allora non può sussistere una relazione tra i due fenomeni perché risultano avere numeri inseriti a caso.

Chi Quadro EXCEL

TEST.CHI.QUAD (int_effettivo;int_previsto).

N.B. viene restituito il p-value calcolato sul valore del Chi Quadro che però non viene mostrato

Chi Quadro SPSS

Analizza >>> Statistiche descrittive >>> Tabelle di contingenza

Riassumendo

  • É un numero che viene utilizzato per calcolare indici di connessione normalizzati
  • Serve per misurare la relazione tra due variabili qualitative
  • Serve anche per valutare l'adattamento di un modello ai dati
  • Si calcola attraverso operazioni su una tabella a doppia entrata

Di posti dove studiare statistica ce n'erano pochi e nessuno aveva un dottorato. Mi iscrissi quindi a matematica alla Columbia University, ma capii presto che i matematici non consideravano la statistica una cosa seria. Il mio professore mi convinse a passare al dottorato in economia. I suoi corsi di statistica erano meravigliosi e incominciai a percepire che c'erano molti problemi in economia per i quali la matematica e la statistica sarebbero state utili.

(KENNETH ARROW - Economista statunitense, Nobel per l’economia nel 1972)

Ripetizioni private

Ho intrapreso una interessante collaborazione con il sito di TROVAPROF.IT

Questa start-up mette in relazione studenti che cercano lezioni private con professori di qualsiasi materia. Se stai cercano delle ripetizioni per le materie che non tratto io, allora ti consiglio di fare un salto su TROVAPROF.IT, un portale completamente gratuito per dare o ricevere lezioni private.

Iscriviti alla Newsletter

Se hai bisogno d’informazioni che non hai trovato nella sezione servizi o dei video corsi, scrivimi un messaggio o chiamami.
Domande, prezzi, richieste, delucidazioni...tutto quello che ti serve. Cercherò di risponderti entro le 24h.
Newsletter

Consenso al trattamento dei dati
Utilizzerò i tuoi dati (nome ed indirizzo mail) solo per inviarti gratuitamente via mail la newsletter mensile. Niente spam, niente scocciature, ti disiscrivi in un click quando vuoi.

arrow-up-circle
linkedin facebook pinterest youtube rss twitter instagram facebook-blank rss-blank linkedin-blank pinterest youtube twitter instagram