L’indice di eterogeneità di Gini misura quanto una distribuzione statistica sia, appunto, eterogenea, ossia quanto le frequenze differiscano tra di loro (etero = diverso, gen = generale).
La varianza e la deviazione standard sono due indici di variabilità che necessitano di fenomeni quantitativi, perché c’è bisogno di calcolare un valore medio.
Quando lavori con variabili qualitative invece, nominali o ordinali, non puoi eseguire alcuna operazione sulle modalità, anche se è necessario avere un indice che misuri se i dati sono distribuiti in modo omogeneo o eterogeneo.
Un’interessante proprietà che puoi studiare nel caso di variabili (mutabili) qualitative è la mutabilità, cioè l’attitudine del carattere a manifestarsi con modalità diverse tra le unità statistiche. Ecco dunque che ti viene in aiuto l'indice di eterogeneità di Gini.
Attento a non confondere questo indicatore con il più famoso rapporto di concentrazione di Gini, che serve per misurare la diseguaglianza nella distribuzione di un fenomeno (quasi sempre il reddito delle persone).
Il famoso statistico veneto Corrado Gini fu il fondatore del più importante istituto italiano di statistica (l'ISTAT) e questo la dice lunga su quanto sia stato importante, anche a livello internazionale, con i suoi studi.
Ora che abbiamo definito lo scopo dell'indice di eterogeneità di Gini, andiamo a vedere i vari passaggi da seguire per calcolarlo.
il primo passaggio è prendere ogni frequenza assoluta ni e dividerla per il totale (N), ottenendo le frequenze relative.
Dopo aver elevato al quadrato ogni frequenza relativa del punto 1, fai una somma.
A questo punto, fai 1 meno la somma del punto 2.
Questo è l’indice di eterogeneità di Gini, ma c’è bisogno di normalizzarlo per poterlo commentare.
Per normalizzare l'indice, devi moltiplicare per N/(N-1) il valore che hai ottenuto al punto 3.
Normalizzare un indice significa farlo diventare tra 0 e 1:
Essendo normalizzato prende il nome di indice relativo di eterogeneità di Gini.
Gli indici di variabilità hanno alcune caratteristiche, che devi conoscere per poterli utilizzare nel modo più adatto.
Un indice di variabilità è uguale a 0 se tutti i valori osservati sono uguali, ovvero quando la variabilità della distribuzione è nulla.
Un indice di variabilità è diverso da 0 se i valori osservati sono diversi tra loro, ovvero quando la variabilità della distribuzione è non nulla.
Un indice di variabilità si definisce crescente al crescere del grado di diversità tra i valori osservati, ovvero quando la variabilità della distribuzione cresce.
Gli indici di eterogeneità sono alla base della costruzione di una tecnica statistica di classificazione chiamata alberi di decisione.
Un albero di decisione assegna degli oggetti a delle classi, dove un oggetto è un'osservazione di valori per degli attributi prefissati.
Il modo per distinguere le classi si basa sull’indice di Gini. Ci deve essere omogeneità interna, cioè nelle classi, ed eterogeneità esterna, cioè tra le classi.
In generale è usato come indice di variabilità per fenomeni qualitativi ma può anche essere impiegato per quelli quantitativi.
Non esiste un comando specifico ma si calcola facilmente con la formula descritta sopra.
Non esiste.
Mentre il singolo individuo è un enigma irrisolvibile, quando è insieme agli altri diviene una certezza matematica. È impossibile, per esempio, predire il modo in cui agirà un uomo, mentre è invece possibile dire con precisione cosa faranno un certo numero di uomini messi insieme. L'individuo varia, ma le percentuali rimangono costanti. Così dicono le statistiche.
(WILLIAM WINWOOD READE - storico britannico citato da Sherlock Holmes di Arthur Conan Doyle)