blog
La correlazione di Spearman, o coefficiente di correlazione per ranghi di Spearman, o indice di correlazione R per ranghi di Spearman, è un indice di correlazione non parametrico.
Viene indicato con la lettera greca 𝝆s (rho), rs o Spearman rho. Deve il suo nome allo psicologo Charles Spearman, che lo ideò nel 1904.
Questo coefficiente permette di calcolare l'a potenza l'intensità del rapporto tra due variabili quantitative o qualitative ordinali, ed è un’approssimazione del coefficiente di correlazione lineare, o indice di correlazione di Pearson.
In altre parole, la correlazione di Spearman non è altro che un caso particolare dell'indice di Pearson, dove, prima di calcolare il coefficiente, si dividono i dati in ranghi, cioè si ordinano in modo crescente o decrescente.
La correlazione di Spearman viene utilizzata quando le condizioni richieste dal coefficiente r di Pearson non sono presenti, in particolar modo quando i dati non seguono una distribuzione normale per la variabile dipendente Y.
Questa è una situazione che può accadere frequentemente quando si ha una popolazione di dati con un elevato numero di casi.
Un esempio pratico di applicazione della correlazione di Spearman potrebbe essere quello di mettere in ordine tutte i modelli diesel di una casa automobilistica per potenza del motore (quindi dalla macchina con più cavalli a quella con meno cavalli) e per consumo di carburante (da quella che consuma più diesel al km a quella che ne consuma meno), per vedere se tra queste due variabili esiste una relazione.
Un altro esempio molto semplice, che ti aiuterà a capire con facilità quando si usa la correlazione di Spearman e qual è la sua differenza col coefficiente lineare di Pearson, è quello della classifica.
Nelle immagini qui riportate puoi vedere i risultati finali della classifica della serie A italiana per la stagione 2021-2022.
Nella prima immagine, stiamo applicando la correlazione di Pearson. In questo caso, ti ho evidenziato la differenza gol tra le varie squadre e i punti in classifica: all'aumentare della differenza reti ti aspetti che ci sia un aumento dei punti in classifica, affermando quindi che c'è una correlazione positiva tra i due fenomeni.
Nella seconda, invece, voglio che focalizzi la tua attenzione sulle posizioni delle squadre: prima, seconda, terza e così via. Ecco, in questo caso all'aumentare della differenza reti ti aspetti che ci sia un miglioramento della posizione in classifica.
Quello che stai applicando è la correlazione di Spearman, perchè non stai guardando una variabile quantitativa (punti in classifica) ma stai osservando il suo rango (posizione in classifica).
Questo esempio ti dà la spiegazione chiara della differenza tra questi due indici:
La correlazione di Spearman mette in relazione i ranghi delle due variabili quantitative, mentre la correlazione di Pearson, mette in relazione i numeri reali delle due variabili quantitative
Prima di continuare, voglio farti una piccola precisazione: la correlazione di Spearman, così come la correlazione lineare di Pearson, non ti dice se una variabile dipende da un'altra, ma soltanto se esiste una relazione!
Per capire se esiste una relazione di causa-effetto e se sia X a dipendere da Y o viceversa dovrai utilizzare la regressione lineare, questo perchè stiamo trattando una relazione di tipo lineare.
Prima di calcolare la correlazione di Spearman dovrai procedere con alcuni controlli sul tuo dataset, e dovrai quindi verificare che:
1 - Come abbiamo già detto precedentemente, le variabili siano quantitative o qualitative ordinali.
2 - Il campione da cui stai estraendo i dati sia casuale e semplice.
3 - Tra le due variabili esista una relazione monotona, in altre parole che abbia un unico andamento, o crescente o decrescente.
Una domanda che potresti porti prima di calcolare questo coefficiente è come capire se le due variabili sono tra loro correlate. Per confermarlo, dovrai guardare i dati della variabile X e quelli della variabile Y, e vedere se, al variare della prima, anche la seconda si modifica seguendo una certa regolarità.
Inizialmente ti consiglio quindi di rappresentare le due variabili in un grafico a dispersione e magari aggiungendogli una retta interpolante.
Qui sotto trovi un esempio tratta dal mio video corso Grafico Mania nel quale spiego tutti i grafici che puoi realizzare con Microsoft Excel.
Come ti ho già accennato, attenzione: non stiamo parlando di un rapporto di causa-effetto, ma solo di una variabile dipendente Y che cambia al modificarsi di una variabile indipendente X.
Calcolare la correlazione di Spearman è abbastanza semplice. Vediamone insieme i vari passaggi.
Assegna i ranghi, dando il numero 1 al valore più grande (o più piccolo). Se nella distribuzione ci sono due o più valori uguali, allora fai la media dei ranghi.
Per esempio, Torino e Sassuolo sono appaiati a 50 punti al 10° e 11° posto in classifica, per cui facendo la media tra i due numeri devi assegnare 10,5 ad entrambi.
Assegna i ranghi, dando il numero 1 al valore più grande (o più piccolo). Se nella distribuzione ci sono due o più valori uguali, allora fai la media dei ranghi.
Rispettivamente per i ranghi di X e Y, somma ogni valore e dividi per il conteggio degli stessi.
Se hai dubbi sul calcolo, puoi guardare l’articolo dove ti spiego tutti i passaggi qui. Si tratta comunque di fare momento misto meno la media al quadrato.
La deviazione standard, o scarto quadratico medio, è la radice quadrata della varianza.
La formula è: Covarianza XY = Momento Misto - (Media X * Media Y)
Rspearman = Cov(XY) / [ Dev Std (X) * Dev Std (Y) ]
Riprendiamo l'esempio della classifica di serie A e vediamo come si svolge il calcolo per trovare il coefficiente di correlazione di Spearman.
\[
X = \text{Rango dei punti}, \quad Y = \text{Rango della differenza gol}
\]
Calcolo delle Medie
\[
\scriptsize{
\begin{aligned}
\bar{X} &= \frac{\sum X_i}{n} = \frac{210}{20} = 10.5 \\
\bar{Y} &= \frac{\sum Y_i}{n} = \frac{210}{20} = 10.5
\end{aligned}
}
\]
Calcolo delle Varianze
\[
\scriptsize{
\begin{aligned}
\sigma_X^2 &= \frac{\sum (X_i - \bar{X})^2}{n} = 33.20 \\
\sigma_Y^2 &= \frac{\sum (Y_i - \bar{Y})^2}{n} = 33.25
\end{aligned}
}
\]
Calcolo delle Deviazioni Standard
\[
\scriptsize{
\begin{aligned}
\sigma_X &= \sqrt{\sigma_X^2} = \sqrt{33.2} = 5.762 \\
\sigma_Y &= \sqrt{\sigma_Y^2} = \sqrt{33.25} = 5.766
\end{aligned}
}
\]
Calcolo della Covarianza
\[
\scriptsize{
\begin{aligned}
\text{Cov}(X,Y) &= \frac{\sum X_i Y_i}{n} - \bar{X} \cdot \bar{Y} \\
&= \frac{2853}{20}- {10.5 \times 10.5} = 32.40
\end{aligned}
}
\]
Calcolo del Coefficiente di Spearman
\[
\scriptsize{
\begin{aligned}
\rho &= \frac{\text{Cov}(X,Y)}{\sigma_X \cdot \sigma_Y} \\
\rho &= \frac{32.40}{5.762 \times 5.766} = 0.975
\end{aligned}
}
\]
Test t per la significatività statistica
Per verificare la significatività del coefficiente di Spearman, utilizziamo il test t con la seguente formula:
\[
t = \rho \cdot \sqrt{\frac{n - 2}{1 - \rho^2}}
\]
Sostituendo i valori:
\[
t = 0.975 \times \sqrt{\frac{20 - 2}{1 - (0.975)^2}}
\]
\[
t = 18.68
\]
Il valore \( p \) associato è:
\[
p = 3.11 \times 10^{-13}
\]
Essendo \( p \) molto piccolo, possiamo rigettare l'ipotesi nulla e concludere che la correlazione di Spearman tra le due variabili è statisticamente significativa.
Esiste anche un'altra formula per il calcolo della correlazione di Spearman che ti mostro qua sotto. Io però preferisco insegnare quella che ti ho esposto sopra in quanto dal punto di vista logico è la stessa di Pearson applicata ai ranghi
\[
\rho_s = 1 - \frac{6 \sum_i D_i^2}{N (N^2 - 1)}
\]
\[
D_i = R_{X_i} - R_{Y_i}
\]
Dove:
La correlazione di Spearman assume un numero compreso tra -1 e +1. Il valore trovato e il segno ti aiuteranno a capire le caratteristiche delle correlazione tra le due variabili. Avrai quindi tre differenti possibilità:
1 - Se il valore ha segno negativo (-), la correlazione è negativa e pertanto all'aumentare di una variabile, l'altra diminuisce.
2 - Se il valore ha segno positivo (+), la correlazione è positiva e pertanto all'aumentare di una variabile, l'altra aumenta.
3 - Se il valore è nullo o molto vicino a 0, la correlazione è nulla e pertanto all'aumentare di una variabile, l'altra rimane costante.
Nella realtà non si raggiungono mai i valori estremi, però si interpreta il coefficiente di correlazione di Spearman a seconda dell'avvicinarsi a uno o all'altro.
A questo punto, devi verificare l’ipotesi che il coefficiente che hai calcolato sia significativamente diverso da 0. Per farlo, usa software quali R, SPSS ed Excel inserendo gli opportuni parametri, che puoi trovare riportati in fondo all'articolo.
In particolare:
• se il p-value è minore del livello di significatività ( p < α ), allora la correlazione è significativa, sia essa positiva o negativa.
• se il p-value è maggiore del livello di significatività ( p > α ), allora la correlazione non è significativa, sia essa positiva o negativa.
Come abbiamo visto subito in apertura di articolo, la correlazione di Spearman è un indice non parametrico, e si utilizza quando le condizioni richieste dal coefficiente r di Pearson non sono presenti.
Poichè è un test non parametrico, non è necessario fare ipotesi sulla distribuzione delle due variabili, operazione che dovrai invece fare con il coefficiente di Pearson, poichè è un indice parametrico.
Una situazione in cui è consigliabile utilizzare l’indice di correlazione di Spearman è quando sono presenti molti outliers, una condizione che puoi facilmente verificare inserendo i tuoi dati in un boxplot.
Gli outliers sono valori anomali, che si distaccano dal resto dei dati, che puoi decidere di affrontare in due modi:
1 - escludendoli dal tuo dataset (scelta sconsigliata se il numero di outliers è elevato, perchè andresti a falsare il lavoro).
2 - tenerli e considerarli insieme agli altri, sapendo però che, ovviamente, andranno a influenzare i tuoi risultati.
Perchè quindi, in questo caso la correlazione di Spearman è preferibile a quello di Pearson? Perchè è un test non parametrico (come il test di Kruskal-Wallis o il test di Mann Whitney), che si basa sui ranghi, e se ti trovi nella situazione in cui preferisci non eliminare i valori anomali, utilizzare questo tipo di test è consigliabile in quanto è molto meno influenzato dagli outliers.
Tornando all'esempio della classifica di Serie A, se la squadra seconda in classifica arriva a 20 punti di stacco o a 2, sempre seconda rimane e quindi la differenza di posizione non cambia, mentre la differenza di punti genera un otulier.
Ti lascio un video in cui parlo dei test non parametrici che troverai nel mio video corso sull'analisi dati con SPSS.
Test non parametrici con SPSS
Non c'è un comando specifico, ma puoi usare la funzione RANGO.UG per assegnare i ranghi ai valori e poi utilizzare la funzione CORRELAZIONE per trovare il coefficiente di Spearman.
Attento peró che Excel assegna i ranghi uguali e non fa la media, quindi nell'esempio di prima Torino e Sassuolo avrebbero rango 10 e non 10,5.
Analizza >>> Correlazione >>> Bivariata
“Una delle possibili definizioni astratte dell’intelligenza è la capacità di trovare connessioni fra cose diverse, talvolta anche molto diverse. Più cose possono essere contenute contemporaneamente nella memoria di lavoro, più facile sarà trovare connessioni fra cose diverse. Molte idee, incluso le buone idee, possono nascere così, grazie alla possibilità di fare ampie connessioni e alla capacità di conservare un ricordo delle associazioni fatte.”
Edoardo Boncinelli
Iscriviti alla Newsletter