La correlazione di Spearman, o coefficiente di correlazione per ranghi di Spearman, o indice di correlazione R per ranghi di Spearman, è un indice di correlazione non parametrico, che viene indicato con la lettera greca 𝝆s (rho), rs o Spearman rho. Deve il suo nome allo psicologo Charles Spearman, che lo ideò nel 1904.
Questo coefficiente permette di calcolare la potenza del rapporto tra due variabili quantitative o qualitative ordinali, ed è un’approssimazione del coefficiente di correlazione lineare, o indice di correlazione di Pearson.
In altre parole, la correlazione di Spearman non è altro che un caso particolare dell'indice di Pearson, dove, prima di calcolare il coefficiente, si dividono i dati in ranghi, cioè si ordinano in modo crescente o decrescente.
La correlazione (o indice) di Spearman viene utilizzato quando le condizioni richieste dal coefficiente r di Pearson non sono presenti, in particolar modo la condizione che la distribuzione dei dati debba essere normale per la variabile dipendente Y. Questa è una situazione che può accadere frequentemente quando si ha una popolazione di dati con un elevato numero di casi.
Un esempio pratico di applicazione della correlazione di Spearman potrebbe essere quello di mettere in ordine di rango tutte i diversi modelli diesel di una casa automobilistica per potenza del motore (quindi dalla macchina con più cavalli a quella con meno cavalli) e per consumo di carburante (da quella che consuma più diesel al km a quella che ne consuma meno), per poi vedere se tra queste due variabili esiste una relazione.
Un altro esempio molto semplice, che ti aiuterà a capire con facilità quando si usa la correlazione di Spearman e qual è la sua differenza col coefficiente lineare di Pearson, è quello della classifica.
Nelle immagini qui riportate puoi vedere i risultati finali della classifica della serie A italiana per la stagione 2021-2022.
Nella prima immagine, stiamo applicando la correlazione di Pearson. In questo caso, ti ho evidenziato la differenza gol tra le varie squadre e i punti in classifica: all'aumentare della differenza reti ti aspetti che ci sia un aumento dei punti in classifica, affermando quindi che c'è una correlazione positiva tra i due fenomeni.
Nella seconda, invece, voglio che focalizzi la tua attenzione sulle posizioni delle squadre: prima, seconda, terza e così via. Ecco, in questo caso all'aumentare della differenza reti ti aspetti che ci sia un miglioramento della posizione in classifica. Quello che stai applicando è la correlazione di Spearman, perchè non stai guardando una variabile quantitativa (punti in classifica) ma stai osservando il suo rango (posizione in classifica).
Questo esempio ti dà la spiegazione chiara della differenza tra questi due indici:
Prima di continuare, voglio farti una piccola precisazione: la correlazione di Spearman, così come la correlazione lineare di Pearson, non ti dice di che tipo è la relazione tra le due variabili, ma soltanto se esiste oppure no! Per capire se esiste una relazione di causa-effetto e se sia X a dipendere da Y o viceversa dovrai utilizzare la regressione lineare.
Prima di calcolare la correlazione di Spearman dovrai procedere con alcuni controlli sul tuo dataset, e dovrai quindi verificare che:
Una domanda che potresti porti prima di calcolare questo coefficiente è come capire se le due variabili sono tra loro correlate. Per confermarlo, dovrai guardare i dati della variabile X e quelli della variabile Y, e vedere se, al variare della prima, anche la seconda si modifica seguendo una certa regolarità. Come ti ho già accennato, attenzione: non stiamo parlando di un rapporto di causa-effetto, ma solo di una variabile dipendente Y che cambia al modificarsi di una variabile indipendente X.
Calcolare la correlazione di Spearman è abbastanza semplice. Vediamone insieme i vari passaggi.
Assegna i ranghi, dando il numero 1 al valore più piccolo, tenendo conto anche dei valori uguali.
Assegna i ranghi, dando il numero 1 al valore più piccolo, tenendo conto anche dei valori uguali.
Per ogni coppia X e Y di partenza, dovrai quindi calcolare la differenza di tra i ranghi delle due misure.
Per ogni coppia X e Y calcolata al punto precedente, trova il suo quadrato.
Somma tutti i valori trovati precedentemente.
La correlazione di Spearman assume un valore compreso tra -1 e +1. Il valore trovato e il segno ti aiuteranno a capire le caratteristiche delle correlazione tra le due variabili. Avrai quindi quattro differenti possibilità:
A questo punto, devi verificare l’ipotesi che il coefficiente che hai calcolato sia significativamente diverso da 0. Per farlo, usa software quali R, SPSS ed Excel inserendo gli opportuni parametri, che puoi trovare riportati in fondo all'articolo.
In particolare:
• se il p-value è minore del livello di significatività (p<α), allora la correlazione è significativa, sia essa positiva o negativa.
• se il p-value è maggiore del livello di significatività (p>α), allora la correlazione non è significativa, sia essa positiva o negativa.
Come abbiamo già definito, il coefficiente di Spearman può variare da -1 a +1: più l’indice è vicino a zero, più la relazione tra le due variabili sarà debole, mentre più si avvicina a -1 o a + 1 più la relazione sarà forte.
Come abbiamo visto subito in apertura di articolo, la correlazione di Spearman è un indice non parametrico, e si utilizza quando le condizioni richieste dal coefficiente r di Pearson non sono presenti. Poichè è un test non parametrico, non è necessario fare ipotesi sulla distribuzione delle due variabili, operazione che dovrai invece fare con il coefficiente di Pearson, poichè è un indice parametrico.
Una situazione in cui è consigliabile utilizzare l’indice di correlazione di Spearman è quando sono presenti molti outliers, una condizione che puoi facilmente verificare inserendo i tuoi dati in un boxplot.
Gli outliers sono valori anomali, che si distaccano dal resto dei dati, che puoi decidere di affrontare in due modi: escludendoli dal tuo dataset (scelta sconsigliata se il numero di outliers è elevato, perchè andresti a falsare il lavoro) oppure tenerli e considerarli insieme agli altri, sapendo però che, ovviamente, andranno a influenzare i tuoi risultati.
Perchè quindi, in questo caso la correlazione di Spearman è preferibile a quello di Pearson? Perchè è un test non parametrico (come il test di Kruskal-Wallis o il test di Mann Whitney), che si basa sui ranghi, e se ti trovi nella situazione in cui preferisci non eliminare i valori anomali, utilizzare questo tipo di test è consigliabile in quanto è molto meno influenzato dagli outliers.
Non c'è un comando specifico, ma puoi usare la funzione RANGO.UG per assegnare i ranghi ai valori e poi utilizzare la funzione CORRELAZIONE per trovare il coefficiente di Spearman
Analizza >>> Correlazione >>> Bivariata
“Una delle possibili definizioni astratte dell’intelligenza è la capacità di trovare connessioni fra cose diverse, talvolta anche molto diverse. Più cose possono essere contenute contemporaneamente nella memoria di lavoro, più facile sarà trovare connessioni fra cose diverse. Molte idee, incluso le buone idee, possono nascere così, grazie alla possibilità di fare ampie connessioni e alla capacità di conservare un ricordo delle associazioni fatte.”
Edoardo Boncinelli