adriano gilardone Docente di Statistica Matematica Excel Spss sfruttare excel consulenze statistiche lezione videocorsi

La correlazione di Spearman

YouTube video
Postato il 11 Agosto 2022
Tag

La correlazione di Spearman, o coefficiente di correlazione per ranghi di Spearman, o indice di correlazione R per ranghi di Spearman, è un indice di correlazione non parametrico, che viene indicato con la lettera greca 𝝆s (rho), rs o Spearman rho. Deve il suo nome allo psicologo Charles Spearman, che lo ideò nel 1904.

Questo coefficiente permette di calcolare la potenza del rapporto tra due variabili quantitative o qualitative ordinali, ed è un’approssimazione del coefficiente di correlazione lineare, o indice di correlazione di Pearson

In altre parole, la correlazione di Spearman non è altro che un caso particolare dell'indice di Pearson, dove, prima di calcolare il coefficiente, si dividono i dati in ranghi, cioè si ordinano in modo crescente o decrescente.

Quando si usa la correlazione di Spearman

La correlazione (o indice) di Spearman viene utilizzato quando le condizioni richieste dal coefficiente r di Pearson non sono presenti, in particolar modo la condizione che la distribuzione dei dati debba essere normale per la variabile dipendente Y. Questa è una situazione che può accadere frequentemente quando si ha una popolazione di dati con un elevato numero di casi. 

Un esempio pratico di applicazione della correlazione di Spearman potrebbe essere quello di mettere in ordine di rango tutte i diversi modelli diesel di una casa automobilistica per potenza del motore (quindi dalla macchina con più cavalli a quella con meno cavalli) e per consumo di carburante (da quella che consuma più diesel al km a quella che ne consuma meno), per poi vedere se tra queste due variabili esiste una relazione.  

Un altro esempio molto semplice, che ti aiuterà a capire con facilità quando si usa la correlazione di Spearman e qual è la sua differenza col coefficiente lineare di Pearson, è quello della classifica.

Nelle immagini qui riportate puoi vedere i risultati finali della classifica della serie A italiana per la stagione 2021-2022.

Nella prima immagine, stiamo applicando la correlazione di Pearson. In questo caso, ti ho evidenziato la differenza gol tra le varie squadre e i punti in classifica: all'aumentare della differenza reti ti aspetti che ci sia un aumento dei punti in classifica, affermando quindi che c'è una correlazione positiva tra i due fenomeni.

Correlazione di Spearman
La correlazione di Pearson nella classifica di serie A

Nella seconda, invece, voglio che focalizzi la tua attenzione sulle posizioni delle squadre: prima, seconda, terza e così via. Ecco, in questo caso all'aumentare della differenza reti ti aspetti che ci sia un miglioramento della posizione in classifica. Quello che stai applicando è la correlazione di Spearman, perchè non stai guardando una variabile quantitativa (punti in classifica) ma stai osservando il suo rango (posizione in classifica).

Correlazione di Spearman
La correlazione di Spearman nella classifica di Seria A

Questo esempio ti dà la spiegazione chiara della differenza tra questi due indici:

  • La correlazione di Spearman mette in relazione i ranghi delle due variabili quantitative
  • La correlazione di Pearson, invece, mette in relazione i numeri reali delle due variabili quantitative

La correlazione causa-effetto

Prima di continuare, voglio farti una piccola precisazione: la correlazione di Spearman, così come la correlazione lineare di Pearson, non ti dice di che tipo è la relazione tra le due variabili, ma soltanto se esiste oppure no! Per capire se esiste una relazione di causa-effetto e se sia X a dipendere da Y o viceversa dovrai utilizzare la regressione lineare.

Le verifiche da cui partire

Prima di calcolare la correlazione di Spearman dovrai procedere con alcuni controlli sul tuo dataset, e dovrai quindi verificare che:

  • Come abbiamo già detto precedentemente, le variabili siano quantitative o qualitative ordinali
  • Il campione da cui stai estraendo i dati sia casuale e semplice
  • Tra le due variabili esista una relazione monotona, in altre parole che abbia un unico andamento

C'è correlazione tra le variabili?

Una domanda che potresti porti prima di calcolare questo coefficiente è come capire se le due variabili sono tra loro correlate. Per confermarlo, dovrai guardare i dati della variabile X e quelli della variabile Y, e vedere se, al variare della prima, anche la seconda si modifica seguendo una certa regolarità. Come ti ho già accennato, attenzione: non stiamo parlando di un rapporto di causa-effetto, ma solo di una variabile dipendente Y che cambia al modificarsi di una variabile indipendente X.

Come si calcola la correlazione di Spearman

Calcolare la correlazione di Spearman è abbastanza semplice. Vediamone insieme i vari passaggi.

Ordina i valori di X

Assegna i ranghi, dando il numero 1 al valore più piccolo, tenendo conto anche dei valori uguali.

Ordina i valori di Y

Assegna i ranghi, dando il numero 1 al valore più piccolo, tenendo conto anche dei valori uguali.

Calcola le differenze tra i ranghi (di)

Per ogni coppia X e Y di partenza, dovrai quindi calcolare la differenza di tra i ranghi delle due misure.

Eleva le differenze al quadrato (di2)

Per ogni coppia X e Y calcolata al punto precedente, trova il suo quadrato.

Calcola la somma delle differenze al quadrato (∑ di2)

Somma tutti i valori trovati precedentemente.

I valori del coefficiente di Spearman

La correlazione di Spearman assume un valore compreso tra -1 e +1. Il valore trovato e il segno ti aiuteranno a capire le caratteristiche delle correlazione tra le due variabili. Avrai quindi quattro differenti possibilità:

  • Se il valore ha segno positivo(+) la correlazione è direttamente proporzionale
  • Se il valore ha segno negativo (-) la correlazione è inversamente proporzionale
  • Se il valore è uguale o molto vicino a 0 la correlazione è nulla
  • Se il valore è uguale o molto vicino a 1 la correlazione è perfetta

La significatività della correlazione di Spearman

A questo punto, devi verificare l’ipotesi che il coefficiente che hai calcolato sia significativamente diverso da 0. Per farlo, usa software quali R, SPSS ed Excel inserendo gli opportuni parametri, che puoi trovare riportati in fondo all'articolo.

In particolare: 

se il p-value è minore del livello di significatività (p<α), allora la correlazione è significativa, sia essa positiva o negativa.

se il p-value è maggiore del livello di significatività (p>α), allora la correlazione non è significativa, sia essa positiva o negativa.

Come si interpreta la correlazione di Spearman

Come abbiamo già definito, il coefficiente di Spearman può variare da -1 a +1: più l’indice è vicino a zero, più la relazione tra le due variabili sarà debole, mentre più si avvicina a -1 o a + 1 più la relazione sarà forte.

Quando usare la correlazione di Spearman e quando usare Pearson?

Come abbiamo visto subito in apertura di articolo, la correlazione di Spearman è un indice non parametrico, e si utilizza quando le condizioni richieste dal coefficiente r di Pearson non sono presenti. Poichè è un test non parametrico, non è necessario fare ipotesi sulla distribuzione delle due variabili, operazione che dovrai invece fare con il coefficiente di Pearson, poichè è un indice parametrico.

Una situazione in cui è consigliabile utilizzare l’indice di correlazione di Spearman è quando sono presenti molti outliers, una condizione che puoi facilmente verificare inserendo i tuoi dati in un boxplot.

Boxplot
I punti neri esterni al grafico boxplot sono outliers

Gli outliers sono valori anomali, che si distaccano dal resto dei dati, che puoi decidere di affrontare in due modi: escludendoli dal tuo dataset (scelta sconsigliata se il numero di outliers è elevato, perchè andresti a falsare il lavoro) oppure tenerli e considerarli insieme agli altri, sapendo però che, ovviamente, andranno a influenzare i tuoi risultati. 

Perchè quindi, in questo caso la correlazione di Spearman è preferibile a quello di Pearson? Perchè è un test non parametrico (come il test di Kruskal-Wallis o il test di Mann Whitney), che si basa sui ranghi, e se ti trovi nella situazione in cui preferisci non eliminare i valori anomali, utilizzare questo tipo di test è consigliabile in quanto è molto meno influenzato dagli outliers.

Coefficiente di Spearman EXCEL

Non c'è un comando specifico, ma puoi usare la funzione RANGO.UG per assegnare i ranghi ai valori e poi utilizzare la funzione CORRELAZIONE per trovare il coefficiente di Spearman

Coefficiente di Spearman SPSS

Analizza >>> Correlazione >>> Bivariata

Riassumendo

  • La correlazione di Spearman è un indice di correlazione non parametrico, che permette di calcolare la potenza del rapporto tra due variabili quantitative o qualitative ordinali
  • Si tratta di un caso particolare dell'indice di Pearson: in questo caso,prima di calcolare il coefficiente, si dividono i dati in ranghi
  • Ricorda: ti dice soltanto se esiste o no una relazione tra le variabili analizzate!
  • Ha un valore compreso tra -1 e +1: più l’indice è vicino a zero, più la relazione tra le due variabili sarà debole, mentre più si avvicina a -1 o a + 1 più la relazione sarà forte

“Una delle possibili definizioni astratte dell’intelligenza è la capacità di trovare connessioni fra cose diverse, talvolta anche molto diverse. Più cose possono essere contenute contemporaneamente nella memoria di lavoro, più facile sarà trovare connessioni fra cose diverse. Molte idee, incluso le buone idee, possono nascere  così, grazie alla possibilità di fare ampie connessioni e alla capacità di conservare un  ricordo delle associazioni fatte.”

Edoardo Boncinelli

Ripetizioni private

Ho intrapreso una interessante collaborazione con il sito di TROVAPROF.IT

Questa start-up mette in relazione studenti che cercano lezioni private con professori di qualsiasi materia. Se stai cercano delle ripetizioni per le materie che non tratto io, allora ti consiglio di fare un salto su TROVAPROF.IT, un portale completamente gratuito per dare o ricevere lezioni private.

Iscriviti alla Newsletter

Se hai bisogno d’informazioni che non hai trovato nella sezione servizi o dei video corsi, scrivimi un messaggio o chiamami.
Domande, prezzi, richieste, delucidazioni...tutto quello che ti serve. Cercherò di risponderti entro le 24h.
Newsletter

Consenso al trattamento dei dati
Utilizzerò i tuoi dati (nome ed indirizzo mail) solo per inviarti gratuitamente via mail la newsletter mensile. Niente spam, niente scocciature, ti disiscrivi in un click quando vuoi.

linkedin facebook pinterest youtube rss twitter instagram facebook-blank rss-blank linkedin-blank pinterest youtube twitter instagram