whatsapp
Adriano Gilardone
Adriano Gilardone
adriano gilardone Docente di Statistica Matematica Excel Spss sfruttare excel consulenze statistiche lezione videocorsi
blog

blog

La correlazione di Spearman

Ultima modifica (4 Marzo 2025)
YouTube video
Postato il 11 Agosto 2022
Tag

La correlazione di Spearman, o coefficiente di correlazione per ranghi di Spearman, o indice di correlazione R per ranghi di Spearman, è un indice di correlazione non parametrico.

Viene indicato con la lettera greca 𝝆s (rho), rs o Spearman rho. Deve il suo nome allo psicologo Charles Spearman, che lo ideò nel 1904.

Questo coefficiente permette di calcolare l'a potenza l'intensità del rapporto tra due variabili quantitative o qualitative ordinali, ed è un’approssimazione del coefficiente di correlazione lineare, o indice di correlazione di Pearson

In altre parole, la correlazione di Spearman non è altro che un caso particolare dell'indice di Pearson, dove, prima di calcolare il coefficiente, si dividono i dati in ranghi, cioè si ordinano in modo crescente o decrescente.

corso spss

Quando si usa la correlazione di Spearman

La correlazione di Spearman viene utilizzata quando le condizioni richieste dal coefficiente r di Pearson non sono presenti, in particolar modo quando i dati non seguono una distribuzione normale per la variabile dipendente Y.

Questa è una situazione che può accadere frequentemente quando si ha una popolazione di dati con un elevato numero di casi. 

Un esempio pratico di applicazione della correlazione di Spearman potrebbe essere quello di mettere in ordine tutte i modelli diesel di una casa automobilistica per potenza del motore (quindi dalla macchina con più cavalli a quella con meno cavalli) e per consumo di carburante (da quella che consuma più diesel al km a quella che ne consuma meno), per vedere se tra queste due variabili esiste una relazione.  

Un altro esempio molto semplice, che ti aiuterà a capire con facilità quando si usa la correlazione di Spearman e qual è la sua differenza col coefficiente lineare di Pearson, è quello della classifica.

Nelle immagini qui riportate puoi vedere i risultati finali della classifica della serie A italiana per la stagione 2021-2022.

Nella prima immagine, stiamo applicando la correlazione di Pearson. In questo caso, ti ho evidenziato la differenza gol tra le varie squadre e i punti in classifica: all'aumentare della differenza reti ti aspetti che ci sia un aumento dei punti in classifica, affermando quindi che c'è una correlazione positiva tra i due fenomeni.

correlazione di Spearman
La correlazione di Pearson nella classifica di serie A

Nella seconda, invece, voglio che focalizzi la tua attenzione sulle posizioni delle squadre: prima, seconda, terza e così via. Ecco, in questo caso all'aumentare della differenza reti ti aspetti che ci sia un miglioramento della posizione in classifica.

Quello che stai applicando è la correlazione di Spearman, perchè non stai guardando una variabile quantitativa (punti in classifica) ma stai osservando il suo rango (posizione in classifica).

correlazione di Spearman
La correlazione di Spearman nella classifica di Seria A

Questo esempio ti dà la spiegazione chiara della differenza tra questi due indici:

La correlazione di Spearman mette in relazione i ranghi delle due variabili quantitative, mentre la correlazione di Pearson, mette in relazione i numeri reali delle due variabili quantitative

La correlazione causa-effetto

Prima di continuare, voglio farti una piccola precisazione: la correlazione di Spearman, così come la correlazione lineare di Pearson, non ti dice se una variabile dipende da un'altra, ma soltanto se esiste una relazione!

Per capire se esiste una relazione di causa-effetto e se sia X a dipendere da Y o viceversa dovrai utilizzare la regressione lineare, questo perchè stiamo trattando una relazione di tipo lineare.

YouTube video
La regressione lineare spiegata semplice con una metafora statistica

I controlli nella correlazione di Spearman

Prima di calcolare la correlazione di Spearman dovrai procedere con alcuni controlli sul tuo dataset, e dovrai quindi verificare che:

1 - Come abbiamo già detto precedentemente, le variabili siano quantitative o qualitative ordinali.

2 - Il campione da cui stai estraendo i dati sia casuale e semplice.

3 - Tra le due variabili esista una relazione monotona, in altre parole che abbia un unico andamento, o crescente o decrescente.

Il grafico a dispersione

Una domanda che potresti porti prima di calcolare questo coefficiente è come capire se le due variabili sono tra loro correlate. Per confermarlo, dovrai guardare i dati della variabile X e quelli della variabile Y, e vedere se, al variare della prima, anche la seconda si modifica seguendo una certa regolarità.

Inizialmente ti consiglio quindi di rappresentare le due variabili in un grafico a dispersione e magari aggiungendogli una retta interpolante.

Qui sotto trovi un esempio tratta dal mio video corso Grafico Mania nel quale spiego tutti i grafici che puoi realizzare con Microsoft Excel.

Grafico a dispersione
Grafico a dispersione

Come ti ho già accennato, attenzione: non stiamo parlando di un rapporto di causa-effetto, ma solo di una variabile dipendente Y che cambia al modificarsi di una variabile indipendente X.

corso spss

Come si calcola la correlazione di Spearman

Calcolare la correlazione di Spearman è abbastanza semplice. Vediamone insieme i vari passaggi.

Ordina i valori di X

Assegna i ranghi, dando il numero 1 al valore più grande (o più piccolo). Se nella distribuzione ci sono due o più valori uguali, allora fai la media dei ranghi.

Per esempio, Torino e Sassuolo sono appaiati a 50 punti al 10° e 11° posto in classifica, per cui facendo la media tra i due numeri devi assegnare 10,5 ad entrambi.

Ordina i valori di Y

Assegna i ranghi, dando il numero 1 al valore più grande (o più piccolo). Se nella distribuzione ci sono due o più valori uguali, allora fai la media dei ranghi.

Calcola le medie aritmetiche

Rispettivamente per i ranghi di X e Y, somma ogni valore e dividi per il conteggio degli stessi.

Calcola le varianze

Se hai dubbi sul calcolo, puoi guardare l’articolo dove ti spiego tutti i passaggi qui. Si tratta comunque di fare momento misto meno la media al quadrato.

Calcola le deviazioni standard

La deviazione standard, o scarto quadratico medio, è la radice quadrata della varianza.

Calcola la covarianza

La formula è: Covarianza XY = Momento Misto - (Media X * Media Y)

Momento misto

  • Moltiplica, per ogni riga, le xi * le yi
  • Somma la colonna delle xi * yi
  • Dividi la somma per N

Calcolo finale

Rspearman = Cov(XY) / [ Dev Std (X) * Dev Std (Y) ]

YouTube video
Esercizio sulla correlazione lineare svolto semplice con la calcolatrice

Esempio correlazione di Spearman

Riprendiamo l'esempio della classifica di serie A e vediamo come si svolge il calcolo per trovare il coefficiente di correlazione di Spearman.

correlazione di Spearman

\[
X = \text{Rango dei punti}, \quad Y = \text{Rango della differenza gol}
\]


Calcolo delle Medie

\[
\scriptsize{
\begin{aligned}
\bar{X} &= \frac{\sum X_i}{n} = \frac{210}{20} = 10.5 \\
\bar{Y} &= \frac{\sum Y_i}{n} = \frac{210}{20} = 10.5
\end{aligned}
}
\]


Calcolo delle Varianze

\[
\scriptsize{
\begin{aligned}
\sigma_X^2 &= \frac{\sum (X_i - \bar{X})^2}{n} = 33.20 \\
\sigma_Y^2 &= \frac{\sum (Y_i - \bar{Y})^2}{n} = 33.25
\end{aligned}
}
\]


Calcolo delle Deviazioni Standard

\[
\scriptsize{
\begin{aligned}
\sigma_X &= \sqrt{\sigma_X^2} = \sqrt{33.2} = 5.762 \\
\sigma_Y &= \sqrt{\sigma_Y^2} = \sqrt{33.25} = 5.766
\end{aligned}
}
\]


Calcolo della Covarianza

\[
\scriptsize{
\begin{aligned}
\text{Cov}(X,Y) &= \frac{\sum X_i Y_i}{n} - \bar{X} \cdot \bar{Y} \\
&= \frac{2853}{20}- {10.5 \times 10.5} = 32.40
\end{aligned}
}
\]


Calcolo del Coefficiente di Spearman

\[
\scriptsize{
\begin{aligned}
\rho &= \frac{\text{Cov}(X,Y)}{\sigma_X \cdot \sigma_Y} \\
\rho &= \frac{32.40}{5.762 \times 5.766} = 0.975
\end{aligned}
}
\]


Test t per la significatività statistica

Per verificare la significatività del coefficiente di Spearman, utilizziamo il test t con la seguente formula:

\[
t = \rho \cdot \sqrt{\frac{n - 2}{1 - \rho^2}}
\]

Sostituendo i valori:

\[
t = 0.975 \times \sqrt{\frac{20 - 2}{1 - (0.975)^2}}
\]

\[
t = 18.68
\]

Il valore \( p \) associato è:

\[
p = 3.11 \times 10^{-13}
\]


Essendo \( p \) molto piccolo, possiamo rigettare l'ipotesi nulla e concludere che la correlazione di Spearman tra le due variabili è statisticamente significativa.

Esiste anche un'altra formula per il calcolo della correlazione di Spearman che ti mostro qua sotto. Io però preferisco insegnare quella che ti ho esposto sopra in quanto dal punto di vista logico è la stessa di Pearson applicata ai ranghi

\[
\rho_s = 1 - \frac{6 \sum_i D_i^2}{N (N^2 - 1)}
\]

\[
D_i = R_{X_i} - R_{Y_i}
\]

Dove:

  • \( D_i \) è la differenza tra il rango dell'osservazione \( i \) nella prima variabile (\( R_{X_i} \)) e il rango dell'osservazione \( i \) nella seconda variabile (\( R_{Y_i} \)).
  • analisi dati tesi

    Interpretazione della correlazione di Spearman

    La correlazione di Spearman assume un numero compreso tra -1 e +1. Il valore trovato e il segno ti aiuteranno a capire le caratteristiche delle correlazione tra le due variabili. Avrai quindi tre differenti possibilità:

    1 - Se il valore ha segno negativo (-), la correlazione è negativa e pertanto all'aumentare di una variabile, l'altra diminuisce.

    2 - Se il valore ha segno positivo (+), la correlazione è positiva e pertanto all'aumentare di una variabile, l'altra aumenta.

    3 - Se il valore è nullo o molto vicino a 0, la correlazione è nulla e pertanto all'aumentare di una variabile, l'altra rimane costante.

    Nella realtà non si raggiungono mai i valori estremi, però si interpreta il coefficiente di correlazione di Spearman a seconda dell'avvicinarsi a uno o all'altro.

    La significatività della correlazione di Spearman

    A questo punto, devi verificare l’ipotesi che il coefficiente che hai calcolato sia significativamente diverso da 0. Per farlo, usa software quali R, SPSS ed Excel inserendo gli opportuni parametri, che puoi trovare riportati in fondo all'articolo.

    In particolare: 

    se il p-value è minore del livello di significatività ( p < α ), allora la correlazione è significativa, sia essa positiva o negativa.

    se il p-value è maggiore del livello di significatività ( p > α ), allora la correlazione non è significativa, sia essa positiva o negativa.

    corso spss

    Test non parametrico

    Come abbiamo visto subito in apertura di articolo, la correlazione di Spearman è un indice non parametrico, e si utilizza quando le condizioni richieste dal coefficiente r di Pearson non sono presenti.

    Poichè è un test non parametrico, non è necessario fare ipotesi sulla distribuzione delle due variabili, operazione che dovrai invece fare con il coefficiente di Pearson, poichè è un indice parametrico.

    Una situazione in cui è consigliabile utilizzare l’indice di correlazione di Spearman è quando sono presenti molti outliers, una condizione che puoi facilmente verificare inserendo i tuoi dati in un boxplot.

    YouTube video
    Il boxplot spiegato semplice con una metafora

    Gli outliers sono valori anomali, che si distaccano dal resto dei dati, che puoi decidere di affrontare in due modi:

    1 - escludendoli dal tuo dataset (scelta sconsigliata se il numero di outliers è elevato, perchè andresti a falsare il lavoro).

    2 - tenerli e considerarli insieme agli altri, sapendo però che, ovviamente, andranno a influenzare i tuoi risultati. 

    Perchè quindi, in questo caso la correlazione di Spearman è preferibile a quello di Pearson? Perchè è un test non parametrico (come il test di Kruskal-Wallis o il test di Mann Whitney), che si basa sui ranghi, e se ti trovi nella situazione in cui preferisci non eliminare i valori anomali, utilizzare questo tipo di test è consigliabile in quanto è molto meno influenzato dagli outliers.

    Tornando all'esempio della classifica di Serie A, se la squadra seconda in classifica arriva a 20 punti di stacco o a 2, sempre seconda rimane e quindi la differenza di posizione non cambia, mentre la differenza di punti genera un otulier.

    Ti lascio un video in cui parlo dei test non parametrici che troverai nel mio video corso sull'analisi dati con SPSS.

    YouTube video

    Test non parametrici con SPSS

    Coefficiente di Spearman EXCEL

    Non c'è un comando specifico, ma puoi usare la funzione RANGO.UG per assegnare i ranghi ai valori e poi utilizzare la funzione CORRELAZIONE per trovare il coefficiente di Spearman.

    Attento peró che Excel assegna i ranghi uguali e non fa la media, quindi nell'esempio di prima Torino e Sassuolo avrebbero rango 10 e non 10,5.

    Coefficiente di Spearman SPSS

    Analizza >>> Correlazione >>> Bivariata

    Riassumendo

    • La correlazione di Spearman è un indice di correlazione non parametrico, che permette di calcolare la potenza del rapporto tra due variabili quantitative o qualitative ordinali
    • Si tratta di un caso particolare dell'indice di Pearson: in questo caso,prima di calcolare il coefficiente, si dividono i dati in ranghi
    • Ricorda: ti dice soltanto se esiste o no una relazione tra le variabili analizzate!
    • Ha un valore compreso tra -1 e +1: più l’indice è vicino a zero, più la relazione tra le due variabili sarà debole, mentre più si avvicina a -1 o a + 1 più la relazione sarà forte

    “Una delle possibili definizioni astratte dell’intelligenza è la capacità di trovare connessioni fra cose diverse, talvolta anche molto diverse. Più cose possono essere contenute contemporaneamente nella memoria di lavoro, più facile sarà trovare connessioni fra cose diverse. Molte idee, incluso le buone idee, possono nascere  così, grazie alla possibilità di fare ampie connessioni e alla capacità di conservare un  ricordo delle associazioni fatte.”

    Edoardo Boncinelli

Iscriviti alla Newsletter

Se hai bisogno d’informazioni che non hai trovato nella sezione servizi o dei video corsi, scrivimi un messaggio o chiamami.
Domande, prezzi, richieste, delucidazioni...tutto quello che ti serve. Cercherò di risponderti entro le 24h.
Newsletter

Consenso al trattamento dei dati
Utilizzerò i tuoi dati (nome ed indirizzo mail) solo per inviarti gratuitamente via mail la newsletter mensile. Niente spam, niente scocciature, ti disiscrivi in un click quando vuoi.

arrow-up-circle
linkedin facebook pinterest youtube rss twitter instagram facebook-blank rss-blank linkedin-blank pinterest youtube twitter instagram