whatsapp
Adriano Gilardone
Adriano Gilardone
adriano gilardone Docente di Statistica Matematica Excel Spss sfruttare excel consulenze statistiche lezione videocorsi
blog

blog

La correlazione lineare di Pearson

Ultima modifica (4 Marzo 2025)
YouTube video
Postato il 8 Giugno 2020
Tag

Il coefficiente di correlazione lineare, o indice di correlazione di Pearson mette in relazione due variabili quantitative e ha lo scopo di determinare la forza e la direzione della loro relazione lineare. Esistono tanti tipi di relazioni tra due fenomeni, ma questo è sicuramente il più studiato nel percorso universitario.

corso statistica

Cosa si intende per relazione lineare? Molto semplicemente, dire che una relazione è lineare significa che il carattere Y cresce in maniera proporzionale al carattere X.

Per rappresentare i valori numerici di entrambe le variabili, devi immaginare un piano cartesiano dove la nuvola di punti disegnata ha una distribuzione che tende ad avvicinarsi ad una retta.

Anzi, nel caso (limite) in cui la relazione tra Y e X sia totalmente lineare, la rappresentazione di questi punti avrà esattamente la forma di un retta. Però questo è, appunto, un caso limite, nella realtà non esistono variabili che abbiano tra loro una relazione così estrema.

A cosa serve la correlazione lineare?

Come abbiamo accennato all'inizio dell'articolo, una volta stabilito che le variabili X e Y hanno una relazione, il passaggio successivo è misurare la direzione e l'intensità del legame tra queste due variabili quantitative. Ed è qui che entra in campo la correlazione lineare di Pearson, che va ad indicare proprio questi valori.

Capire la direzione è abbastanza facile, in quanto dipende dal segno del coefficiente, e sarà quindi crescente in caso di segno positivo, e decrescente in caso di segno negativo.

correlazione lineare
Retta crescente - Correlazione positiva
correlazione lineare
Retta decrescente - Correlazione negativa

L'intensità, invece, è misurata da un numero che è compreso:

  • Tra 0 e 1, per la correlazione positiva
  • Tra 0 e -1 per la correlazione negativa

Quando usare l'indice di Pearson: le condizioni

Fai attenzione: prima di cominciare a calcolare la correlazione lineare di Pearson dovrai analizzare le due variabili che stai prendendo in considerazione, perchè per poter fare questo calcolo dovranno soddisfare alcune condizioni specifiche.

Il grafico lineare

Nella definizione abbiamo subito sottolineato come quella che andremo ad analizzare sia una relazione di tipo lineare, cioè la cui rappresentazione sul piano cartesiano sia il quanto più possibile simile ad una retta.

Per questo non devi dimenticarti di controllare non solo se i punti nel piano sono monotoni, cioè se hanno un unico andamento, ma anche che siano posizionati in modo lineare.

corso statistica

Gli outliers

Come ti avevo già spiegato nel mio articolo sul boxplot, gli outliers sono valori anomali, che si distaccano dal resto dei dati. Un controllo, quindi, che devi fare è verificare il motivo per cui hai questi outliers nel tuo grafico a dispersione, e vedere come agire di conseguenza.

Tieni presente che, per esempio, potresti trovarti con dei valori anomali semplicemente perchè, può capitare, hai solo sbagliato a riportare i dati nel grafico. In questo caso la soluzione è molto semplice, perché chiaramente basta andare a modificarli inserendo quelli corretti, e tutto si risolve.

Ma se il motivo non è questo? Se hai qualche outlier davvero significativo, che presenta valori estremi rispetto agli altri?

A questo punto hai due strade che puoi decidere di seguire.

La prima è scegliere di non considerare questi valori anomali, escluderli dal tuo dataset e quindi condurre la tua analisi solitamente sulla base di quelli che rientrano nei valori. Ovviamente non ti consiglio questo approccio se il numero di outliers è elevato, perchè staresti alterando la tua analisi!

La seconda è tenere questi valori e calcolarli insieme agli altri, consapevole che questi andranno chiaramente ad influenzare il tuo risultato, anche perchè quello che stiamo analizzando è un indice basato sulla media e sulla varianza, entrambe molto sensibili ai cambiamenti che potrebbero mostrarsi dopo l'inserimento nel dataset di valori estremi.

Se non sai quale strada seguire, puoi sempre provare prima a considerare gli outliers e poi ad escluderli, e vedere come cambia il tuo risultato.

La distribuzione normale

Un ultimo controllo da effettuare prima di passare al calcolo della correlazione lineare di Pearson è legato alla distribuzione, che deve essere normale per la variabile dipendente Y.

Se non sai cosa significa distribuzione normale, guarda questo video dove te la spiego in modo chiaro e semplice attraverso una metafora!

YouTube video
Distribuzione normale spiegata semplice

Se invece non ricordi come calcolarla, in questo video ti mostro come risolvere un esercizio sulla distribuzione normale grazia alla calcolatrice scientifica SHARP.

YouTube video
Esercizio svolto sulla distribuzione normale

Calcolo del coefficiente di correlazione lineare

Una volta effettuati i controlli, e visto che possiamo calcolare la correlazione lineare, passiamo a vedere i vari passaggi per farlo.

Calcola le medie aritmetiche

Rispettivamente per X e Y, somma ogni valore e dividi per il conteggio degli stessi.

Calcola le varianze

Se hai dubbi sul calcolo, puoi guardare l’articolo dove ti spiego tutti i passaggi qui.

Calcola le deviazioni standard

La deviazione standard, o scarto quadratico medio, è la radice quadrata della varianza.

Calcola la covarianza

La formula è: Covarianza XY = Momento Misto - (Media X * Media Y)

Momento misto

  • Moltiplica, per ogni riga, le xi * le yi
  • Somma la colonna delle xi * yi
  • Dividi la somma per N

Calcolo finale

R = Cov(XY) / [ Dev Std (X) * Dev Std (Y) ]

YouTube video
Esercizio sulla correlazione lineare svolto semplice con la calcolatrice

Esempio correlazione lineare

Tabella dei dati:

\[
\begin{array}{|c|c|}
\hline
\scriptsize{X \text{ (Prezzo in Euro) }} & \scriptsize{Y \text{ (Vendite in Quantità) }} \\
\hline
\scriptsize{20} & \scriptsize{780} \\
\scriptsize{23} & \scriptsize{740} \\
\scriptsize{25} & \scriptsize{750} \\
\scriptsize{26} & \scriptsize{730} \\
\scriptsize{27} & \scriptsize{690} \\
\scriptsize{29} & \scriptsize{660} \\
\scriptsize{30} & \scriptsize{650} \\
\hline
\end{array}
\]

Calcolo delle Medie

\[
\scriptsize{
\begin{aligned}
\bar{X} &= \frac{\sum X_i}{n} = \frac{180}{7} = 25.71 \\
\bar{Y} &= \frac{\sum Y_i}{n} = \frac{5000}{7} = 714.29
\end{aligned}
}
\]


Calcolo delle Varianze (metodo indiretto)

\[
\scriptsize{
\begin{aligned}
M_2(X) &= \frac{20^{\,2} + 23^{\,2} + 25^{\,2} + 26^{\,2} + 27^{\,2} + 29^{\,2} + 30^{\,2}}{7} = 671.43 \\
\sigma_X^2 &= M_2(X) - \bar{X}^2 = 671.43 - (25.71)^{\,2} = 10.20
\end{aligned}
}
\]

\[
\scriptsize{
\begin{aligned}
M_2(Y) &= \frac{780^{\,2} + 740^{\,2} + 750^{\,2} + 730^{\,2} + 690^{\,2} + 660^{\,2} + 650^{\,2}}{7} = 512228.57 \\
\sigma_Y^2 &= M_2(Y) - \bar{Y}^2 = 512228.57 - (714.29)^{\,2} = 2024.49
\end{aligned}
}
\]


Calcolo delle Deviazioni Standard

\[
\scriptsize{
\begin{aligned}
\sigma_X &= \sqrt{\phantom{.}\smash[b]{\sigma_X^2}} = \sqrt{\phantom{.}\smash[b]{10.20}} = 3.19 \\
\sigma_Y &= \sqrt{\phantom{.}\smash[b]{\sigma_Y^2}} = \sqrt{\phantom{.}\smash[b]{2024.49}} = 44.99
\end{aligned}
}
\]


Calcolo della Covarianza (metodo indiretto)

\[
\scriptsize{
\begin{aligned}
M_{XY} &= \frac{20 \cdot 780 + 23 \cdot 740 + 25 \cdot 750 + 26 \cdot 730 + 27 \cdot 690 + 29 \cdot 660 + 30 \cdot 650}{7} \\
&= 18231.43
\end{aligned}
}
\]

\[
\scriptsize{
\sigma_{XY} = M_{XY} - \bar{X} \cdot \bar{Y} = 18231.43 - (25.71 \times 714.29) = -135.92
}
\]


Calcolo del Coefficiente di Correlazione di Pearson

\[
\scriptsize{
\begin{aligned}
r &= \frac{\sigma_{XY}}{\sigma_X \cdot \sigma_Y} \\
r &= \frac{-135.92}{3.19 \times 44.99} = -0.9457
\end{aligned}
}
\]


Interpretazione

Il valore ottenuto per \( r \) indica una relazione negativa tra il prezzo del prodotto e le vendite.

analisi dati tesi

Interpretazione

Il coefficiente di correlazione lineare di Pearson è un numero che sta tra -1 e +1, che sono ovviamente i valori estremi che possiamo trovare calcolandolo. Vediamone il significato

Coefficiente lineare di Pearson R = -1

Correlazione lineare
Perfetta correlazione negativa

Quando trovo R = -1 significa che, al crescere della variabile X, il fenomeno Y decresce linearmente. Vuol dire inoltre che Y dipende totalmente da X, e ogni qualvolta si aumenterà di un'unità la X, la Y descrescerà del coefficiente angolare della retta.

Coefficiente lineare di Pearson R = 0

Coefficiente di correlazione lineare
Incorrelazione o Correlazione nulla

Quando trovo R = 0 significa che, al crescere della variabile X, il fenomeno Y rimane stazionario. Vuol dire, inoltre, che Y non dipende assolutamente da X, e ogni qualvolta si aumenterà di un'unità la X, la Y rimarrà costante.

Coefficiente lineare di Pearson R = +1

Coefficiente di correlazione lineare
Perfetta correlazione positiva

Quando trovo R = +1 significa che, al crescere della variabile X, il fenomeno Y cresce linearmente. Vuol dire, inoltre, che Y dipende totalmente da X, e ogni qualvolta si aumenterà di un'unità la X, la Y crescerà del coefficiente angolare della retta.

Per avere un'idea dell'ordine di grandezza del coefficiente ti metto una tabella orientativa, che può esserti utile se devi commentare il valore ad un esame universitario o in un'analisi di dati.

Range

correlazione lineare
Interpretazione del coefficiente di correlazione lineare

Il coefficiente di correlazione lineare, detto di Pearson o di Bravais-Pearson in onore dei due autori che lo hanno sviluppato nel corso degli anni, può essere soggetto ad un'errata interpretazione.

Per comprendere meglio il significato di questo importante guardati il video iniziale che ho realizzato sul mio canale di Youtube per spiegarti con un esempio di vita reale cosa rappresenta.

Interpretazione sbagliata

Correlazione lineare
Correlazione lineare tra gli anni e i residenti cremonesi

In questo esempio ho rappresentato la popolazione della città di Cremona dal 1978 al 2010. Come vedi la decrescita è costante fino agli anni 2000 dove invece si arresta e anzi ha una tendenza inversa. In questo caso l'indice di correlazione è pari a -0,91, quindi un valore molto alto, ma che tuttavia ti informa in modo errato della relazione tra i residenti cremonesi e il tempo.

Infatti, risentendo dei molti anni di decrescita, non riesce a percepire l'inversione di tendenza della parte finale e ti restituisce un'intensità negativa facendoti credere che la popolazione sia in continua decrescita. E allora che si fa?

Ripensa alla metafora del video. L'amore è inteso come una delle tante relazioni che possono intercorrere tra due esseri umani. Se ti innamori di una persona è quasi certo che non avrai alcun legame di parentela con tale individuo, quindi alta correlazione amorosa e bassa correlazione di parentela. Dipende da ciò che vuoi misurare!

Il coefficiente di correlazione si chiama lineare perché valuta solo una relazione lineare, pertanto se noti che i valori non seguono questa tendenza è inutile che lo usi.

corsi statistica

Correlazione lineare e regressione lineare

Voglio farti un'ultima precisazione: in statistica "correlazione" e "relazione" non sono sinonimi, come possono esserlo nell'italiano parlato. Infatti dire che due variabili hanno una correlazione lineare ha un significato diverso rispetto al dire che hanno una relazione lineare.

La correlazione lineare di Pearson ci indica semplicemente se due variabili X e Y sono tra loro correlate, ma non ci indica altro se non questo. Non sappiamo in che modo siano correlate, quale sia la loro relazione di causa-effetto, se sia X a dipendere da Y o viceversa.

Per definire questo concetto bisogna utilizzare invece la regressione lineare, che, in statistica, è la tecnica utilizzata per stabilire qual è la variabile dipendente e quella indipendente all'interno della relazione lineare.

Correlazione lineare EXCEL

CORRELAZIONE (matrice1;matrice2)

PEARSON (matrice1;matrice2)

Correlazione lineare SPSS

Analizza >>> Correlazione >>> Bivariata

YouTube video
Esercizio sulla correlazione svolto in SPSS

Riassumendo

  • La correlazione lineare è utile per valutare la relazione lineare tra due fenomeni quantitativi
  • É un numero compreso tra -1 e +1
  • Più la correlazione lineare si avvicina agli estremi (-1 e 1) e più è intensa la relazione
  • Per una sua corretta valutazione bisogna guardare il grafico a dispersione
  • Non presuppone una relazione di causa-effetto, in quanto potrebbero esserci altri fattori che influiscono sulla vera natura della relazione

Il mio tempo sui 100 metri era previsto da fisici e statistici americani per il 2030. Sono in anticipo di 22 anni? Bene, non mi pongo limiti.

(USAIN BOLT - Atleta Giamaicano)

Iscriviti alla Newsletter

Se hai bisogno d’informazioni che non hai trovato nella sezione servizi o dei video corsi, scrivimi un messaggio o chiamami.
Domande, prezzi, richieste, delucidazioni...tutto quello che ti serve. Cercherò di risponderti entro le 24h.
Newsletter

Consenso al trattamento dei dati
Utilizzerò i tuoi dati (nome ed indirizzo mail) solo per inviarti gratuitamente via mail la newsletter mensile. Niente spam, niente scocciature, ti disiscrivi in un click quando vuoi.

arrow-up-circle
linkedin facebook pinterest youtube rss twitter instagram facebook-blank rss-blank linkedin-blank pinterest youtube twitter instagram