adriano gilardone Docente di Statistica Matematica Excel Spss sfruttare excel consulenze statistiche lezione videocorsi

blog

blog

La correlazione lineare di Pearson

YouTube video
Postato il 8 Giugno 2020
Tag

In statistica parliamo di coefficiente di correlazione lineare, o indice di correlazione di Pearson, quando, mettendo in relazione tra loro due variabili quantitative, vogliamo capire la forza e la direzione della loro relazione lineare. Esistono tanti tipi di relazioni tra due fenomeni, ma questo è sicuramente il più studiato nel percorso universitario.

corso statistica

Cosa si intende per relazione lineare? Molto semplicemente, dire che una relazione è lineare significa che il carattere Y cresce in maniera proporzionale al carattere X.
Se dovessimo rappresentare quindi i valori numerici di entrambe le variabili nel tempo, dovremmo immaginarci un piano cartesiano dove la nuvola di punti disegnata ha una distribuzione che tende ad avvicinarsi ad una retta.

Anzi, nel caso (limite) in cui la relazione tra Y e X sia totalmente lineare, la rappresentazione di questi punti avrà esattamente la forma di un retta. Però questo è, appunto, un caso limite, nella realtà non esistono variabili che abbiano tra loro una relazione di questo tipo.

A cosa serve la correlazione lineare?

Come abbiamo accennato all'inizio dell'articolo, una volta stabilito che le variabili X e Y hanno una relazione, il passaggio successivo è misurare la direzione e l'intensità del legame tra queste due variabili quantitative. Ed è qui che entra in campo la correlazione lineare di Pearson, che va ad indicare proprio questi valori.

Capire la direzione è abbastanza facile, in quanto dipende dal segno del coefficiente, e sarà quindi crescente in caso di segno positivo, e decrescente in caso di segno negativo.

correlazione lineare r di pearson
Retta crescente
correlazione lineare r di pearson
Retta decrescente

L'intensità, invece, è misurata da un numero che è compreso:

  • Tra 0 e 1, per la correlazione positiva
  • Tra 0 e -1 per la correlazione negativa

Quando usare l'indice di Pearson: le condizioni

Fai attenzione: prima di cominciare a calcolare la correlazione lineare di Pearson dovrai analizzare le due variabili che stai prendendo in considerazione, perchè per poter fare questo calcolo dovranno soddisfare alcune condizioni specifiche.

Il grafico lineare

Nella definizione abbiamo subito sottolineato come quella che andremo ad analizzare sia una relazione di tipo lineare, cioè la cui rappresentazione sul piano cartesiano sia il quanto più possibile simile ad una retta.

Per questo non devi dimenticarti di controllare non solo se i punti nel piano sono monotoni, cioè se hanno un unico andamento, ma anche che siano posizionati in modo lineare.

corso statistica

Gli outliers

Come ti avevo già spiegato nel mio articolo sul boxplot, gli outliers sono valori anomali, che si distaccano dal resto dei dati. Un controllo, quindi, che devi fare è verificare il motivo per cui hai questi outliers nel tuo grafico a dispersione, e vedere come agire di conseguenza.

Tieni presente che, per esempio, potresti trovarti con dei valori anomali semplicemente perchè, può capitare, hai solo sbagliato a riportare i dati nel grafico. In questo la soluzione è molto semplice, perchè chiaramente basta andare a modificarli inserendo quelli corretti, e tutto si risolve.

Ma se il motivo non è questo? Se hai qualche outlier davvero significativo, che presenta valori estremi rispetto agli altri?

A questo punto hai due strade che puoi decidere di seguire.

La prima è scegliere di non considerare questi valori anomali, escluderli dal tuo dataset e quindi condurre la tua analisi solitamente sulla base di quelli che rientrano nei valori. Ovviamente non ti consiglio questo approccio se il numero di outliers è elevato, perchè staresti corrompendo il tuo lavoro!

La seconda è tenere questi valori e calcolarli insieme agli altri, consapevole che questi andranno chiaramente ad influenzare il tuo risultato, anche perchè quello che stiamo analizzando è un indice basato sulla media e sulla varianza, entrambe molto sensibili ai cambiamenti che potrebbero mostrarsi dopo l'inserimento nel dataset di valori estremi.

Se non sai quale strada seguire, puoi sempre provare prima a considerare gli outliers e poi ad escluderli, e vedere come cambia il tuo risultato.

La distribuzione normale

Un ultimo controllo da effettuare prima di passare al calcolo della correlazione lineare di Pearson è legato alla distribuzione, che deve essere normale per la variabile dipendente Y.

Se non sai cosa significa distribuzione normale, guarda questo video dove te la spiego in modo chiaro e semplice attraverso una metafora!

YouTube video
Distribuzione normale spiegata semplice

Se invece non ricordi come calcolarla, in questo video ti mostro come risolvere un esercizio sulla distribuzione normale grazia alla calcolatrice scientifica SHARP.

YouTube video
Esercizio svolto sulla distribuzione normale

Calcolo del coefficiente di correlazione lineare

Una volta effettuati i controlli, e visto che possiamo calcolare la correlazione lineare, passiamo a vedere i vari passaggi per farlo.

Calcola le medie aritmetiche

Rispettivamente per X e Y, somma ogni valore e dividi per il conteggio degli stessi.

Calcola le varianze

Se hai dubbi sul calcolo, puoi guardare l’articolo dove ti spiego tutti i passaggi qui.

Calcola le deviazioni standard

La deviazione standard, o scarto quadratico medio, è la radice quadrata della varianza.

analisi dati tesi

Calcola la covarianza

La formula è: Covarianza XY = Momento Misto - (Media X * Media Y)

Momento misto

  • Moltiplica, per ogni riga, le xi * le yi
  • Somma la colonna delle xi * yi
  • Dividi la somma per N

Calcolo finale

R = Cov(XY) / [ Dev Std (X) * Dev Std (Y) ]

YouTube video
Esercizio sulla correlazione lineare svolto semplice con la calcolatrice

Interpretazione

Il coefficiente di correlazione lineare di Pearson è un numero che sta tra -1 e +1, che sono ovviamente i valori estremi che possiamo trovare calcolandolo.

Vediamo ora il significato di entrambi:

Coefficiente lineare di Pearson R = -1

Correlazione lineare
Perfetta correlazione negativa

Quando trovo R = -1 significa che, al crescere della variabile X, il fenomeno Y decresce linearmente. Vuol dire inoltre che Y dipende totalmente da X, e ogni qualvolta si aumenterà di un'unità la X, la Y descrescerà del coefficiente angolare della retta.

Coefficiente lineare di Pearson R = 0

Coefficiente di correlazione lineare
Incorrelazione

Quando trovo R = 0 significa che, al crescere della variabile X, il fenomeno Y rimane stazionario. Vuol dire, inoltre, che Y non dipende assolutamente da X, e ogni qualvolta si aumenterà di un'unità la X, la Y rimarrà costante.

Coefficiente lineare di Pearson R = +1

Coefficiente di correlazione lineare
Perfetta correlazione positiva

Quando trovo R = +1 significa che, al crescere della variabile X, il fenomeno Y cresce linearmente. Vuol dire, inoltre, che Y dipende totalmente da X, e ogni qualvolta si aumenterà di un'unità la X, la Y crescerà del coefficiente angolare della retta.

Per avere un'idea dell'ordine di grandezza del coefficiente ti metto una tabella orientativa, che può esserti utile se devi commentare il valore ad un esame universitario o in un'analisi di dati.

Range

Interpretazione del coefficiente di correlazione lineare

Il coefficiente di correlazione lineare, detto di Pearson o di Bravais-Pearson in onore dei due autori che lo hanno sviluppato nel corso degli anni, può essere soggetto ad un'errata interpretazione. Prima di spiegarti quello che intendo, guardati il video qua sotto perché ti servirà come aiuto per l'esempio che voglio spiegare.

Per comprendere meglio il significato di questo importante guardati il video iniziale che ho realizzato sul mio canale di Youtube per spiegarti con un esempio di vita reale cosa rappresenta.

Interpretazione sbagliata

Correlazione lineare
Correlazione lineare tra gli anni e i residenti cremonesi

In questo esempio ho rappresentato la popolazione della città di Cremona dal 1978 al 2010. Come vedi la decrescita è costante fino agli anni 2000 dove invece si arresta e anzi ha una tendenza inversa. In questo caso l'indice di correlazione è pari a -0,91, quindi un valore molto alto, ma che tuttavia ti informa in modo errato della relazione tra i residenti cremonesi e il tempo.

Infatti, risentendo dei molti anni di decrescita, non riesce a percepire l'inversione di tendenza della parte finale e ti restituisce un'intensità negativa facendoti credere che la popolazione sia in continua decrescita. E allora che si fa?

Ripensa alla metafora del video. L'amore è inteso come una delle tante relazioni che possono intercorrere tra due esseri umani. Se ti innamori di una persona è quasi certo che non avrai alcun legame di parentela con tale individuo, quindi alta correlazione amorosa e bassa correlazione di parentela. Dipende da ciò che vuoi misurare!

Il coefficiente di correlazione si chiama lineare perché valuta solo una relazione lineare, pertanto se noti che i valori non seguono questa tendenza è inutile che lo usi.

Correlazione lineare e regressione lineare

Voglio farti un'ultima precisazione: in statistica "correlazione" e "relazione" non sono sinonimi, come possono esserlo nell'italiano parlato. Infatti dire che due variabili hanno una correlazione lineare ha un significato diverso rispetto al dire che hanno una relazione lineare.

La correlazione lineare di Pearson ci indica semplicemente se due variabili X e Y sono tra loro correlate, ma non ci indica altro se non questo. Non sappiamo in che modo siano correlate, quale sia la loro relazione di causa-effetto, se sia X a dipendere da Y o viceversa.

Per definire questo concetto bisogna utilizzare invece la regressione lineare, che, in statistica, è la tecnica utilizzata per stabilire qual è la variabile dipendente e quella indipendente all'interno della relazione lineare.

Correlazione lineare EXCEL

CORRELAZIONE (matrice1;matrice2)

PEARSON (matrice1;matrice2)

Correlazione lineare SPSS

Analizza >>> Correlazione >>> Bivariata

YouTube video
Esercizio sulla correlazione svolto in SPSS

Riassumendo

  • La correlazione lineare è utile per valutare la relazione lineare tra due fenomeni quantitativi
  • É un numero compreso tra -1 e +1
  • Più la correlazione lineare si avvicina agli estremi (-1 e 1) e più è intensa la relazione
  • Per una sua corretta valutazione bisogna guardare il grafico a dispersione
  • Non presuppone una relazione di causa-effetto, in quanto potrebbero esserci altri fattori che influiscono sulla vera natura della relazione

Il mio tempo sui 100 metri era previsto da fisici e statistici americani per il 2030. Sono in anticipo di 22 anni? Bene, non mi pongo limiti.

(USAIN BOLT - Atleta Giamaicano)

Ripetizioni private

Ho intrapreso una interessante collaborazione con il sito di TROVAPROF.IT

Questa start-up mette in relazione studenti che cercano lezioni private con professori di qualsiasi materia. Se stai cercano delle ripetizioni per le materie che non tratto io, allora ti consiglio di fare un salto su TROVAPROF.IT, un portale completamente gratuito per dare o ricevere lezioni private.

Iscriviti alla Newsletter

Se hai bisogno d’informazioni che non hai trovato nella sezione servizi o dei video corsi, scrivimi un messaggio o chiamami.
Domande, prezzi, richieste, delucidazioni...tutto quello che ti serve. Cercherò di risponderti entro le 24h.
Newsletter

Consenso al trattamento dei dati
Utilizzerò i tuoi dati (nome ed indirizzo mail) solo per inviarti gratuitamente via mail la newsletter mensile. Niente spam, niente scocciature, ti disiscrivi in un click quando vuoi.

linkedin facebook pinterest youtube rss twitter instagram facebook-blank rss-blank linkedin-blank pinterest youtube twitter instagram