In statistica parliamo di coefficiente di correlazione lineare, o indice di correlazione di Pearson, quando, mettendo in relazione tra loro due variabili quantitative, vogliamo capire la forza e la direzione della loro relazione lineare. Esistono tanti tipi di relazioni tra due fenomeni, ma questo è sicuramente il più studiato nel percorso universitario.
Cosa si intende per relazione lineare? Molto semplicemente, dire che una relazione è lineare significa che il carattere Y cresce in maniera proporzionale al carattere X.
Se dovessimo rappresentare quindi i valori numerici di entrambe le variabili nel tempo, dovremmo immaginarci un piano cartesiano dove la nuvola di punti disegnata ha una distribuzione che tende ad avvicinarsi ad una retta.
Anzi, nel caso (limite) in cui la relazione tra Y e X sia totalmente lineare, la rappresentazione di questi punti avrà esattamente la forma di un retta. Però questo è, appunto, un caso limite, nella realtà non esistono variabili che abbiano tra loro una relazione di questo tipo.
Come abbiamo accennato all'inizio dell'articolo, una volta stabilito che le variabili X e Y hanno una relazione, il passaggio successivo è misurare la direzione e l'intensità del legame tra queste due variabili quantitative. Ed è qui che entra in campo la correlazione lineare di Pearson, che va ad indicare proprio questi valori.
Capire la direzione è abbastanza facile, in quanto dipende dal segno del coefficiente, e sarà quindi crescente in caso di segno positivo, e decrescente in caso di segno negativo.
L'intensità, invece, è misurata da un numero che è compreso:
Fai attenzione: prima di cominciare a calcolare la correlazione lineare di Pearson dovrai analizzare le due variabili che stai prendendo in considerazione, perchè per poter fare questo calcolo dovranno soddisfare alcune condizioni specifiche.
Nella definizione abbiamo subito sottolineato come quella che andremo ad analizzare sia una relazione di tipo lineare, cioè la cui rappresentazione sul piano cartesiano sia il quanto più possibile simile ad una retta.
Per questo non devi dimenticarti di controllare non solo se i punti nel piano sono monotoni, cioè se hanno un unico andamento, ma anche che siano posizionati in modo lineare.
Come ti avevo già spiegato nel mio articolo sul boxplot, gli outliers sono valori anomali, che si distaccano dal resto dei dati. Un controllo, quindi, che devi fare è verificare il motivo per cui hai questi outliers nel tuo grafico a dispersione, e vedere come agire di conseguenza.
Tieni presente che, per esempio, potresti trovarti con dei valori anomali semplicemente perchè, può capitare, hai solo sbagliato a riportare i dati nel grafico. In questo la soluzione è molto semplice, perchè chiaramente basta andare a modificarli inserendo quelli corretti, e tutto si risolve.
Ma se il motivo non è questo? Se hai qualche outlier davvero significativo, che presenta valori estremi rispetto agli altri?
A questo punto hai due strade che puoi decidere di seguire.
La prima è scegliere di non considerare questi valori anomali, escluderli dal tuo dataset e quindi condurre la tua analisi solitamente sulla base di quelli che rientrano nei valori. Ovviamente non ti consiglio questo approccio se il numero di outliers è elevato, perchè staresti corrompendo il tuo lavoro!
La seconda è tenere questi valori e calcolarli insieme agli altri, consapevole che questi andranno chiaramente ad influenzare il tuo risultato, anche perchè quello che stiamo analizzando è un indice basato sulla media e sulla varianza, entrambe molto sensibili ai cambiamenti che potrebbero mostrarsi dopo l'inserimento nel dataset di valori estremi.
Se non sai quale strada seguire, puoi sempre provare prima a considerare gli outliers e poi ad escluderli, e vedere come cambia il tuo risultato.
Un ultimo controllo da effettuare prima di passare al calcolo della correlazione lineare di Pearson è legato alla distribuzione, che deve essere normale per la variabile dipendente Y.
Se non sai cosa significa distribuzione normale, guarda questo video dove te la spiego in modo chiaro e semplice attraverso una metafora!
Se invece non ricordi come calcolarla, in questo video ti mostro come risolvere un esercizio sulla distribuzione normale grazia alla calcolatrice scientifica SHARP.
Una volta effettuati i controlli, e visto che possiamo calcolare la correlazione lineare, passiamo a vedere i vari passaggi per farlo.
Rispettivamente per X e Y, somma ogni valore e dividi per il conteggio degli stessi.
Se hai dubbi sul calcolo, puoi guardare l’articolo dove ti spiego tutti i passaggi qui.
La deviazione standard, o scarto quadratico medio, è la radice quadrata della varianza.
La formula è: Covarianza XY = Momento Misto - (Media X * Media Y)
R = Cov(XY) / [ Dev Std (X) * Dev Std (Y) ]
Il coefficiente di correlazione lineare di Pearson è un numero che sta tra -1 e +1, che sono ovviamente i valori estremi che possiamo trovare calcolandolo.
Vediamo ora il significato di entrambi:
Quando trovo R = -1 significa che, al crescere della variabile X, il fenomeno Y decresce linearmente. Vuol dire inoltre che Y dipende totalmente da X, e ogni qualvolta si aumenterà di un'unità la X, la Y descrescerà del coefficiente angolare della retta.
Quando trovo R = 0 significa che, al crescere della variabile X, il fenomeno Y rimane stazionario. Vuol dire, inoltre, che Y non dipende assolutamente da X, e ogni qualvolta si aumenterà di un'unità la X, la Y rimarrà costante.
Quando trovo R = +1 significa che, al crescere della variabile X, il fenomeno Y cresce linearmente. Vuol dire, inoltre, che Y dipende totalmente da X, e ogni qualvolta si aumenterà di un'unità la X, la Y crescerà del coefficiente angolare della retta.
Per avere un'idea dell'ordine di grandezza del coefficiente ti metto una tabella orientativa, che può esserti utile se devi commentare il valore ad un esame universitario o in un'analisi di dati.
Il coefficiente di correlazione lineare, detto di Pearson o di Bravais-Pearson in onore dei due autori che lo hanno sviluppato nel corso degli anni, può essere soggetto ad un'errata interpretazione. Prima di spiegarti quello che intendo, guardati il video qua sotto perché ti servirà come aiuto per l'esempio che voglio spiegare.
Per comprendere meglio il significato di questo importante guardati il video iniziale che ho realizzato sul mio canale di Youtube per spiegarti con un esempio di vita reale cosa rappresenta.
In questo esempio ho rappresentato la popolazione della città di Cremona dal 1978 al 2010. Come vedi la decrescita è costante fino agli anni 2000 dove invece si arresta e anzi ha una tendenza inversa. In questo caso l'indice di correlazione è pari a -0,91, quindi un valore molto alto, ma che tuttavia ti informa in modo errato della relazione tra i residenti cremonesi e il tempo.
Infatti, risentendo dei molti anni di decrescita, non riesce a percepire l'inversione di tendenza della parte finale e ti restituisce un'intensità negativa facendoti credere che la popolazione sia in continua decrescita. E allora che si fa?
Ripensa alla metafora del video. L'amore è inteso come una delle tante relazioni che possono intercorrere tra due esseri umani. Se ti innamori di una persona è quasi certo che non avrai alcun legame di parentela con tale individuo, quindi alta correlazione amorosa e bassa correlazione di parentela. Dipende da ciò che vuoi misurare!
Il coefficiente di correlazione si chiama lineare perché valuta solo una relazione lineare, pertanto se noti che i valori non seguono questa tendenza è inutile che lo usi.
Voglio farti un'ultima precisazione: in statistica "correlazione" e "relazione" non sono sinonimi, come possono esserlo nell'italiano parlato. Infatti dire che due variabili hanno una correlazione lineare ha un significato diverso rispetto al dire che hanno una relazione lineare.
La correlazione lineare di Pearson ci indica semplicemente se due variabili X e Y sono tra loro correlate, ma non ci indica altro se non questo. Non sappiamo in che modo siano correlate, quale sia la loro relazione di causa-effetto, se sia X a dipendere da Y o viceversa.
Per definire questo concetto bisogna utilizzare invece la regressione lineare, che, in statistica, è la tecnica utilizzata per stabilire qual è la variabile dipendente e quella indipendente all'interno della relazione lineare.
CORRELAZIONE (matrice1;matrice2)
PEARSON (matrice1;matrice2)
Analizza >>> Correlazione >>> Bivariata
Il mio tempo sui 100 metri era previsto da fisici e statistici americani per il 2030. Sono in anticipo di 22 anni? Bene, non mi pongo limiti.
(USAIN BOLT - Atleta Giamaicano)