La retta di regressione lineare è uno degli argomenti più importanti di tutta la statistica bivariata che si occupa di individuare una relazione tra due variabili.
Cominciamo dal capire che cosa voglia dire, in statistica, il termine regressione. Come detto la regressione indica l'esistenza o meno di una relazione significativa tra due variabili quantitative (analisi bivariata) o tra più variabili (analisi multivariata).
Il termine regressione risale al biologo inglese Galton che esaminando le altezze dei genitori con i propri figli notando che vi era una relazione: più alti erano i genitori, più alti erano i figli.
Tuttavia per valori estremi, cioè con genitori molto bassi o molto alti, non c'era corrispondenza di figli molto alti o molto bassi, questo perché In altre parole, l’altezza dei figli regrediva verso la media.
Da qui il concetto fondante della regressione statistica che prevede lo studio della regressione verso la media.
La regressione lineare viene utilizzata in statistica per stabilire una relazione tra una variabile indipendente (X), detta anche regressore, che influisce e in parte spiega una variabile dipendente (Y).
É composta da un coefficiente di regressione per ognuna delle variabili esplicative presenti, dall'intercetta e da un termine di errore, o termine residuo.
Ma cosa significa analizzare la relazione lineare tra due variabili? Significa che, al crescere della variabile indipendente X, la variabile dipendente Y cresce (o decresce) come se fosse su una retta, quindi in maniera costante.
Dal numero di variabili esplicative presenti si possono delineare due diversi modelli di regressione lineare:
Il concetto di una retta dovresti avercelo presente fin dai primi anni della scuola elementare, ma vediamo insieme quali sono le principali cose da sapere:
La formula di una generica retta è Y = mX + q, dove:
X = variabile indipendente
Y = variabile dipendente
m = coefficiente angolare, indica la pendenza della retta
q = intercetta, indica il punto in cui la retta interseca l'asse delle ordinate (Y)
Ora vediamo come commentare i parametri in modo generico, a seconda dei valori che possono assumere il coefficiente angolare (m) e l'intercetta (q).
m > 0: Retta Crescente. All'aumentare di un'unità di X, la variabile Y aumenta del valore di m.
m = 0: Retta Costante. All'aumentare di un'unità di X, la variabile Y rimane costante.
m < 0: Retta Decrescente. All'aumentare di un'unità di X, la variabile Y diminuisce del valore di m.
q > 0: Intercetta Positiva. Quando la X = 0, la retta interseca l'asse Y in un punto positivo.
q = 0: Intercetta Nulla. Quando la X = 0, la retta interseca l'asse Y nell'origine.
q < 0: Intercetta Negativa. Quando la X = 0, la retta interseca l'asse Y in un punto negativo.
Ora che abbiamo ben chiaro non solo il concetto di regressione ma anche quello di retta, vediamo come utilizzare e calcolare la retta di regressione lineare dei minimi quadrati, e quindi come creare un modello teorico per cui un fenomeno quantitativo (Y) dipenda da un altro quantitativo (X).
Come abbiamo visto all'inizio, il tipo di analisi che stiamo effettuando è quello della relazione lineare, e questo limita la relazione ad un solo tipo di andamento, quello lineare appunto.
Se ti accorgi dal grafico a dispersione che ciò non avviene, vuol dire che il modello non è adeguato per interpretare i dati osservati.
C’è poi un numero, compreso tra -1 e +1, che ti misura quanto è intensa questa relazione. Si chiama coefficiente di correlazione lineare di Pearson.
In generale la formula della retta di regressione lineare è questa:
Y = B0 + B1 * X, dove:
B0 è l'intercetta e prende il posto della q
B1 è il coefficiente angolare e prende il posto della m
In alcuni manuali puoi trovare lettere differenti, per esempio quelle greche di α e β. Il significato è lo stesso, cambia solo la simbologia utilizzata.
Rappresentando i dati in un grafico cartesiano ti puoi accorgere visivamente se gli stessi hanno un andamento di tipo lineare.
Nell’immagine sopra trovi tre esempi tipici, vediamone il commento:
Grafico 1: Relazione Lineare. I punti si distribuiscono più o meno attorno alla retta e anche se questa non ci fosse, perché all'inizio mica ce la puoi avere, puoi immaginare che una retta possa ben rappresentare la relazione tra le due variabili.
Inoltre questo è supportato dal valore del coefficiente di regressione lineare (R = 0,938) che è molto vicino a 1 indicando una forte relazione positiva.
Guardando il grafico infatti, puoi notare che la nuvola di punti tende ad andare all’insù più ci si sposta verso destra. Lo scopo è quello di trovare una retta di regressione che passi in mezzo ai pallini, tecnicamente si dice che interpoli i punti.
Grafico 2: Relazione Quadratica. In questo caso i punti sembrano distribuirsi più su una parabola che su una retta, questo denota il fatto che esiste una relazione tra X e Y, ma non di tipo lineare, bensì quadratica.
Il coefficiente lineare di Pearson (R = 0,203) è molto basso indicando una scarsa relazione lineare.
Grafico 3: Relazione Inesistente. Qui i punti sono distribuiti in modo casuale nel grafico, generando una retta parallela all'asse X.
Questa avviene quando il coefficiente lineare di Pearson (R = 0) è nulla indicando l'assenza di una relazione lineare.
Se il concetto di retta di regressione lineare ti sembra ancora difficile, nel video iniziale te lo spiego in modo facile e chiaro attraverso una metafora: quella dell'aereo.
Rispettivamente per X e Y, somma ogni valore e dividi per il conteggio degli stessi.
Se hai dubbi sul calcolo, puoi guardare l’articolo dove ti spiego tutti i passaggi qui.
Covarianza XY = Momento Misto - (Media X * Media Y)
B1 = Covarianza XY / Varianza X
Il coefficiente B1 è anche il coefficiente angolare della retta di regressione, cioè la sua pendenza, per cui si interpreta dicendo che corrisponde all’incremento di Y quando aumenta di un’unità X.
B0 = Media Y - (B1 * Media X)
L’intercetta, detta anche ordinata all’origine, è il punto in cui la retta tocca l’asse delle Y pertanto corrisponde al valore di Y quando la X è pari a 0.
Questo parametro non è detto che sia commentabile ed infatti in questo esempio non lo è. Non può essere messo a zero il valore della variabile X in quanto non esistono neonati alti 0 cm.
Nel grafico sopra è rappresentata la distribuzione di 5 campi in cui un agricoltore ha raccolto dei cereali (in quintali) e vuole verificare se c'è stata una relazione in base alla quantità di fertilizzante usata (in chilogrammi)
La retta di regressione lineare è: Y = 4,73X + 60,676.
Riprendendo i commenti generici di una retta che ti ho messo all'inizio, vado a commentari specificatamente i parametri con i valori e le unità di misura dell'esempio.
B1 = 4,73. All'aumentare di 1 Kg di fertilizzante, il raccolto di cereali aumenta di 4,73 quintali.
B0 = 60,676. Se non uso fertilizzante, allora avrò un raccolto di cereali pari a 60,676 quintali. In questo caso c'è da dire che il commento non è reale in quanto non si può avere un raccolto senza fertilizzante.
In generale l'intercetta si commenta solo se ha senso mettere lo 0 al posto della X e se il risultato della Y è possibile. Per esempio se ci fosse stato un numero negativo non sarebbe reale avere un raccolto negativo
Se hai ancora dubbi su come risolvere gli esercizi sulla regressione lineare, guarda questo video dove ti mostro in modo semplice e veloce come calcolarla utilizzando la calcolatrice scientifica SHARP.
Una volta trovata la retta di regressione e interpretato i suoi parametri ci si può chiedere se è possibile prevedere altri valori grazie appunto al modello teorico.
Questo è permesso solo per un range di valori, quelli assunti dalla variabile indipendente (X).
Nell'esempio dunque potrai stimare valori compresi tra i 10 e i 35 chilogrammi di fertilizzante. Del resto puoi ben immaginare che se cresci all'infinito il valore del fertilizzante messo, non potrai aspettarti un raccolto infinito.
All’interno del modello lineare non ci sono solo i parametri da calcolare, ma tutta una serie di indicatori che spiegano se il modella sia buono oppure no.
Il più importante di questi è l’indice di bontà di adattamento, detto anche coefficiente di determinazione. Il suo simbolo è R2 o ⍴2 ed è un numero compreso tra 0 e 1. Quando è 0, il modello non spiega nulla, mentre quando è 1 il modello è perfetto.
Ovviamente non ti ritroverai mai ad assumere valori così estremi, dunque considera buono un indice che superi almeno lo 0,5.
Per calcolarlo di basterà elevare al quadrato il coefficiente di correlazione lineare di Pearson. Nel nostro esempio R2 = 0,88 è un valore molto alto (quasi mai raggiungibile) e pertanto un ottimo modello.
Il metodo dei minimi quadrati è il modo in cui vengono calcolati i parametri. Senza entrare nei dettagli tecnici, sappi che lo scopo è minimizzare la somma dei quadrati degli scarti.
Gli scarti residui del modello sono la differenza tra i valori reali e quelli teorici. Se sommi tali scarti otterrai sempre 0 pertanto si preferisce prendere i loro quadrati per avere una misura di quanto il modello si discosti dalla realtà.
Se provi a sostituire i parametri calcolati con altri inventati da te, vedrai che questa somma sarà sempre più grande. Ecco perché il metodo si chiama dei minimi quadrati.
Ricorda, infine, che per poter analizzare nel modo corretto la regressione lineare dovrai soddisfare una serie di assunzioni, che si riuniscono in tre categorie principali: distribuzioni dei residui, forma del modello e variabili indipendenti.
REGR.LIN (Y_note;X_note;Cost;Stat)
Scheda dati >>> Analisi dati >>> Regressione
Analizza >>> Regressione >>> Lineare
La teoria della probabilità non è in fondo che il buon senso ridotto a calcolo: essa fa apprezzare con precisione ciò che gli spiriti giusti sentono per una sorta di istinto, senza che essi possano, sovente, rendersene conto.
(PIERRE SIMON LAPLACE - Matematico francese)