adriano gilardone Docente di Statistica Matematica Excel Spss sfruttare excel consulenze statistiche lezione videocorsi

blog

blog

La regressione lineare

YouTube video
Postato il 10 Giugno 2020
Tag

La retta di regressione lineare è uno degli argomenti più importanti di tutta la statistica bivariata che si occupa di individuare una relazione tra due variabili.

corso statistica

La regressione in statistica

Cominciamo dal capire che cosa voglia dire, in statistica, il termine regressione. Come detto la regressione indica l'esistenza o meno di una relazione significativa tra due variabili quantitative (analisi bivariata) o tra più variabili (analisi multivariata).

Il termine regressione risale al biologo inglese Galton che esaminando le altezze dei genitori con i propri figli notando che vi era una relazione: più alti erano i genitori, più alti erano i figli.

Tuttavia per valori estremi, cioè con genitori molto bassi o molto alti, non c'era corrispondenza di figli molto alti o molto bassi, questo perché In altre parole, l’altezza dei figli regrediva verso la media. 

Da qui il concetto fondante della regressione statistica che prevede lo studio della regressione verso la media.

I modelli di regressione lineare

La regressione lineare viene utilizzata in statistica per stabilire una relazione tra una variabile indipendente (X), detta anche regressore, che influisce e in parte spiega una variabile dipendente (Y).

É composta da un coefficiente di regressione per ognuna delle variabili esplicative presenti, dall'intercetta e da un termine di errore, o termine residuo.

Ma cosa significa analizzare la relazione lineare tra due variabili? Significa che, al crescere della variabile indipendente X, la variabile dipendente Y cresce (o decresce) come se fosse su una retta, quindi in maniera costante.

Dal numero di variabili esplicative presenti si possono delineare due diversi modelli di regressione lineare:

  • Modello di regressione lineare semplice: c’è un solo regressore, quindi la relazione è tra due variabili
  • Modello di regressione lineare multiplo: c’è più di un regressore, quindi si analizza l'effetto che più variabili indipendenti (X1, X2,..., Xi) hanno sulla variabile dipendente Y.

Che cos'è la retta

Il concetto di una retta dovresti avercelo presente fin dai primi anni della scuola elementare, ma vediamo insieme quali sono le principali cose da sapere:

La formula di una generica retta è Y = mX + q, dove:

X = variabile indipendente

Y = variabile dipendente

m = coefficiente angolare, indica la pendenza della retta

q = intercetta, indica il punto in cui la retta interseca l'asse delle ordinate (Y)

Ora vediamo come commentare i parametri in modo generico, a seconda dei valori che possono assumere il coefficiente angolare (m) e l'intercetta (q).

Coefficiente angolare

m > 0: Retta Crescente. All'aumentare di un'unità di X, la variabile Y aumenta del valore di m.

m = 0: Retta Costante. All'aumentare di un'unità di X, la variabile Y rimane costante.

m < 0: Retta Decrescente. All'aumentare di un'unità di X, la variabile Y diminuisce del valore di m.

Intercetta

q > 0: Intercetta Positiva. Quando la X = 0, la retta interseca l'asse Y in un punto positivo.

q = 0: Intercetta Nulla. Quando la X = 0, la retta interseca l'asse Y nell'origine.

q < 0: Intercetta Negativa. Quando la X = 0, la retta interseca l'asse Y in un punto negativo.

La retta di regressione lineare

Ora che abbiamo ben chiaro non solo il concetto di regressione ma anche quello di retta, vediamo come utilizzare e calcolare la retta di regressione lineare dei minimi quadrati, e quindi come creare un modello teorico per cui un fenomeno quantitativo (Y) dipenda da un altro quantitativo (X).

Come abbiamo visto all'inizio, il tipo di analisi che stiamo effettuando è quello della relazione lineare, e questo limita la relazione ad un solo tipo di andamento, quello lineare appunto.

Se ti accorgi dal grafico a dispersione che ciò non avviene, vuol dire che il modello non è adeguato per interpretare i dati osservati.

C’è poi un numero, compreso tra -1 e +1, che ti misura quanto è intensa questa relazione. Si chiama coefficiente di correlazione lineare di Pearson.

In generale la formula della retta di regressione lineare è questa:

Y = B0 + B1 * X, dove:

B0 è l'intercetta e prende il posto della q

B1 è il coefficiente angolare e prende il posto della m

In alcuni manuali puoi trovare lettere differenti, per esempio quelle greche di α e β. Il significato è lo stesso, cambia solo la simbologia utilizzata.

Grafico a dispersione

regressione lineare

Rappresentando i dati in un grafico cartesiano ti puoi accorgere visivamente se gli stessi hanno un andamento di tipo lineare.

Nell’immagine sopra trovi tre esempi tipici, vediamone il commento:

Grafico 1: Relazione Lineare. I punti si distribuiscono più o meno attorno alla retta e anche se questa non ci fosse, perché all'inizio mica ce la puoi avere, puoi immaginare che una retta possa ben rappresentare la relazione tra le due variabili.

Inoltre questo è supportato dal valore del coefficiente di regressione lineare (R = 0,938) che è molto vicino a 1 indicando una forte relazione positiva.

Guardando il grafico infatti, puoi notare che la nuvola di punti tende ad andare all’insù più ci si sposta verso destra. Lo scopo è quello di trovare una retta di regressione che passi in mezzo ai pallini, tecnicamente si dice che interpoli i punti.

Grafico 2: Relazione Quadratica. In questo caso i punti sembrano distribuirsi più su una parabola che su una retta, questo denota il fatto che esiste una relazione tra X e Y, ma non di tipo lineare, bensì quadratica.

Il coefficiente lineare di Pearson (R = 0,203) è molto basso indicando una scarsa relazione lineare.

Grafico 3: Relazione Inesistente. Qui i punti sono distribuiti in modo casuale nel grafico, generando una retta parallela all'asse X.

Questa avviene quando il coefficiente lineare di Pearson (R = 0) è nulla indicando l'assenza di una relazione lineare.

Se il concetto di retta di regressione lineare ti sembra ancora difficile, nel video iniziale te lo spiego in modo facile e chiaro attraverso una metafora: quella dell'aereo.

Calcolo dei parametri

Calcola le medie aritmetiche

Rispettivamente per X e Y, somma ogni valore e dividi per il conteggio degli stessi.

Calcola la varianza di X

Se hai dubbi sul calcolo, puoi guardare l’articolo dove ti spiego tutti i passaggi qui.

Calcola la covarianza

Covarianza XY = Momento Misto - (Media X * Media Y)

Momento misto

  • Moltiplica, per ogni riga, le xi * le yi
  • Somma la colonna delle xi * yi
  • Dividi la somma per N

Calcola il coefficiente di regressione (B1)

B1 = Covarianza XY / Varianza X

Il coefficiente B1 è anche il coefficiente angolare della retta di regressione, cioè la sua pendenza, per cui si interpreta dicendo che corrisponde all’incremento di Y quando aumenta di un’unità X.

analisi dati tesi

Calcola l’intercetta (B0)

B0 = Media Y - (B1 * Media X)

L’intercetta, detta anche ordinata all’origine, è il punto in cui la retta tocca l’asse delle Y pertanto corrisponde al valore di Y quando la X è pari a 0.

Questo parametro non è detto che sia commentabile ed infatti in questo esempio non lo è. Non può essere messo a zero il valore della variabile X in quanto non esistono neonati alti 0 cm.

Esempio retta di regressione lineare

Retta di regressione lineare

Nel grafico sopra è rappresentata la distribuzione di 5 campi in cui un agricoltore ha raccolto dei cereali (in quintali) e vuole verificare se c'è stata una relazione in base alla quantità di fertilizzante usata (in chilogrammi)

La retta di regressione lineare è: Y = 4,73X + 60,676.

Riprendendo i commenti generici di una retta che ti ho messo all'inizio, vado a commentari specificatamente i parametri con i valori e le unità di misura dell'esempio.

B1 = 4,73. All'aumentare di 1 Kg di fertilizzante, il raccolto di cereali aumenta di 4,73 quintali.

B0 = 60,676. Se non uso fertilizzante, allora avrò un raccolto di cereali pari a 60,676 quintali. In questo caso c'è da dire che il commento non è reale in quanto non si può avere un raccolto senza fertilizzante.

In generale l'intercetta si commenta solo se ha senso mettere lo 0 al posto della X e se il risultato della Y è possibile. Per esempio se ci fosse stato un numero negativo non sarebbe reale avere un raccolto negativo

Se hai ancora dubbi su come risolvere gli esercizi sulla regressione lineare, guarda questo video dove ti mostro in modo semplice e veloce come calcolarla utilizzando la calcolatrice scientifica SHARP.

YouTube video
Regressione lineare con la calcolatrice SHARP

Range dei valori

Una volta trovata la retta di regressione e interpretato i suoi parametri ci si può chiedere se è possibile prevedere altri valori grazie appunto al modello teorico.

Questo è permesso solo per un range di valori, quelli assunti dalla variabile indipendente (X).

Nell'esempio dunque potrai stimare valori compresi tra i 10 e i 35 chilogrammi di fertilizzante. Del resto puoi ben immaginare che se cresci all'infinito il valore del fertilizzante messo, non potrai aspettarti un raccolto infinito.

Bontà del modello

All’interno del modello lineare non ci sono solo i parametri da calcolare, ma tutta una serie di indicatori che spiegano se il modella sia buono oppure no.

Il più importante di questi è l’indice di bontà di adattamento, detto anche coefficiente di determinazione. Il suo simbolo è R2 o ⍴2 ed è un numero compreso tra 0 e 1. Quando è 0, il modello non spiega nulla, mentre quando è 1 il modello è perfetto.

Ovviamente non ti ritroverai mai ad assumere valori così estremi, dunque considera buono un indice che superi almeno lo 0,5.

Per calcolarlo di basterà elevare al quadrato il coefficiente di correlazione lineare di Pearson. Nel nostro esempio R2 = 0,88 è un valore molto alto (quasi mai raggiungibile) e pertanto un ottimo modello.

YouTube video
Bontà del modello spiegata semplice

Metodo dei minimi quadrati

Il metodo dei minimi quadrati è il modo in cui vengono calcolati i parametri. Senza entrare nei dettagli tecnici, sappi che lo scopo è minimizzare la somma dei quadrati degli scarti.

Gli scarti residui del modello sono la differenza tra i valori reali e quelli teorici. Se sommi tali scarti otterrai sempre 0 pertanto si preferisce prendere i loro quadrati per avere una misura di quanto il modello si discosti dalla realtà.

Se provi a sostituire i parametri calcolati con altri inventati da te, vedrai che questa somma sarà sempre più grande. Ecco perché il metodo si chiama dei minimi quadrati.

corso statistica

Le assunzioni

Ricorda, infine, che per poter analizzare nel modo corretto la regressione lineare dovrai soddisfare una serie di assunzioni, che si riuniscono in tre categorie principali: distribuzioni dei residui, forma del modello e variabili indipendenti.

YouTube video

Distribuzioni dei residui

Indipendenza dei residui

  • Effetto su: Varianza d'errore, R2, Test inferenziali, Errore di I e II tipo
  • Verifica: Controllo del disegno di ricerca, Correlazione intra-classe
  • Rimedi: Anova a Misure Ripetute, Modello lineare misto

Omoschedasticità

  • Effetto su: Varianza d'errore, R2, Test inferenziali
  • Verifica: Scatterplot tra residui e predetti, Test di Levene (Anova), Test di Breusch-Pagan (Regressione)
  • Rimedi: Trasformazioni delle variabili, Test non parametrici

Normalità dei residui

  • Effetto su: Test inferenziali
  • Verifica: Istogramma dei residui, Q-Q Plot, Test di Kolmogorov-Smirnov
  • Rimedi: Trasformazioni delle variabili, Test non parametrici, Modello Lineare Generalizzato

Outlier

  • Effetto su: Tutte le stime del modello
  • Verifica: Scatterplot tra variabili, Scatterplot tra residui e predetti, Istogramma dei residui
  • Rimedi: Eliminazione degli outlier

Forma del modello

Linearità dei coefficienti

  • Effetto su: Coefficienti
  • Verifica: Scatterplot tra variabili
  • Rimedi: Trasformazioni delle variabili, Test non parametrici, Modello Lineare Generalizzato

Coefficienti fissi

  • Effetto su: Tutte le stime del modello
  • Verifica: Controllo del disegno di ricerca
  • Rimedi: Anova a Misure Ripetute, Modello lineare misto

Completezza del modello

  • Effetto su: Tutte le stime (Underfitting), Test sui coefficienti (Overfitting)
  • Verifica: Analisi teorica del modello studiato
  • Rimedi: Interpretazione corretta dei coefficienti

Variabili indipendenti

Assenza di Multicollinearità

  • Effetto su: Test inferenziali sui coefficienti
  • Verifica: Correlazione fra variabili indipendenti
  • Rimedi: Eliminazione delle variabili multicollineari

Assenza di Errore

  • Effetto su: Coefficienti, R2, Test inferenziali
  • Verifica: Analisi del modello di misura delle variabili
  • Rimedi: Modelli di equazioni strutturali

Regressione lineare EXCEL

REGR.LIN (Y_note;X_note;Cost;Stat)

Regressione lineare multipla EXCEL

Scheda dati >>> Analisi dati >>> Regressione

Regressione lineare SPSS

Analizza >>> Regressione >>> Lineare

YouTube video
Intro al capitolo sulla regressione lineare corso SPSS

Riassumendo

  • La regressione lineare è una tecnica statistica che valuta la relazione tra una variabile quantitativa e una o più variabili quantitative o dummy.
  • La regressione lineare semplice (retta) spiega la relazione tra due variabili quantitative.
  • La regressione lineare multipla spiega la relazione tra più variabili quantitative.
  • La retta di regressione è formata da due parametri: il coefficiente angolare, che dà la pendenza, e l'intercetta che restituisce l'intersezione con l'asse X
  • Affinchè i modelli siano attendibili, devono rispettare delle assunzioni, divise in tre categorie: distribuzioni dei residui, forma del modello e variabili indipendenti.
  • Per la sua versatilità, è utilizzata in molti campi: economia, psicologia, sociologia, medicina...

La teoria della probabilità non è in fondo che il buon senso ridotto a calcolo: essa fa apprezzare con precisione ciò che gli spiriti giusti sentono per una sorta di istinto, senza che essi possano, sovente, rendersene conto.

(PIERRE SIMON LAPLACE -  Matematico francese)

Ripetizioni private

Ho intrapreso una interessante collaborazione con il sito di TROVAPROF.IT

Questa start-up mette in relazione studenti che cercano lezioni private con professori di qualsiasi materia. Se stai cercano delle ripetizioni per le materie che non tratto io, allora ti consiglio di fare un salto su TROVAPROF.IT, un portale completamente gratuito per dare o ricevere lezioni private.

Iscriviti alla Newsletter

Se hai bisogno d’informazioni che non hai trovato nella sezione servizi o dei video corsi, scrivimi un messaggio o chiamami.
Domande, prezzi, richieste, delucidazioni...tutto quello che ti serve. Cercherò di risponderti entro le 24h.
Newsletter

Consenso al trattamento dei dati
Utilizzerò i tuoi dati (nome ed indirizzo mail) solo per inviarti gratuitamente via mail la newsletter mensile. Niente spam, niente scocciature, ti disiscrivi in un click quando vuoi.

linkedin facebook pinterest youtube rss twitter instagram facebook-blank rss-blank linkedin-blank pinterest youtube twitter instagram