fbpx

Retta di regressione lineare

Postato il 10 Giugno 2020
Tag

L’articolo di oggi tratta uno degli argomenti più importanti di tutta la statistica nell’ambito delle relazioni tra due variabili: la retta di regressione lineare dei minimi quadrati.

In sintesi scoprirai come creare un modello teorico per cui un fenomeno quantitativo (Y) dipenda da un altro quantitativo (X). Dietro questo semplice concetto ci sono tantissime cose da sapere per interpretare i dati reali.

Personalmente è uno dei temi che più mi piace spiegare a lezione e che trova un sacco di applicazioni nella vita quotidiana. Il modello si estende anche a più variabili e per questo si parla di regressione lineare multipla anziché semplice, ma in questo articolo mi limiterò a parlare di quest’ultima.

Premesse

Prima di iniziare è doveroso spiegare cosa si intende per relazione lineare tra due variabili. Significa che al crescere della variabile indipendente X, la variabile dipendente Y cresce (o decresce) come se fosse su una retta, quindi in maniera costante.

Ciò limita la relazione ad un solo tipo di andamento, quello lineare appunto. Se ti accorgi dal grafico a dispersione che ciò non avviene, vuol dire che il modello non è adeguato per interpretare i dati osservati.

C’è poi un numero, compreso tra -1 e +1, che ti misura quanto è intensa questa relazione. Si chiama coefficiente di correlazione lineare di Pearson.

Grafico a dispersione

Grafico a dispersione
Grafico a dispersione

La prima cosa da fare per studiare questa tecnica statistica è quella di rappresentare le variabili in un piano cartesiano.

Nell’immagine sopra trovi un esempio di neonati sui quali si sono misurate l’altezza e il peso. E’ logico aspettarsi che più un bambino è lungo e maggiore è il suo peso.

Guardando il grafico infatti, puoi notare che la nuvola di punti tende ad andare all’insù più ci si sposta verso destra. Lo scopo è quello di trovare una retta di regressione che passi in mezzo ai pallini, tecnicamente si dice che interpoli i punti.

Calcolo dei parametri

Calcola le medie aritmetiche.

Rispettivamente per X e Y, somma ogni valore e dividi per il conteggio degli stessi.

Calcola la varianza di X.

Se hai dubbi sul calcolo, puoi guardare l’articolo dove ti spiego tutti i passaggi qui.

Calcola la covarianza

La formula è: Covarianza XY = Momento Misto - (Media X * Media Y)

Momento misto

  • Moltiplica, per ogni riga, le xi * le yi
  • Somma la colonna delle xi * yi
  • Dividi la somma per N

Calcola il coefficiente di regressione (B1)

B1 = Covarianza XY / Varianza X

Il coefficiente B1 è anche il coefficiente angolare della retta di regressione per cui si interpreta dicendo che corrisponde all’incremento di Y quando aumenta di un’unità X. Nell’esempio B1 è pari a 0,132.

Tradotto, ogni cm in più del neonato, il peso aumenterà di 132 grammi.

Calcola l’intercetta (B0)

B0 = Media Y - (B1 * Media X)

L’intercetta, detta anche ordinata all’origine, è il punto in cui la retta tocca l’asse delle Y pertanto corrisponde al valore di Y quando la X è pari a 0.

Questo parametro non è detto che sia commentabile ed infatti in questo esempio non lo è. Non può essere messo a zero il valore della variabile X in quanto non esistono neonati alti 0 cm.

Scrivi la retta

Y = B0 + B1*X

Y = 3,037 + 0,132*X

Scrivendo la retta di regressione puoi calcolare i valori teorici che ti permettono di disegnarla all’interno del grafico a dispersione.

Retta di regressione lineare
Retta di regressione lineare

Bontà del modello

All’interno del modello lineare non ci sono solo i parametri da calcolare, ma tutta una serie di indicatori che spiegano se il modella sia buono oppure no.

Il più importante di questi è l’indice di bontà di adattamento, detto anche coefficiente di determinazione. Il suo simbolo è R2 o ⍴2 ed è un numero compreso tra 0 e 1. Quando è 0, il modello non spiega nulla, mentre quando è 1 il modello è perfetto.

Ovviamente non ti ritroverai mai ad assumere valori così estremi, dunque considera buono un indice che superi almeno lo 0,5.

Metodo dei minimi quadrati

Il metodo dei minimi quadrati è il modo in cui vengono calcolati i parametri. Senza entrare nei dettagli tecnici, sappi che lo scopo è minimizzare la somma dei quadrati degli scarti.

Gli scarti residui del modello sono la differenza tra i valori reali e quelli teorici. Se sommi tali scarti otterrai sempre 0 pertanto si preferisce prendere i loro quadrati per avere una misura di quanto il modello si discosti dalla realtà.

Se provi a sostituire i parametri calcolati con altri inventati da te, vedrai che questa somma sarà sempre più grande.

Regressione lineare EXCEL

REGR.LIN (Y_note;X_note;Cost;Stat)

PENDENZA (Y_note;X_note)

INTERCETTA (Y_note;X_note)

RQ (Y_note;X_note)

ERR.STD.YX (Y_note;X_note)

TENDENZA (Y_note;X_note;Nuove_x;Cost)

PREVISIONE.LINEARE (X;Y_note;X_note)

Regressione lineare SPSS

Analizza >>> Regressione >>> Lineare

Riassumendo

  • E' un modello lineare che spiega la relazione tra due variabili quantitative
  • La retta di regressione è formata da due parametri: il coefficiente angolare che dà la pendenza e l'intercetta che restituisce l'intersezione con l'asse X
  • E' utilizzata in molti campi per la sua versatilità. Economia, Psicologia, Sociologia, Medicina...

La teoria della probabilità non è in fondo che il buon senso ridotto a calcolo: essa fa apprezzare con precisione ciò che gli spiriti giusti sentono per una sorta di istinto, senza che essi possano, sovente, rendersene conto.

(PIERRE SIMON LAPLACE -  Matematico francese)

Iscriviti alla Newsletter

Se hai bisogno d’informazioni che non hai trovato nella sezione servizi o dei video corsi, scrivimi un messaggio o chiamami.
Domande, prezzi, richieste, delucidazioni...tutto quello che ti serve. Cercherò di risponderti entro le 24h.

Consenso al trattamento dei dati
Utilizzerò i tuoi dati (nome ed indirizzo mail) solo per inviarti gratuitamente via mail la newsletter mensile. Niente spam, niente scocciature, ti disiscrivi in un click quando vuoi.

linkedin facebook pinterest youtube rss twitter instagram facebook-blank rss-blank linkedin-blank pinterest youtube twitter instagram