adriano gilardone Docente di Statistica Matematica Excel Spss sfruttare excel consulenze statistiche lezione videocorsi

blog

blog

La regressione lineare

YouTube video
Postato il 10 Giugno 2020
Tag

L’articolo di oggi tratta uno degli argomenti più importanti di tutta la statistica nell’ambito delle relazioni tra due variabili: la regressione lineare.

corso statistica

La regressione in statistica

Cominciamo dal capire che cosa voglia dire, in statistica, il termine regressione: la regressione è un indicatore statistico che indica l'esistenza o meno di una relazione significativa tra due (analisi bivariata) o più variabili (analisi multivariata) quantitative.

I modelli di regressione lineare

La regressione lineare viene utilizzata in statistica per stabilire una relazione tra una variabile Y (dipendente) e una variabile X (esplicativa), detta anche regressore. É composta, inoltre, da un coefficiente di regressione per ognuna delle variabili esplicative presenti più uno per l'intercetta e, infine, da un termine di errore, o termine residuo.

Ma cosa significa analizzare la relazione lineare tra due variabili? Significa che, al crescere della variabile indipendente X, la variabile dipendente Y cresce (o decresce) come se fosse su una retta, quindi in maniera costante.

Dal numero di variabili esplicative presenti si possono delinare due diversi modelli di regressione lineare:

  • Modello di regressione lineare semplice: c’è un solo regressore, quindi la relazione è tra due variabili
  • Modello di regressione lineare multiplo (o multivariata): c’è più di un regressore, quindi si analizza l'effetto che più variabili indipendenti (X1, X2,..., Xi) hanno sulla variabile dipendente Y.

Che cos'è la retta

Poichè, come abbiamo visto, la regressione lineare si basa sull'equazione della retta, rivediamo intanto che cos'è una retta.

Come ricorderai dalle lezioni di matematica delle scuole medie, per definire la retta solitamente si dice che:

  • La retta è una linea infinita
  • Per un punto passano infinite rette

Una volta sottolineata la sua definizione teorica, per poterla effettivamente disegnare si ha bisogno però di sapere da quale punto parte e, soprattutto, la sua pendenza, cioè quanto è inclinata.

La formula della retta è Y = B0 + B1 * X, e risolverla risponde proprio alle due domande che ci siamo appena posti, infatti prende in considerazione:

  • L'intercetta (B0), che è il punto in cui la retta interseca l'asse delle Y, e quindi ci dice da dove ha "origine" la retta
  • Il coefficiente angolare della retta (B1), cioè il valore numerico che indica la sua pendenza

La formula ti mostra quindi come si calcola la pendenza di una retta, oppure, a seconda di cosa ti serve sapere, come calcolare il coefficiente angolare.

La retta di regressione lineare

Ora che abbiamo ben chiaro non solo il concetto di regressione ma anche quello di retta, vediamo come utilizzare e calcolare la retta di regressione lineare dei minimi quadrati, e quindi come creare un modello teorico per cui un fenomeno quantitativo (Y) dipenda da un altro quantitativo (X)

Come abbiamo visto all'inizio, il tipo di analisi che stiamo effettuando è quello della relazione lineare, e questo limita la relazione ad un solo tipo di andamento, quello lineare appunto. Se ti accorgi dal grafico a dispersione che ciò non avviene, vuol dire che il modello non è adeguato per interpretare i dati osservati.

C’è poi un numero, compreso tra -1 e +1, che ti misura quanto è intensa questa relazione. Si chiama coefficiente di correlazione lineare di Pearson.

Grafico a dispersione

Grafico a dispersione
Grafico a dispersione

Vediamo un esempio di regressione lineare: la prima cosa da fare per studiare questa tecnica statistica è quella di rappresentare le variabili in un piano cartesiano.

Nell’immagine sopra trovi un esempio di neonati sui quali si sono misurate l’altezza e il peso. É logico aspettarsi che più un bambino è lungo e maggiore è il suo peso.

Guardando il grafico infatti, puoi notare che la nuvola di punti tende ad andare all’insù più ci si sposta verso destra. Lo scopo è quello di trovare una retta di regressione che passi in mezzo ai pallini, tecnicamente si dice che interpoli i punti.

Se il concetto di retta di regressione lineare ti sembra ancora difficile, nel inizialevideo te lo spiego in modo facile e chiaro attraverso una metafora: quella dell'aereo.

Calcolo dei parametri

Calcola le medie aritmetiche

Rispettivamente per X e Y, somma ogni valore e dividi per il conteggio degli stessi.

Calcola la varianza di X

Se hai dubbi sul calcolo, puoi guardare l’articolo dove ti spiego tutti i passaggi qui.

Calcola la covarianza

La formula è: Covarianza XY = Momento Misto - (Media X * Media Y)

Momento misto

  • Moltiplica, per ogni riga, le xi * le yi
  • Somma la colonna delle xi * yi
  • Dividi la somma per N

Calcola il coefficiente di regressione (B1)

B1 = Covarianza XY / Varianza X

Il coefficiente B1 è anche il coefficiente angolare della retta di regressione, cioè la sua pendenza, per cui si interpreta dicendo che corrisponde all’incremento di Y quando aumenta di un’unità X. Nell’esempio B1 è pari a 0,132.

Tradotto, ogni cm in più del neonato, il peso aumenterà di 132 grammi.

analisi dati tesi

Calcola l’intercetta (B0)

B0 = Media Y - (B1 * Media X)

L’intercetta, detta anche ordinata all’origine, è il punto in cui la retta tocca l’asse delle Y pertanto corrisponde al valore di Y quando la X è pari a 0.

Questo parametro non è detto che sia commentabile ed infatti in questo esempio non lo è. Non può essere messo a zero il valore della variabile X in quanto non esistono neonati alti 0 cm.

Scrivi la retta

Y = B0 + B1*X

Y = 3,037 + 0,132*X

Scrivendo la retta di regressione puoi calcolare i valori teorici che ti permettono di disegnarla all’interno del grafico a dispersione.

Retta di regressione lineare
Retta di regressione lineare

Se hai ancora dubbi su come risolvere gli esercizi sulla regressione lineare, guarda questo video dove ti mostro in modo semplice e veloce come calcolarla utilizzando la calcolatrice scientifica SHARP.

YouTube video
Regressione lineare con la calcolatrice SHARP

Bontà del modello

All’interno del modello lineare non ci sono solo i parametri da calcolare, ma tutta una serie di indicatori che spiegano se il modella sia buono oppure no.

Il più importante di questi è l’indice di bontà di adattamento, detto anche coefficiente di determinazione. Il suo simbolo è R2 o ⍴2 ed è un numero compreso tra 0 e 1. Quando è 0, il modello non spiega nulla, mentre quando è 1 il modello è perfetto.

Ovviamente non ti ritroverai mai ad assumere valori così estremi, dunque considera buono un indice che superi almeno lo 0,5.

YouTube video
Bontà del modello spiegata semplice

Metodo dei minimi quadrati

Il metodo dei minimi quadrati è il modo in cui vengono calcolati i parametri. Senza entrare nei dettagli tecnici, sappi che lo scopo è minimizzare la somma dei quadrati degli scarti.

Gli scarti residui del modello sono la differenza tra i valori reali e quelli teorici. Se sommi tali scarti otterrai sempre 0 pertanto si preferisce prendere i loro quadrati per avere una misura di quanto il modello si discosti dalla realtà.

Se provi a sostituire i parametri calcolati con altri inventati da te, vedrai che questa somma sarà sempre più grande.

corso statistica

Le assunzioni

Ricorda, infine, che per poter analizzare nel modo corretto la regressione lineare dovrai soddisfare una serie di assunzioni, che si riuniscono in tre categorie principali: distribuzioni dei residui, forma del modello e variabili indipendenti.

YouTube video

Distribuzioni dei residui

Indipendenza dei residui

  • Effetto su: Varianza d'errore, R2, Test inferenziali, Errore di I e II tipo
  • Verifica: Controllo del disegno di ricerca, Correlazione intra-classe
  • Rimedi: Anova a Misure Ripetute, Modello lineare misto

Omoschedasticità

  • Effetto su: Varianza d'errore, R2, Test inferenziali
  • Verifica: Scatterplot tra residui e predetti, Test di Levene (Anova), Test di Breusch-Pagan (Regressione)
  • Rimedi: Trasformazioni delle variabili, Test non parametrici

Normalità dei residui

  • Effetto su: Test inferenziali
  • Verifica: Istogramma dei residui, Q-Q Plot, Test di Kolmogorov-Smirnov
  • Rimedi: Trasformazioni delle variabili, Test non parametrici, Modello Lineare Generalizzato

Outlier

  • Effetto su: Tutte le stime del modello
  • Verifica: Scatterplot tra variabili, Scatterplot tra residui e predetti, Istogramma dei residui
  • Rimedi: Eliminazione degli outlier

Forma del modello

Linearità dei coefficienti

  • Effetto su: Coefficienti
  • Verifica: Scatterplot tra variabili
  • Rimedi: Trasformazioni delle variabili, Test non parametrici, Modello Lineare Generalizzato

Coefficienti fissi

  • Effetto su: Tutte le stime del modello
  • Verifica: Controllo del disegno di ricerca
  • Rimedi: Anova a Misure Ripetute, Modello lineare misto

Completezza del modello

  • Effetto su: Tutte le stime (Underfitting), Test sui coefficienti (Overfitting)
  • Verifica: Analisi teorica del modello studiato
  • Rimedi: Interpretazione corretta dei coefficienti

Variabili indipendenti

Assenza di Multicollinearità

  • Effetto su: Test inferenziali sui coefficienti
  • Verifica: Correlazione fra variabili indipendenti
  • Rimedi: Eliminazione delle variabili multicollineari

Assenza di Errore

  • Effetto su: Coefficienti, R2, Test inferenziali
  • Verifica: Analisi del modello di misura delle variabili
  • Rimedi: Modelli di equazioni strutturali

Regressione lineare EXCEL

REGR.LIN (Y_note;X_note;Cost;Stat)

(Y_note;X_note)

(Y_note;X_note)

(Y_note;X_note)

(Y_note;X_note)

(Y_note;X_note;Nuove_x;Cost)

(X;Y_note;X_note)

Regressione lineare multipla EXCEL

Scheda dati >>> Analisi dati >>> Regressione

Regressione lineare SPSS

Analizza >>> Regressione >>> Lineare

YouTube video
Intro al capitolo sulla regressione lineare corso SPSS

Riassumendo

  • La regressione lineare è una tecnica statistica che valuta la relazione tra una variabile quantitativa e una o più variabili quantitative o dummy.
  • La regressione lineare semplice (retta) spiega la relazione tra due variabili quantitative.
  • La regressione lineare multipla spiega la relazione tra più variabili quantitative.
  • La retta di regressione è formata da due parametri: il coefficiente angolare, che dà la pendenza, e l'intercetta che restituisce l'intersezione con l'asse X
  • Affinchè i modelli siano attendibili, devono rispettare delle assunzioni, divise in tre categorie: distribuzioni dei residui, forma del modello e variabili indipendenti.
  • Per la sua versatilità, è utilizzata in molti campi: economia, psicologia, sociologia, medicina...

La teoria della probabilità non è in fondo che il buon senso ridotto a calcolo: essa fa apprezzare con precisione ciò che gli spiriti giusti sentono per una sorta di istinto, senza che essi possano, sovente, rendersene conto.

(PIERRE SIMON LAPLACE -  Matematico francese)

Ripetizioni private

Ho intrapreso una interessante collaborazione con il sito di TROVAPROF.IT

Questa start-up mette in relazione studenti che cercano lezioni private con professori di qualsiasi materia. Se stai cercano delle ripetizioni per le materie che non tratto io, allora ti consiglio di fare un salto su TROVAPROF.IT, un portale completamente gratuito per dare o ricevere lezioni private.

Iscriviti alla Newsletter

Se hai bisogno d’informazioni che non hai trovato nella sezione servizi o dei video corsi, scrivimi un messaggio o chiamami.
Domande, prezzi, richieste, delucidazioni...tutto quello che ti serve. Cercherò di risponderti entro le 24h.
Newsletter

Consenso al trattamento dei dati
Utilizzerò i tuoi dati (nome ed indirizzo mail) solo per inviarti gratuitamente via mail la newsletter mensile. Niente spam, niente scocciature, ti disiscrivi in un click quando vuoi.

linkedin facebook pinterest youtube rss twitter instagram facebook-blank rss-blank linkedin-blank pinterest youtube twitter instagram