fbpx

Varianza spiegata e Varianza residua

Postato il 17 Giugno 2020
Tag

Un concetto molto importante quando si studia un modello di regressione lineare è quello della scomposizione della varianza totale nella somma di due varianze: varianza spiegata e varianza residua.

In un precedente articolo ti ho parlato della retta di regressione lineare dei minimi quadrati e deve essere chiaro il contesto in cui si opera. Qui ti aggiungo un video in cui te la spiego in parole semplici.

Retta di regressione lineare

Sebbene la scomposizione della varianza possa essere applicata anche a un modello multiplo, cioè con più variabili indipendenti, ora ci focalizziamo su un modello semplice, ovvero con una sola variabile indipendente.

In pratica stai stimando un modello teorico per trovare una funzione, la retta, che ti permetta di interpretare i dati reali. Per valutare se questo modello è buono calcoli un indice di bontà d’adattamento che ti esprime l’attendibilità del modello stesso.

Questo indice si identifica con R-quadro, ma la particolarità della retta è che lo puoi calcolare anche facendo il rapporto tra la varianza spiegata e la varianza totale. Questo risulta importante quando ti approccerai ai modelli multipli che tuttavia non godono di tale proprietà.

Si presuppone che tu conosca già il calcolo della varianza totale, ma se hai dei dubbi puoi rifarti all’articolo di riferimento.

Si può anche ragionare in termini di devianza, cioè prendere le singole varianze e moltiplicarle per il numero totale di osservazioni N.

Varianza spiegata
Varianza Spiegata e Varianza Residua

Calcolo della varianza residua

Calcola i valori teorici ŷi.

La retta di regressione ha la seguente formula: ŷ = B0 + B1*X. 

Inserisci ogni valore osservato xi nella retta e calcola i corrispondenti valori teorici ŷi. I valori teorici sono quelli del modello che poi bisognerà confrontare con quelli reali.

Calcola i valori residui.

Fai la differenza tra i valori reali yi e i valori teorici ŷi ottenendo i valori residui. Questi vengono anche chiamati scarti del modello, cioè gli errori commessi.

Fai il quadrato degli scarti.

Eleva al quadrato i residui e calcola la loro somma. Tale somma è chiamata devianza residua e simboleggiata con l’acronimo inglese SSE, summary squares error.

Calcolo finale.

Varianza residua = Devianza residua / N.

Più piccola è questa quantità e migliore sarà il modello che stai applicando.

Calcolo della varianza spiegata

Calcola gli scarti dalla media.

Fai la differenza tra i valori teorici ŷi e la media generale della variabile dipendente Y, ottenendo gli scarti dalla media (da non confondere con gli scarti residui di prima).

Fai il quadrato degli scarti.

Eleva al quadrato gli scarti dalla media e calcola la loro somma. Tale somma è chiamata devianza spiegata e simboleggiata con l’acronimo inglese SSR, summary squares regression.

Calcolo finale.

Varianza spiegata = Devianza spiegata / N.

Più grande è questa quantità e migliore sarà il modello che sto applicando.

Se hai problemi nel calcolo della scomposizione della varianza ti consiglio di usare al meglio la calcolatrice scientifica che ti fa risparmiare tempo e fatica. Qui trovi il mio video di spiegazione.

Scomposizione della varianza

Indice di determinazione e indice di bontà

Indice di determinazione: I2 = Varianza spiegata / Varianza totale

Indice di bontà di adattamento: R2 = [ Cov (XY) ]2 / [Var (X) * Var (Y)]

La particolarità della retta di regressione è che questi due indici risultano sempre uguali tra di loro, pertanto calcolare l’uno o l’altro é indifferente.

Dal punto di vista didattico è necessario conoscerli entrambi perché solitamente sono richiesti in ogni esame universitario.

Dal punto di vista statistico invece è importante questa relazione perché nei modelli multipli non esiste questa proprietà e quindi l’unica maniera per conoscere la bontà del modello é calcolare l’indice di determinazione che, come hai visto, lo ottieni dalla scomposizione della varianza.

Anche per questo indice ho creato un video esplicativo che attraverso una metafora ti fa capire il significato reale.

Indice R-quadro

VARIANZA SPIEGATA E VARIANZA RESIDUA EXCEL

Scheda DATI >>> Analisi dati >>> Regressione

VARIANZA SPIEGATA E VARIANZA RESIDUA SPSS

Analizza >>> Regressione >>> Lineare

Riassumendo

  • La varianza residua (denominata Error in inglese) valuta scarti e nella vita reale gli scarti sono cose che si buttano via. Infatti sono gli errori del modello.
  • La varianza spiegata (denominata Regression in inglese) ti dice quanto il modello spiega la relazione tra le due variabili ecco perché più è grande e migliore sarà la sua spiegazione.
  • Oltre a tutto quello che hai imparato sopra, c’è anche un ulteriore utilizzo della devianza residua e della devianza spiegata. Si tratta della tabella Anova (Analysis of Variance) la quale calcola un test F basato sul rapporto delle stesse con i propri gradi di libertà.
  • Il rapporto tra le due varianze dà luogo al test F.
  • Il rapporto tra la varianza spiegata e quella totale dà luogo all'indice R-quadro.

Le statistiche sono una forma di realizzazione del desiderio, proprio come i sogni.

(JEAN BAUDRILLARD -  Filosofo e sociologo francese)

Iscriviti alla Newsletter

Se hai bisogno d’informazioni che non hai trovato nella sezione servizi o dei video corsi, scrivimi un messaggio o chiamami.
Domande, prezzi, richieste, delucidazioni...tutto quello che ti serve. Cercherò di risponderti entro le 24h.

Consenso al trattamento dei dati
Utilizzerò i tuoi dati (nome ed indirizzo mail) solo per inviarti gratuitamente via mail la newsletter mensile. Niente spam, niente scocciature, ti disiscrivi in un click quando vuoi.

linkedin facebook pinterest youtube rss twitter instagram facebook-blank rss-blank linkedin-blank pinterest youtube twitter instagram