whatsapp

adriano gilardone Docente di Statistica Matematica Excel Spss sfruttare excel consulenze statistiche lezione videocorsi

blog

blog

Varianza spiegata e Varianza residua

Ultima modifica (26 Febbraio 2025)

YouTube video

Postato il 17 Giugno 2020

Tag

Contenuti nascondi

1 Calcolo della varianza residua

1.1 Calcola i valori teorici ŷi

1.2 Calcola i valori residui

1.3 Fai il quadrato degli scarti

1.4 Calcolo finale

2 Calcolo della varianza spiegata

2.1 Calcola gli scarti dalla media

2.2 Fai il quadrato degli scarti

2.3 Calcolo finale

3 Esempio scomposizione della varianza

4 Indice di determinazione e indice di bontà

5 Varianza spiegata e varianza residua EXCEL

6 Varianza spiegata e varianza residua SPSS

Un concetto molto importante quando si studia un modello di regressione lineare è quello della scomposizione della varianza totale nella somma di due varianze: varianza spiegata e varianza residua.

In un precedente articolo ti ho parlato in modo approfondito della regressione lineare e anche della retta di regressione lineare, e quindi deve esserti chiaro il contesto in cui si opera.

Per aiutarti a delineare un'idea generale di questo argomento, qui ti aggiungo un video in cui te lo spiego in parole semplici, sfruttando una metafora statistica.

YouTube video — Retta di regressione lineare spiegata semplice con una metafora

Sebbene la scomposizione della varianza possa essere applicata anche a un modello multiplo, cioè con più variabili indipendenti, ora ci focalizziamo su un modello semplice, ovvero con una sola variabile indipendente.

In pratica stai stimando un modello teorico per trovare una funzione, la retta, che ti permetta di interpretare i dati reali. Per valutare se questo modello è buono calcoli un indice di bontà d’adattamento, che ti esprime l’attendibilità del modello stesso.

corsi statistica

Questo indice si identifica con R-quadro, ma la particolarità della retta è che lo puoi calcolare anche facendo il rapporto tra la varianza spiegata e la varianza totale. Questo risulterà importante quando ti approccerai ai modelli multipli, che tuttavia non godono di tale proprietà.

Prima di arrivare all'argomento che vediamo adesso, suppongo tu abbia già studiato e approfondito il calcolo della varianza totale, ma se hai dei dubbi e preferisci ripassarlo velocemente prima di andare avanti puoi dare un'occhiata all'articolo che ho scritto proprio su di esso.

Ti anticipo che questo calcolo può anche essere effettuato ragionando in termini di devianza, cioè prendendo le singole varianze e moltiplicandole per il numero totale di osservazioni N.

Test F — Formule per la Varianza Spiegata e Varianza Residua

Calcolo della varianza residua

Vediamo ora i vari passaggi da seguire per calcolare la varianza residua.

Calcola i valori teorici ŷ_i

Per prima cosa consideriamo la formula della retta di regressione: ŷ = B0 + B1*X.
Inserisci ogni valore osservato x_i nella retta e calcola i corrispondenti valori teorici ŷ_i.

I valori teorici sono quelli del modello che poi bisognerà confrontare con quelli reali.

analisi dati tesi

Calcola i valori residui

Fai la differenza tra i valori reali y_i e i valori teorici ŷ_i ottenendo i valori residui.

Questi vengono anche chiamati scarti del modello, cioè gli errori commessi.

Fai il quadrato degli scarti

Eleva al quadrato i residui e calcola la loro somma.

Tale somma è chiamata devianza residua e simboleggiata con l’acronimo inglese SSE, summary squares error.

Calcolo finale

Varianza residua = Devianza residua / N.

Più piccola è questa quantità e migliore sarà il modello che stai applicando.

Calcolo della varianza spiegata

Passiamo adesso a vedere come calcolare invece la varianza spiegata.

Calcola gli scarti dalla media

Fai la differenza tra i valori teorici ŷ_i e la media generale della variabile dipendente Y, ottenendo gli scarti dalla media (da non confondere con gli scarti residui di prima).

Fai il quadrato degli scarti

Eleva al quadrato gli scarti dalla media e calcola la loro somma.

Tale somma è chiamata devianza spiegata e simboleggiata con l’acronimo inglese SSR, summary squares regression.

Calcolo finale

Varianza spiegata = Devianza spiegata / N.

Più grande è questa quantità e migliore sarà il modello che sto applicando.

corso statistica

Esempio scomposizione della varianza

scomposizione varianza

scomposizione varianza

varianza spiegata

SSE = Devianza Residua = 0,064

SSR = Devianza Spiegata = 23,716

SST = Devianza Totale = SSE + SSR = 0,064 + 23,716 = 23,78

SSE / n = Varianza Residua = 0,064 / 5 = 0,013

SSR / n = Varianza Spiegata = 23,716 / 5 = 4,743

SST / n = Varianza Totale = Var RES + Var SP = 0,013 + 4,743 = 4,746

Indice di determinazione e indice di bontà

Indice di determinazione: I² = Varianza spiegata / Varianza totale

Indice di bontà di adattamento: R² = [ Cov (XY) ]² / [Var (X) * Var (Y)]

La particolarità della retta di regressione è che questi due indici risultano sempre uguali tra di loro, pertanto calcolare l’uno o l’altro é indifferente. Però dal punto di vista didattico è necessario conoscerli entrambi, perché solitamente sono richiesti in ogni esame universitario.

Dal punto di vista statistico, invece, questa relazione è importante perché nei modelli multipli non esiste questa proprietà, e quindi l’unica maniera per conoscere la bontà del modello é calcolare l’indice di determinazione che, come hai visto, puoi ottenere dalla scomposizione della varianza.

Anche per l'indice di bontà di adattamento ho creato un video esplicativo, che attraverso una metafora ti aiuta a capirne chiaramente il significato reale.

YouTube video — Indice R-quadro spiegato semplice con una metafora

Varianza spiegata e varianza residua EXCEL

Scheda Datai >>> Analisi dati >>> Regressione

Varianza spiegata e varianza residua SPSS

Analizza >>> Regressione >>> Lineare

Riassumendo

La varianza residua (denominata Error in inglese) valuta gli scarti, e nella vita reale gli scarti sono cose che si buttano via. Infatti sono gli errori del modello.

La varianza spiegata (denominata Regression in inglese) ti dice quanto il modello spiega la relazione tra le due variabili, ecco perché più è grande e migliore sarà la sua spiegazione.

Un ulteriore utilizzo della devianza residua e della devianza spiegata. Si tratta della tabella Anova (Analysis of Variance) la quale calcola un test F basato sul rapporto delle stesse con i propri gradi di libertà.

Il rapporto tra le due varianze dà luogo al test F.

Il rapporto tra la varianza spiegata e quella totale dà luogo all'indice R-quadro.

Le statistiche sono una forma di realizzazione del desiderio, proprio come i sogni.

(JEAN BAUDRILLARD - Filosofo e sociologo francese)

Iscriviti alla Newsletter

Se hai bisogno d’informazioni che non hai trovato nella sezione servizi o dei video corsi, scrivimi un messaggio o chiamami.
Domande, prezzi, richieste, delucidazioni...tutto quello che ti serve. Cercherò di risponderti entro le 24h.