Un concetto molto importante quando si studia un modello di regressione lineare è quello della scomposizione della varianza totale nella somma di due varianze: varianza spiegata e varianza residua.
In un precedente articolo ti ho parlato in modo approfondito della regressione lineare e anche della retta di regressione lineare, e quindi deve esserti chiaro il contesto in cui si opera. Per aiutarti a delineare un'idea generale di questo argomento, qui ti aggiungo un video in cui te lo spiego in parole semplici, sfruttando una metafora statistica.
Sebbene la scomposizione della varianza possa essere applicata anche a un modello multiplo, cioè con più variabili indipendenti, ora ci focalizziamo su un modello semplice, ovvero con una sola variabile indipendente.
In pratica stai stimando un modello teorico per trovare una funzione, la retta, che ti permetta di interpretare i dati reali. Per valutare se questo modello è buono calcoli un indice di bontà d’adattamento, che ti esprime l’attendibilità del modello stesso.
Questo indice si identifica con R-quadro, ma la particolarità della retta è che lo puoi calcolare anche facendo il rapporto tra la varianza spiegata e la varianza totale. Questo risulterà importante quando ti approccerai ai modelli multipli, che tuttavia non godono di tale proprietà.
Prima di arrivare all'argomento che vediamo adesso, suppongo tu abbia già studiato e approfondito il calcolo della varianza totale, ma se hai dei dubbi e preferisci ripassarlo velocemente prima di andare avanti puoi dare un'occhiata all'articolo che ho scritto proprio su di esso.
Ti anticipo che questo calcolo può anche essere effettuato ragionando in termini di devianza, cioè prendendo le singole varianze e moltiplicandole per il numero totale di osservazioni N.
Vediamo ora i vari passaggi da seguire per calcolare la varianza residua.
Per prima cosa consideriamo la formula della retta di regressione: ŷ = B0 + B1*X.
Inserisci ogni valore osservato xi nella retta e calcola i corrispondenti valori teorici ŷi.
I valori teorici sono quelli del modello che poi bisognerà confrontare con quelli reali.
Fai la differenza tra i valori reali yi e i valori teorici ŷi ottenendo i valori residui.
Questi vengono anche chiamati scarti del modello, cioè gli errori commessi.
Eleva al quadrato i residui e calcola la loro somma.
Tale somma è chiamata devianza residua e simboleggiata con l’acronimo inglese SSE, summary squares error.
Varianza residua = Devianza residua / N.
Più piccola è questa quantità e migliore sarà il modello che stai applicando.
Passiamo adesso a vedere come calcolare invece la varianza spiegata.
Fai la differenza tra i valori teorici ŷi e la media generale della variabile dipendente Y, ottenendo gli scarti dalla media (da non confondere con gli scarti residui di prima).
Eleva al quadrato gli scarti dalla media e calcola la loro somma.
Tale somma è chiamata devianza spiegata e simboleggiata con l’acronimo inglese SSR, summary squares regression.
Varianza spiegata = Devianza spiegata / N.
Più grande è questa quantità e migliore sarà il modello che sto applicando.
Indice di determinazione: I2 = Varianza spiegata / Varianza totale
Indice di bontà di adattamento: R2 = [ Cov (XY) ]2 / [Var (X) * Var (Y)]
La particolarità della retta di regressione è che questi due indici risultano sempre uguali tra di loro, pertanto calcolare l’uno o l’altro é indifferente. Però dal punto di vista didattico è necessario conoscerli entrambi, perché solitamente sono richiesti in ogni esame universitario.
Dal punto di vista statistico, invece, questa relazione è importante perché nei modelli multipli non esiste questa proprietà, e quindi l’unica maniera per conoscere la bontà del modello é calcolare l’indice di determinazione che, come hai visto, puoi ottenere dalla scomposizione della varianza.
Anche per l'indice di bontà di adattamento ho creato un video esplicativo, che attraverso una metafora ti aiuta a capirne chiaramente il significato reale.
Scheda DATI >>> Analisi dati >>> Regressione
Analizza >>> Regressione >>> Lineare
Le statistiche sono una forma di realizzazione del desiderio, proprio come i sogni.
(JEAN BAUDRILLARD - Filosofo e sociologo francese)