Un concetto molto importante quando si studia un modello di regressione lineare è quello della scomposizione della varianza totale nella somma di due varianze: varianza spiegata e varianza residua.
In un precedente articolo ti ho parlato della retta di regressione lineare dei minimi quadrati e deve essere chiaro il contesto in cui si opera. Qui ti aggiungo un video in cui te la spiego in parole semplici.
Sebbene la scomposizione della varianza possa essere applicata anche a un modello multiplo, cioè con più variabili indipendenti, ora ci focalizziamo su un modello semplice, ovvero con una sola variabile indipendente.
In pratica stai stimando un modello teorico per trovare una funzione, la retta, che ti permetta di interpretare i dati reali. Per valutare se questo modello è buono calcoli un indice di bontà d’adattamento che ti esprime l’attendibilità del modello stesso.
Questo indice si identifica con R-quadro, ma la particolarità della retta è che lo puoi calcolare anche facendo il rapporto tra la varianza spiegata e la varianza totale. Questo risulta importante quando ti approccerai ai modelli multipli che tuttavia non godono di tale proprietà.
Si presuppone che tu conosca già il calcolo della varianza totale, ma se hai dei dubbi puoi rifarti all’articolo di riferimento.
Si può anche ragionare in termini di devianza, cioè prendere le singole varianze e moltiplicarle per il numero totale di osservazioni N.
La retta di regressione ha la seguente formula: ŷ = B0 + B1*X.
Inserisci ogni valore osservato xi nella retta e calcola i corrispondenti valori teorici ŷi. I valori teorici sono quelli del modello che poi bisognerà confrontare con quelli reali.
Fai la differenza tra i valori reali yi e i valori teorici ŷi ottenendo i valori residui. Questi vengono anche chiamati scarti del modello, cioè gli errori commessi.
Eleva al quadrato i residui e calcola la loro somma. Tale somma è chiamata devianza residua e simboleggiata con l’acronimo inglese SSE, summary squares error.
Varianza residua = Devianza residua / N.
Più piccola è questa quantità e migliore sarà il modello che stai applicando.
Fai la differenza tra i valori teorici ŷi e la media generale della variabile dipendente Y, ottenendo gli scarti dalla media (da non confondere con gli scarti residui di prima).
Eleva al quadrato gli scarti dalla media e calcola la loro somma. Tale somma è chiamata devianza spiegata e simboleggiata con l’acronimo inglese SSR, summary squares regression.
Varianza spiegata = Devianza spiegata / N.
Più grande è questa quantità e migliore sarà il modello che sto applicando.
Se hai problemi nel calcolo della scomposizione della varianza ti consiglio di usare al meglio la calcolatrice scientifica che ti fa risparmiare tempo e fatica. Qui trovi il mio video di spiegazione.
Indice di determinazione: I2 = Varianza spiegata / Varianza totale
Indice di bontà di adattamento: R2 = [ Cov (XY) ]2 / [Var (X) * Var (Y)]
La particolarità della retta di regressione è che questi due indici risultano sempre uguali tra di loro, pertanto calcolare l’uno o l’altro é indifferente.
Dal punto di vista didattico è necessario conoscerli entrambi perché solitamente sono richiesti in ogni esame universitario.
Dal punto di vista statistico invece è importante questa relazione perché nei modelli multipli non esiste questa proprietà e quindi l’unica maniera per conoscere la bontà del modello é calcolare l’indice di determinazione che, come hai visto, lo ottieni dalla scomposizione della varianza.
Anche per questo indice ho creato un video esplicativo che attraverso una metafora ti fa capire il significato reale.
Scheda DATI >>> Analisi dati >>> Regressione
Analizza >>> Regressione >>> Lineare
Le statistiche sono una forma di realizzazione del desiderio, proprio come i sogni.
(JEAN BAUDRILLARD - Filosofo e sociologo francese)