L'R quadro, noto anche come coefficiente di determinazione, è una metrica che serve per valutare l'accuratezza dei modelli di regressione lineare.
In questo articolo, ti spiego cosa indica, come calcolare e come interpretare l’R quadro, fornendo guide pratiche ed esempi concreti.
Da 20 anni aiuto gli studenti universitari a preparare - e superare - l’esame di statistica con lezioni private e tanti contenuti gratuiti, fruibili sul mio blog, sul canale YouTube e anche con guide complete di formulario, come questa:
L'R quadro è una misura statistica che indica la proporzione della varianza nella variabile dipendente (Y) che è spiegata dalla variabile indipendente (X) in un modello di regressione lineare
In pratica valuta quanta differenza c’è tra i valori reali osservati nel campione (yi) e i valori fittizi che il modello ha stimato (yi^).
Se queste differenze sono piccole il modello si adatta bene ai dati e di conseguenza l'R2 sarà alto, viceversa se le differenze tra valori attesi e osservati sono grandi, il modello non spiega bene la variabilità presente nei dati restituendo un R2 basso
L'importanza dell'R quadro nella regressione lineare risiede nella sua capacità di fornire una misura sintetica della bontà di adattamento del modello.
Questo permette ai ricercatori e agli analisti di valutare rapidamente l'efficacia del modello nel descrivere i dati e di confrontare diversi modelli tra loro.
Tuttavia, è importante notare che un alto valore di R2 non implica necessariamente che il modello sia corretto o che abbia capacità predittive, poiché potrebbe essere influenzato da outlier o da una sovradattamento ai dati.
Rispettivamente per X e Y, somma ogni valore e dividi per il conteggio degli stessi.
Guarda l’articolo dove spiego tutti i passaggi per calcolare la varianza, nel caso avessi dei dubbi.
La deviazione standard, o scarto quadratico medio, è la radice quadrata della varianza.
La formula è: Covarianza XY = Momento Misto - (Media X * Media Y)
R = Cov(XY) / [ Dev Std (X) * Dev Std (Y) ]
R quadro = R2, fai semplicemente il quadrato del coefficiente di correlazione lineare di Pearson
In questo caso prende il nome di indice o coefficiente di determinazione
Finora ho trattato un indice di bontà di adattamento che riguarda una regressione lineare semplice nella quale esiste solo una variabile indipendente (X).
Adesso invece ti mostro la formula per un modello di regressione lineare multipla nella quale sono presenti diverse variabili indipendenti.
Un R2 significativo indica che il modello di regressione spiega una parte sostanziale della variabilità dei dati osservati. In generale:
Un valore di R2 vicino a 1 suggerisce che il modello di regressione spiega quasi tutta la variabilità dei dati osservati. Questo è considerato un buon segno, poiché significa che il modello si adatta molto bene ai dati.
Un valore di R quadro vicino a 0 indica che il modello di regressione non riesce a spiegare la variabilità dei dati osservati. In questo caso, il modello non è utile per prevedere la variabile dipendente.
Questo può accadere per diversi motivi:
Quando si confrontano modelli con un numero diverso di variabili indipendenti, è più utile considerare l'R quadro corretto (Adjusted R-Squared), che tiene conto del numero di variabili nel modello e fornisce una misura più accurata della bontà di adattamento.
Infatti dal punto di vista matematico il solo inserire una variabile indipendente in più, provoca nel modello un aumento dell'R quadro anche se la variabile non ha nulla a che fare con lo studio che si sta facendo.
Con l'R quadro corretto si evita questo problema. La formula è:
Un R quadro molto alto potrebbe indicare un sovradattamento (overfitting) del modello, dove il modello si adatta troppo bene ai dati, ma non generalizza bene su nuovi dati. È importante bilanciare la complessità del modello con la sua capacità di generalizzare.
Il significato di un "buon" R2 può variare in base al contesto e al campo di applicazione. In generale dovresti seguire la logica della tabellina che ti mostro sotto, ma a seconda del contesto in cui ti trovi l'interpretazione può variare.
In questi campi, è comune vedere valori di R2 più bassi, spesso tra 0.2 e 0.5. Anche un R2 di 0.3 può essere considerato accettabile, poiché i fenomeni studiati sono complessi e influenzati da molte variabili.
In questi campi, i valori di R2 tendono ad essere più alti, spesso tra 0.7 e 0.9. Un R2 superiore a 0.8 è generalmente considerato molto buono.
I valori di R2 possono variare ampiamente. Un R2 di 0.6 o superiore è spesso considerato buono.
Siccome l'R2 aiuta molto gli statistici a interpretare l'intensità delle relazioni in modello di regressione lineare, anche nei modelli di regressione non lineari, in primis quelli di regressione logistica, si è cercato di trovare un modo per individuarlo in quando non è possibile calcolarlo matematicamente.
A tal proposito sono stati creati degli pseudo R quadro per far in modo che si avesse più o meno la stessa interpretazione.
Nella regressione logistica sono famosi l'R2 di Nagelkerge e l'R2 di Cox e Snell. Se hai bisogno di un approfondimento ho creato un corso di analisi dati completo. Ti lascio qua sotto un intro del capitolo sulla regressione logistica.
Per calcolare l' R2 bisogna elevare al quadrato il coefficiente di correlazione lineare di Pearson che di trova con queste due funzioni:
CORRELAZIONE (matrice1;matrice2)
PEARSON (matrice1;matrice2)
Analizza >>> Regressione >>> Lineare