whatsapp
Adriano Gilardone
Adriano Gilardone
adriano gilardone Docente di Statistica Matematica Excel Spss sfruttare excel consulenze statistiche lezione videocorsi
blog

blog

Le assunzioni del modello lineare

Ultima modifica (12 Marzo 2025)
YouTube video
Postato il 15 Luglio 2024
Tag

Verificare le assunzioni del modello lineare garantisce l’accuratezza e l’affidabilità dei risultati dell’indagine statistica.

Queste assunzioni riguardano vari aspetti dei dati e se vengono violate possono dare vita a risultati distorti.

In questo articolo, esploreremo le principali assunzioni del modello di regressione lineare e forniremo indicazioni su come verificarle e affrontarle se necessario.

corso spss

Distribuzione dei residui

I residui rappresentano le differenze tra i valori osservati e i valori predetti dal modello. Affinché un modello di regressione lineare sia valido, i residui devono seguire determinate caratteristiche. 

In particolare, devono essere distribuiti normalmente, avere una varianza costante e non mostrare correlazioni sistematiche tra di loro. 

Indipendenza dei residui

L'indipendenza dei residui comporta che i residui di una determinata osservazione non devono essere influenzati dai residui di un'altra osservazione. 

In altre parole, non deve esserci alcuna correlazione tra i residui stessi

A proposito di correlazione, hai già visto questa lezione gratuita presa dal mio corso di SPSS?

YouTube video
Esercizio svolto correlazione lineare SPSS

Tornando alle nostre assunzioni, devi sapere che questa indipendenza è essenziale per garantire che le stime dei coefficienti di regressione siano imparziali e che i test statistici applicati ai coefficienti siano validi. 

Se i residui non sono indipendenti, si potrebbero ottenere stime distorte e inferenze errate, compromettendo le assunzioni del modello di regressione.

Su cosa ha effetto

La mancata indipendenza dei residui può avere diversi effetti negativi sul modello di regressione lineare semplice:

  • Varianza d'errore: se i residui non sono indipendenti, la varianza degli errori può essere sottostimata o sovrastimata, influenzando l'affidabilità delle stime.
  • : la misura della bontà di adattamento del modello può risultare inaccurata, sovrastimando o sottostimando la proporzione della varianza spiegata dalle variabili indipendenti.
  • Test inferenziali: i test statistici utilizzati per verificare l'importanza dei coefficienti di regressione possono fornire risultati fuorvianti, aumentando il rischio di errori di Tipo I o Tipo II.
  • Errore di I e II tipo: la probabilità di commettere un errore di Tipo I (rifiutare l'ipotesi nulla quando è vera) o un errore di Tipo II (non rifiutare l'ipotesi nulla quando è falsa) può aumentare, compromettendo la validità delle conclusioni tratte dal modello.

Come verificare l’assunzione

Per verificare l'assunzione di indipendenza dei residui, è possibile utilizzare diversi metodi e test statistici:

  • Test di Durbin-Watson: questo test è specificamente progettato per rilevare l'autocorrelazione nei residui di un modello di regressione lineare. Un valore del test vicino a 2 (diciamo tra 1,5 e 2,5 a grandi linee per non entrare nel dettaglio) indica l'assenza di autocorrelazione, mentre valori lontani da 2 suggeriscono la presenza di autocorrelazione positiva o negativa.
  • Controllo del disegno di ricerca: assicurarsi che il disegno dello studio sia appropriato per garantire l'indipendenza delle osservazioni. Ad esempio, nel caso di misure ripetute, è importante che le osservazioni siano effettuate in modo indipendente.
  • Correlazione intra-classe: questo test valuta l'omogeneità delle varianze tra gruppi di dati. Se i residui mostrano una correlazione elevata all'interno dei gruppi, potrebbe indicare una violazione dell'assunzione di indipendenza.

Come rimediare alla violazione

Se l'assunzione di indipendenza dei residui è violata, ci sono diversi approcci che puoi adottare per rimediare:

  • ANOVA a misure ripetute: se hai dati ripetuti sugli stessi soggetti, l'ANOVA a misure ripetute può essere una soluzione. Questo metodo tiene conto della dipendenza delle osservazioni all'interno degli stessi soggetti, migliorando l'accuratezza delle stime.
  • Modello lineare misto: i modelli lineari misti sono particolarmente utili quando si tratta di dati gerarchici o nidificati. Questi modelli permettono di includere effetti casuali che catturano la variabilità tra i gruppi o le unità sperimentali, riducendo l'autocorrelazione dei residui.
  • Riorganizzazione del disegno di ricerca: in alcuni casi, potrebbe essere possibile riorganizzare il disegno dello studio per garantire l'indipendenza delle osservazioni. Ad esempio, randomizzare l'ordine delle misurazioni può aiutare a ridurre l'autocorrelazione tra i residui.
corso spss

Outlier

Gli outlier, o valori anomali, sono osservazioni che si discostano significativamente dalla maggior parte dei dati. 

Questi valori possono avere un grande impatto sul modello di regressione lineare, influenzando le stime dei coefficienti, la varianza degli errori e la bontà di adattamento del modello. 

Su cosa ha effetto

Gli outlier possono avere un impatto significativo su vari aspetti del modello di regressione lineare:

  • Coefficienti del modello: gli outlier possono influenzare le stime dei coefficienti di regressione, distorcendo i risultati e rendendo le previsioni meno accurate.
  • Varianza d'errore: la presenza di outlier può aumentare la varianza degli errori, compromettendo la precisione delle stime.
  • : gli outlier possono alterare la bontà di adattamento del modello, causando un valore di R² non rappresentativo della relazione tra le variabili.
  • Test inferenziali: gli outlier possono influenzare i test statistici, aumentando il rischio di errori di Tipo I e Tipo II.

Come verificare l’assunzione

Per identificare e valutare la presenza di outlier, è possibile utilizzare diversi metodi grafici e test statistici:

  • Scatter plot tra variabili: tracciare un grafico di dispersione tra la variabile dipendente e le variabili indipendenti può aiutare a visualizzare eventuali valori anomali che si discostano dal pattern generale dei dati.
  • Scatter plot tra residui e predetti: questo tipo di grafico aiuta a identificare i residui che si discostano significativamente dai valori predetti dal modello, indicando la presenza di outlier.
  • Istogramma dei residui: creare un istogramma dei residui può rivelare la presenza di valori anomali che non seguono la distribuzione attesa dei residui.

Come rimediare alla violazione

Se gli outlier sono il risultato di errori di misurazione o inserimento dati, è possibile eliminarli dal dataset. 

Ti consiglio, però, di adottare questa soluzione con cautela. Il rischio è perdere informazioni preziose.

Le assunzioni di omoschedasticità

L'omoschedasticità richiede che la varianza degli errori sia costante per tutti i valori delle variabili indipendenti. 

In altre parole, gli errori devono avere la stessa variabilità lungo l'intero range di valori predetti dal modello. Quando questa assunzione è rispettata, il modello produce stime più accurate e affidabili. 

Tuttavia, se la varianza degli errori cambia (eteroschedasticità), le stime dei coefficienti possono essere distorte e i test statistici possono risultare meno validi.

Su cosa ha effetto

La violazione dell'assunzione di omoschedasticità può avere vari effetti negativi sul modello di regressione lineare:

  • Varianza d'errore: se gli errori non hanno una varianza costante, la stima della varianza degli errori può essere inaccurata, compromettendo la validità delle stime del modello.
  • : la misura della bontà di adattamento del modello può risultare distorta, poiché l'eteroschedasticità può influenzare la relazione tra le variabili indipendenti e la variabile dipendente.
YouTube video
R-quadro spiegato semplice con un metafora statistica
  • Test inferenziali: i test statistici per verificare l'importanza dei coefficienti di regressione possono essere fuorvianti, aumentando il rischio di commettere errori di Tipo I o Tipo II.

Come verificare l’assunzione

Per verificare le assunzioni di omoschedasticità, si possono utilizzare diversi metodi grafici e test statistici:

  • Scatter plot tra residui e predetti: tracciare un grafico di dispersione tra i residui del modello e i valori predetti. In presenza di omoschedasticità, i residui dovrebbero distribuirsi in modo uniforme attorno a zero, senza mostrare un pattern sistematico.
  • Test di Levene (ANOVA): questo test statistico verifica se le varianze sono uguali tra diversi gruppi. È utile quando si vuole controllare l'omoschedasticità tra gruppi differenti.
  • Test di Breusch-Pagan (Regressione): questo test specifico per la regressione lineare verifica la presenza di eteroschedasticità analizzando la relazione tra i residui e le variabili indipendenti. Un risultato significativo indica la presenza di eteroschedasticità.

Come rimediare alla violazione

Se l'assunzione di omoschedasticità è violata, ci sono diversi approcci che puoi adottare per correggere il problema:

  • Trasformazioni delle variabili: applicare trasformazioni alle variabili (ad esempio logaritmica, quadrata o radice quadrata) può aiutare a stabilizzare la varianza degli errori e ridurre l'eteroschedasticità.
  • Test non parametrici: se le trasformazioni non risolvono il problema, i test non parametrici possono essere un'alternativa efficace, poiché non richiedono l'assunzione di omoschedasticità.
YouTube video
Presentazione capitolo test non parametrici del video corso di Analisi Dati con SPSS

Le assunzioni di normalità dei residui

L'assunzione di normalità dei residui richiede che gli errori (o residui) del modello seguano una distribuzione normale

Questa assunzione è cruciale per la validità dei test statistici inferenziali, come gli intervalli di confidenza e i test di ipotesi sui coefficienti di regressione. 

Quando i residui sono distribuiti normalmente, è più probabile che le inferenze statistiche siano accurate e affidabili.

assunzioni

Su cosa ha effetto

La violazione dell'assunzione di normalità dei residui può influenzare i test inferenziali

Questi, sono utilizzati per verificare l'importanza dei coefficienti di regressione, come i test t e i test F, assumono che i residui siano normalmente distribuiti. Se questa assunzione è violata, aumenta il rischio di errori di Tipo I o Tipo II.

Come verificare l’assunzione

Per verificare l'assunzione di normalità dei residui, si possono utilizzare diversi metodi grafici e test statistici:

  • Istogramma dei residui: creare un istogramma dei residui del modello. In presenza di normalità, l'istogramma dovrebbe avere una forma a campana simmetrica attorno a zero.
  • P-P plot o Q-Q Plot: tracciare un Probability-Probability (P-P) plot o un Quantile-Quantile (Q-Q) plot dei residui. Se i residui sono normalmente distribuiti, i punti del grafico dovrebbero seguire una linea retta.
  • Test di Kolmogorov-Smirnov: eseguire il test di Kolmogorov-Smirnov per confrontare la distribuzione dei residui con una distribuzione normale. Un p-value significativo indica una deviazione dalla normalità.

Come rimediare alla violazione

Se l'assunzione di normalità dei residui è violata, ci sono diversi approcci che puoi adottare per correggere il problema:

  • Trasformazioni delle variabili: applicare trasformazioni alle variabili (ad esempio logaritmica, quadrata o radice quadrata) può aiutare a normalizzare la distribuzione dei residui.
  • Test non parametrici: se le trasformazioni non risolvono il problema, i test non parametrici possono essere un'alternativa efficace, poiché non richiedono l'assunzione di normalità dei residui.
  • Modello Lineare Generalizzato (GLM): utilizzare un modello lineare generalizzato può essere un'opzione, poiché questi modelli permettono di specificare una funzione di distribuzione che si adatta meglio ai residui.
analisi dati tesi

Forma del modello

La forma del modello di regressione lineare si riferisce alla relazione matematica tra le variabili indipendenti e la variabile dipendente. 

Affinché un modello di regressione lineare sia valido, è importante che questa relazione sia effettivamente lineare. Questo significa che i cambiamenti nei valori delle variabili indipendenti devono comportare cambiamenti proporzionali nei valori della variabile dipendente. 

Le assunzioni di linearità dei coefficienti

La linearità dei coefficienti è un'assunzione fondamentale nel modello di regressione lineare. Essa implica che la relazione tra le variabili indipendenti e la variabile dipendente può essere descritta da una linea retta

Su cosa ha effetto

Se la relazione tra le variabili non è lineare, le stime dei coefficienti di regressione saranno distorte. Questo può portare a conclusioni errate sulla natura e la forza delle relazioni tra le variabili.

Come verificare l’assunzione

Crea un grafico a dispersione, conosciuto come scatter plot, tra la variabile dipendente (y) e i valori predetti dal modello (ŷ)

Se la relazione è lineare, i punti dovrebbero distribuirsi lungo una linea retta.

Come rimediare alla violazione

Se l'assunzione di linearità dei coefficienti è violata, ci sono diverse strategie che puoi adottare per correggere il problema:

  • Trasformazioni delle variabili: applicare trasformazioni alle variabili, come logaritmica, quadratica o radice quadrata, può aiutare a linearizzare le relazioni non lineari.
  • Interpretazione corretta dei coefficienti: assicurarsi di interpretare i coefficienti delle variabili trasformate o dei termini polinomiali correttamente, in modo da comprendere l'effetto delle variabili indipendenti sulla variabile dipendente.
  • Modello Lineare Generalizzato (GLM): utilizzare un modello lineare generalizzato che consenta di specificare una funzione di collegamento appropriata per le relazioni non lineari.
corso statistica

Le assunzioni di coefficienti fissi

La presenza di coefficienti fissi implica che i coefficienti di regressione non variano tra diverse osservazioni o gruppi all'interno del dataset. 

In altre parole, la relazione tra le variabili indipendenti e la variabile dipendente è costante in tutto il campione, per ogni osservazione.

Su cosa ha effetto

La violazione delle assunzioni di coefficienti fissi può influenzare significativamente tutte le stime del modello di regressione lineare

Se i coefficienti variano tra diverse osservazioni o gruppi, le stime dei parametri del modello saranno distorte e inaffidabili. Questo può portare a conclusioni errate riguardo alle relazioni tra le variabili indipendenti e la variabile dipendente.

Inoltre, la generalizzabilità del modello ai diversi contesti o popolazioni potrebbe essere limitata, poiché le stime ottenute non rappresentano correttamente le relazioni nei dati complessivi.

Come verificare l’assunzione

Per verificare l'assunzione di coefficienti fissi, uno dei metodi principali è il controllo del disegno di ricerca. Questo implica assicurarsi che il disegno dello studio non introduca variazioni sistematiche nei coefficienti. 

In pratica, devi esaminare attentamente come sono stati raccolti i dati e come sono state definite le condizioni sperimentali o i gruppi.

Ad esempio, se il tuo studio include diverse condizioni sperimentali o gruppi, verifica che queste condizioni non influenzino i coefficienti di regressione. Assicurati che ogni gruppo o condizione sia trattato in modo coerente e che le variabili siano misurate in modo uniforme. Inoltre, considera se ci sono fattori esterni o variabili confondenti che potrebbero introdurre variazioni nei coefficienti.

Come rimediare alla violazione

Se l'assunzione di coefficienti fissi non è rispettata, ci sono diversi approcci che puoi adottare per correggere il modello:

  • ANOVA a misure ripetute: se i dati provengono da misure ripetute sugli stessi soggetti, l'ANOVA a misure ripetute può aiutare a modellare le variazioni nei coefficienti tra i soggetti.
  • Modello lineare misto: i modelli lineari misti permettono di includere effetti casuali, che possono catturare le variazioni nei coefficienti tra i gruppi o le condizioni. Questo approccio è particolarmente utile quando ci sono differenze sistematiche tra le unità di osservazione.

Le assunzioni di completezza del modello

La completezza del modello si riferisce all'inclusione di tutte le variabili rilevanti nel modello di regressione lineare. 

Un modello completo considera tutte le variabili indipendenti che influenzano significativamente la variabile dipendente. 

Su cosa ha effetto

La mancanza di completezza del modello può portare a due principali problemi:

Underfitting: si verifica quando il modello non include sufficienti variabili rilevanti, portando a stime imprecise e una bassa capacità predittiva.

Overfitting: si verifica quando il modello include troppe variabili, comprese quelle irrilevanti, che possono adattarsi troppo ai dati di campionamento e non generalizzare bene ai nuovi dati.

Come verificare l’assunzione

Valuta la letteratura esistente e le teorie pertinenti per assicurarti di aver incluso tutte le variabili rilevanti nel tuo modello. 

Questo può aiutarti a identificare eventuali variabili mancanti che potrebbero influenzare significativamente la variabile dipendente.

Come rimediare alla violazione

Rivedi attentamente l'interpretazione dei coefficienti delle variabili indipendenti nel tuo modello. 

Assicurati che ogni coefficiente abbia un significato chiaro e coerente con la teoria e la letteratura esistenti. 

Se scopri che un coefficiente non è interpretabile o non ha senso teorico, potrebbe essere un segnale che mancano variabili importanti nel modello o che ci sono variabili non pertinenti incluse.

Variabili indipendenti

Le variabili indipendenti, o predittori, sono gli input del modello di regressione che vengono utilizzati per spiegare la variabile dipendente. Determinano le relazioni che il modello cerca di rappresentare. 

Le variabili indipendenti dovrebbero essere selezionate in base alla loro rilevanza teorica e alla loro capacità di spiegare la variabilità della variabile dipendente. 

corso spss

Le assunzioni di assenza di multicollinearità

La multicollinearità si verifica quando due o più variabili indipendenti in un modello di regressione sono altamente correlate tra loro

Questo può causare problemi significativi nell'analisi dei dati, rendendo difficile distinguere l'effetto individuale di ciascuna variabile sulla variabile dipendente.

Su cosa ha effetto

Quando esiste multicollinearità, i coefficienti di regressione possono diventare instabili e possono avere segni e magnitudini non coerenti con le aspettative teoriche. 

Inoltre, l'errore standard dei coefficienti può aumentare, riducendo la precisione delle stime e l'affidabilità dei test di significatività.

Come verificare l’assunzione

Un metodo comune per verificare l'assenza di multicollinearità nel modello di regressione è analizzare la correlazione fra le variabili indipendenti

Questo processo consiste nel calcolare i coefficienti di correlazione tra tutte le variabili indipendenti del modello. Se due variabili indipendenti presentano un elevato coefficiente di correlazione (tipicamente superiore a 0.8 o inferiore a -0.8), potrebbe esserci un problema di multicollinearità.

La matrice di correlazione fornisce una panoramica chiara delle relazioni bivariate tra le variabili.

Oltre al metodo della correlazione, c'è anche quello della misura del VIF, fattore di inflazione della varianza, che è il rapporto tra la varianza di una stima del parametro, quando si adatta un modello completo che include altri parametri, e la varianza della stima del parametro se il modello è adattato solo con il parametro.

Il software SPSS fornisce un valore per ogni coefficiente chiamato VIF che va da 1 a +∞.

  • Se il VIF va da 1 a 2 l'assunzione di assenza di multicollinearità è verificata
  • Se il VIF va da 2 a 5 l'assunzione di assenza di multicollinearità è dubbia
  • Se il VIF va da 5 a +∞ l'assunzione di assenza di multicollinearità non è verificata

Se il numero va da 1 a 2 l'assunzione di assenza di multicollinearità è verificata

Come rimediare alla violazione

Se l'assunzione di assenza di multicollinearità viene violata, un metodo efficace per rimediare è l'eliminazione delle variabili multicollineari. Questo approccio comporta la rimozione di una o più variabili indipendenti che presentano un elevato coefficiente di correlazione con altre variabili nel modello.

L'eliminazione delle variabili multicollineari deve essere eseguita con attenzione, tenendo conto delle seguenti considerazioni:

  • Importanza teorica: prima di rimuovere una variabile, valuta la sua importanza teorica nel contesto del modello. Se una variabile è essenziale per il fenomeno studiato, potrebbe essere preferibile esplorare altre soluzioni.
  • Analisi di impatto: valuta l'impatto della rimozione della variabile sul modello complessivo. Effettua analisi preliminari per vedere come cambiano le stime dei coefficienti e l'R² del modello.
  • Alternativa alla rimozione: in alcuni casi, invece di eliminare completamente una variabile, puoi considerare la possibilità di trasformare o combinare le variabili collineari. Tuttavia, se la trasformazione non risolve il problema, l'eliminazione rimane l'opzione più diretta.

Le assunzioni di assenza di errore

L'assunzione di assenza di errore nei modelli di regressione lineare implica che le variabili indipendenti siano misurate con precisione e non contengano errori di misurazione significativi. 

In altre parole, si assume che le variabili predittive utilizzate nel modello riflettano accuratamente i valori reali delle variabili di interesse.

Su cosa ha effetto

L'assenza di errore nelle variabili indipendenti ha un impatto significativo su vari aspetti del modello di regressione lineare:

  • Coefficienti: errori nelle variabili indipendenti possono distorcere le stime dei coefficienti, portando a conclusioni errate riguardo alle relazioni tra le variabili.
  • : la precisione dell'R², che misura la proporzione della varianza spiegata dal modello, può essere compromessa se le variabili indipendenti contengono errori.
  • Test inferenziali: errori di misurazione possono influenzare i risultati dei test inferenziali, aumentando la probabilità di ottenere falsi positivi o negativi.

Come verificare l’assunzione

L'analisi del modello di misura delle variabili è fondamentale per garantire l'assenza di errore nelle variabili indipendenti. Questo processo comporta la valutazione degli strumenti di misurazione utilizzati, assicurandosi che siano accurati e ben calibrati. 

È necessario esaminare i processi di raccolta dei dati per verificare che siano rigorosi e standardizzati. 

Inoltre, è importante controllare la consistenza delle misurazioni attraverso prove ripetute o campioni multipli, garantendo che le variabili indipendenti riflettano accuratamente i valori reali.

Come rimediare alla violazione

Se l'assunzione di assenza di errore nelle variabili indipendenti non è soddisfatta, è possibile utilizzare i modelli di equazioni strutturali (SEM) per affrontare questo problema. 

I SEM permettono di modellare esplicitamente gli errori di misura e di tenerne conto nelle stime dei parametri. 

Utilizzando SEM, puoi separare la variabilità dovuta agli errori di misurazione da quella dovuta alle vere differenze tra le osservazioni.

YouTube video
Presentazione del video corso di Analisi Dati con SPSS

Assunzioni del modello lineare EXCEL

Visto l'elevato numero di assunzioni e la complessità nel calcolarle sei hai bisogno di sapere come si fa a calcolare una o più assunzioni in EXCEL ti consiglio di contattarmi per una consulenza

Assunzioni del modello lineare SPSS

Visto l'elevato numero di assunzioni e la complessità nel calcolarle sei hai bisogno di sapere come si fa a calcolare una o più assunzioni in SPSS ti consiglio di contattarmi per una consulenza

Riassumendo

  • Verifica le assunzioni del modello lineare per garantire l'accuratezza dei risultati statistici.
  • I residui devono essere distribuiti normalmente e avere una varianza costante.
  • L'indipendenza dei residui è cruciale per stime imparziali e test validi.
  • Gli outlier possono distorcere le stime e devono essere gestiti attentamente.
  • L'omoschedasticità richiede una varianza costante degli errori per risultati affidabili.
  • La normalità dei residui è essenziale per test inferenziali accurati.
  • La linearità dei coefficienti garantisce relazioni proporzionali tra variabili.
  • Coefficienti fissi implicano una relazione costante tra variabili indipendenti e dipendenti.
  • La completezza del modello richiede l'inclusione di tutte le variabili rilevanti.
  • L'assenza di assunzioni di multicollinearità evita instabilità nelle stime dei coefficienti.
  • L'assenza di assunzioni di errore nelle variabili indipendenti è cruciale per stime accurate e test inferenziali affidabili.

Iscriviti alla Newsletter

Se hai bisogno d’informazioni che non hai trovato nella sezione servizi o dei video corsi, scrivimi un messaggio o chiamami.
Domande, prezzi, richieste, delucidazioni...tutto quello che ti serve. Cercherò di risponderti entro le 24h.
Newsletter

Consenso al trattamento dei dati
Utilizzerò i tuoi dati (nome ed indirizzo mail) solo per inviarti gratuitamente via mail la newsletter mensile. Niente spam, niente scocciature, ti disiscrivi in un click quando vuoi.

arrow-up-circle
linkedin facebook pinterest youtube rss twitter instagram facebook-blank rss-blank linkedin-blank pinterest youtube twitter instagram