fbpx

Regressione logistica

Postato il 11 Aprile 2022
Tag

L'uso della regressione logistica è aumentato nel corso degli anni '80 e attualmente costituisce uno dei metodi più utilizzati nella ricerca nelle scienze della salute e in particolare in epidemiologia. Altri usi comuni si trovano in psicologia o in ricerche di mercato con lo scopo d’individuare in che modo un consumatore è intenzionato ad acquistare un bene o un servizio.

Uno degli obiettivi dell'epidemiologia è studiare quei fattori che in un dato momento incidono sull'esistenza di un problema di salute, e di controllare la dimensione di quest'ultimo, nonché di costruire modelli con capacità predittiva in grado di valutare il problema di salute menzionato. Ma che cos’è la regressione logistica?

Cosa si intende per Regressione Logistica

Per regressione logistica si intende l'analisi di regressione che si conduce quando la variabile dipendente è dicotomica, cioè binaria (che ha solo due modalità. Esempio SI/NO). Come tutte le analisi di regressione anche quella logistica è un'analisi predittiva. Il modello di regressione logistica può essere utilizzato per spiegare la relazione tra una variabile binaria dipendente Y e una o più variabili indipendenti nominali, ordinali, di intervallo o di rapporto che chiamerò Xi.

Questa tecnica permette inoltre di interpretare i parametri in maniera semplice in termini di odds ratio.

A volte però la regressione logistica è difficile da interpretare quindi continua a leggere per scoprirne di più al riguardo.

Quando usare la Regressione Logistica

Ti stai sicuramente chiedendo in quali circostanze è utile utilizzare la regressione logistica. Alcuni esempi di domande plausibili sono:

  • Come cambia la probabilità di ammalarsi di cancro ai polmoni (sì vs no) per ogni pacchetto di sigarette fumato al giorno?
  • Il peso corporeo, l'apporto calorico, l'assunzione di grassi e l'età influiscono sulla probabilità di avere un infarto (sì vs no)?
  • Il genere, l’istruzione, l’età, il profilo psicologico, influiscono sulle scelte decisionali per l’acquisto di un bene o un servizio
  • Possono l’ansia e la depressione influire sul verificarsi di un gesto estremo come il suicidio?

Costruzione del modello

Il modello di regressione logistica, detto anche logit(p), si compone dalle seguenti variabili:

  • Y : variabile dipendente dicotomica. Assume valore 0 quando l'evento non si verifica (assenza della caratteristica) e valore 1 quando l'evento si verifica (presenza della caratteristica).
  • Xi, i = 1,...,n : variabili indipendenti o regressori. Questi possono essere di qualsiasi natura, qualitativi o quantitativi e rappresentano quei fattori di rischio che influenzano la variabile risposta Y.

L’obiettivo è quello di mettere in relazione la vera proporzione p di individui che presentano una certa caratteristica (ad esempio, essere malato, essere intenzionato ad acquistare…) con i valori assunti dalle variabili esplicative Xi. Il modello da stimare è dato dall’espressione:

regressione logistica

In alternativa, tale espressione può essere scritta in maniera equivalente in termini di probabilità p:

regressione logistica

Coefficienti di regressione

Gli esponenziali dei coefficienti βi, da ora in poi exp(βi), associati alle variabili indipendenti si interpretano come l’odds ratio (OR) di accadimento dell'evento per ogni incremento della variabile indipendente, al netto delle altre variabili indipendenti. 

In altre parole, exp(βi) è una misura che quantifica quanto più il rischio di contrarre la malattia, per esempio, è presente nell'individuo con il fattore di rischio (Xi) rispetto all'individuo senza il fattore di rischio. Puoi seguire le seguenti regole:

Interpretazione dei coefficienti

  • Quando il coefficiente βi della variabile Xi è positivo, allora si ottiene OR > 1, e quindi Xi corrisponde a un fattore di rischio
  • Se il valore βi è negativo, allora OR < 1, e quindi la variabile Xi corrisponde a un fattore di protezione, cioè non è un fattore di rischio.
  • Quando il coefficiente βi della variabile Xi è nullo (o molto vicino a zero), allora si ottiene OR = 1, e quindi Xi non influisce sulla variabile dipendente Y. 

Interpretazione degli effetti marginali

Un altro modo per interpretare i coefficienti del modello logistico è quello di calcolare gli effetti marginali. L’effetto marginale è l’effetto prodotto sulla probabilità di successo (Y=1) della variazione di una delle covariate Xi. In termini matematici non è altro che la derivata del valore atteso di Y rispetto a X.

regressione logistica

L'aspetto veramente importante del modello di regressione logistica è che puoi analizzare congiuntamente vari fattori o variabili, al fine di esaminare come possono influenzare il verificarsi o meno dell'evento di studio.

Bontà di adattamento

Quando si seleziona il modello per l'analisi di regressione logistica, un'altra considerazione importante è l'adattamento del modello. L'aggiunta di variabili indipendenti a un modello di regressione logistica aumenterà sempre la quantità di varianza spiegata nelle probabilità logaritmiche (tipicamente espresse con R²). Tuttavia, l'aggiunta di variabili al modello può comportare un overfitting, che riduce la generalizzabilità del modello oltre che l’adattamento dei dati al modello.

Sono stati sviluppati numerosi valori pseudo-R2 per la regressione logistica binaria. Questi dovrebbero essere interpretati con estrema cautela poiché hanno molti problemi di calcolo che li rendono artificialmente alti o bassi. Uno degli indici più utilizzati è quello di Hosmer-Lemeshow. Questo è una misura della bontà di adattamento basata sul test del chi quadrato. Tuttavia, l’approccio migliore è sempre quello di condurre i test di ipotesi appropriati e valutare gli intervalli di confidenza dei coefficienti stimati. 

Assunzioni

Come tutti i modelli di regressione, anche quello logistico richiede che siano soddisfatte certe assunzioni

Variabile dipendente dicotomica

La variabile risposta Y deve essere di natura dicotomica. Presenza vs assenza, si vs no.

Indipendenza delle osservazioni

Le osservazioni della variabile Y devono essere indipendenti.

Relazione tra Y e i predittori

Chiaramente deve esistere una relazione lineare tra Y=logit(p) e i predittori X1, X2, ..., Xn.

Assenza outliers

Non devono esserci valori anomali nei dati. Nel caso in cui ce ne fossero, possono essere valutati convertendo i predittori continui in punteggi standardizzati e rimuovendo valori inferiori a -3,29 o superiori a 3,29.

Assenza multicollinearità

Il problema della collinearità consiste nella presenza di correlazioni elevate tra i predittori. Tale problema conduce a un modello privo di significato e quindi a valori dei coefficienti non interpretabili. La presenza di multicollinearità può essere valutata calcolando la matrice di correlazione tra i predittori. Tabachnick e Fidell suggeriscono che se i coefficienti di correlazione tra le variabili indipendenti Xi sono inferiori a 0,90, l'ipotesi è soddisfatta.

Interazione e fattori di confondimento 

La presenza di fattori di rischio può generare bias nella valutazione della relazione tra variabili indipendenti e dipendenti. Nello specifico, uno o più di loro possono assumere il ruolo di fattore di confondimento o di interazione.

Un fattore di confondimento è una variabile che soddisfa tre condizioni: 

  1. È un fattore di rischio per il fenomeno oggetto di studio
  2. È associato all'esposizione in esame.
  3. Non rappresenta un fattore causale che determina il legame tra esposizione ed effetto. 

L'interazione esiste quando l'entità dell'associazione tra una data esposizione e un effetto cambia in base all'entità di una terza variabile, denominata modificatore dell'effetto. Se rilevato, deve essere incluso nel modello indipendentemente rispetto alla variabile del modificatore di effetto (attraverso il prodotto incrociato di entrambe le variabili). I modelli di regressione logistica consentono l'introduzione di variabili di aggiustamento per fattori di confondimento e interazione e possono contenere termini di grado superiore al primo come ad esempio età2, trasformazioni come ad esempio log(età) e anche interazioni come ad esempio età * fumo.

Altre considerazioni sul modello logit

Una delle considerazioni necessarie prima di applicare il modello di regressione logistica è determinare se la relazione tra la variabile indipendente e la probabilità dell'evento cambia senso o direzione, oppure no. Un esempio di ciò è quando abbiamo una situazione in cui per piccoli valori di una variabile indipendente un aumento di questa variabile causa un aumento della variabile dipendente, mentre da un certo valore della variabile indipendente un aumento di quest'ultima porta a una diminuzione della variabile dipendente. Se ciò accade non puoi applicare il modello, anche se in assenza di questo cambiamento di senso o di direzione il modello logistico sarebbe adeguato. 

Un altro punto da tenere in considerazione quando si costruisce un modello di regressione logistica è la dimensione del campione. Sarà necessario avere almeno 10 * (n + 1) casi per stimare un modello con n variabili indipendenti. Considera che nel caso di una variabile indipendente qualitativa con j categorie, introduci j−1 variabili dummy nel modello, che saranno considerate come j−1 variabili quando si considera il numero di casi necessari per la costruzione del modello.

Differenza rispetto alla regressione lineare

La regressione logistica potrebbe essere considerata come un’estensione della regressione lineare quando la variabile risposta Y non è continua. Inoltre, rispetto alla regressione lineare il modello logit offre il vantaggio di non dover soddisfare ipotesi come l'esistenza di una relazione lineare tra la risposta e le variabili predittive, la normalità e l'omoschedasticità dei residui. 

Regressione logistica EXCEL

Componente Aggiuntivo PH-STAT >>> Regression >>> Logistic Regression

Regressione logistica SPSS

Analizza >>> Regressione >>> Logistica binaria

Analizza >>> Modelli lineari generalizzati >>> Modelli lineari generalizzati

Riassumendo

  • La regressione logistica si basa sullo studio di una variabile dicotomica qualitativa Y [0,1], in funzione di uno o più fenomeni predittivi
  • Le variabili predittive indicano le caratteristiche del soggetto e possono essere sia discrete che continue.
  • Le principali assunzioni che devono essere rispettate per usare il modello logistico sono: la presenza di una variabile Y dicotomica, la dipendenza delle osservazioni, la presenza di una relazione tra Y e i predittori, assenza di valori anomali e di collinearità.
  • Il modello logit è un’estensione del modello di regressione lineare nel caso in cui la variabile dipendente non è continua.

Oltre ai farmaci, efficaci sui neurotrasmettitori ma impotenti contro il pessimismo, l'arma più temibile contro il mal di vivere è l'infantilizzazione degli individui attraverso l'azione di multimedia sempre più potenti. Nel nome della gioia di vivere, assistiamo a una gigantesca regressione culturale e intellettuale.

(GEORGES MINOIS, storico francese)

Iscriviti alla Newsletter

Se hai bisogno d’informazioni che non hai trovato nella sezione servizi o dei video corsi, scrivimi un messaggio o chiamami.
Domande, prezzi, richieste, delucidazioni...tutto quello che ti serve. Cercherò di risponderti entro le 24h.

Consenso al trattamento dei dati
Utilizzerò i tuoi dati (nome ed indirizzo mail) solo per inviarti gratuitamente via mail la newsletter mensile. Niente spam, niente scocciature, ti disiscrivi in un click quando vuoi.

linkedin facebook pinterest youtube rss twitter instagram facebook-blank rss-blank linkedin-blank pinterest youtube twitter instagram