L'uso della regressione logistica è aumentato nel corso degli anni '80 e attualmente costituisce uno dei metodi più utilizzati nella ricerca nelle scienze della salute e in particolare in epidemiologia. Altri usi comuni si trovano in psicologia o in ricerche di mercato con lo scopo d’individuare in che modo un consumatore è intenzionato ad acquistare un bene o un servizio.
Uno degli obiettivi dell'epidemiologia è studiare quei fattori che in un dato momento incidono sull'esistenza di un problema di salute, e di controllare la dimensione di quest'ultimo, nonché di costruire modelli con capacità predittiva in grado di valutare il problema di salute menzionato. Ma che cos’è la regressione logistica?
Per regressione logistica si intende l'analisi di regressione che si conduce quando la variabile dipendente è dicotomica, cioè binaria (che ha solo due modalità. Esempio SI/NO). Come tutte le analisi di regressione anche quella logistica è un'analisi predittiva. Il modello di regressione logistica può essere utilizzato per spiegare la relazione tra una variabile binaria dipendente Y e una o più variabili indipendenti nominali, ordinali, di intervallo o di rapporto che chiamerò Xi.
Questa tecnica permette inoltre di interpretare i parametri in maniera semplice in termini di odds ratio.
A volte però la regressione logistica è difficile da interpretare quindi continua a leggere per scoprirne di più al riguardo.
Ti stai sicuramente chiedendo in quali circostanze è utile utilizzare la regressione logistica. Alcuni esempi di domande plausibili sono:
Il modello di regressione logistica, detto anche logit(p), si compone dalle seguenti variabili:
L’obiettivo è quello di mettere in relazione la vera proporzione p di individui che presentano una certa caratteristica (ad esempio, essere malato, essere intenzionato ad acquistare…) con i valori assunti dalle variabili esplicative Xi. Il modello da stimare è dato dall’espressione:
In alternativa, tale espressione può essere scritta in maniera equivalente in termini di probabilità p:
Gli esponenziali dei coefficienti βi, da ora in poi exp(βi), associati alle variabili indipendenti si interpretano come l’odds ratio (OR) di accadimento dell'evento per ogni incremento della variabile indipendente, al netto delle altre variabili indipendenti.
In altre parole, exp(βi) è una misura che quantifica quanto più il rischio di contrarre la malattia, per esempio, è presente nell'individuo con il fattore di rischio (Xi) rispetto all'individuo senza il fattore di rischio. Puoi seguire le seguenti regole:
Un altro modo per interpretare i coefficienti del modello logistico è quello di calcolare gli effetti marginali. L’effetto marginale è l’effetto prodotto sulla probabilità di successo (Y=1) della variazione di una delle covariate Xi. In termini matematici non è altro che la derivata del valore atteso di Y rispetto a X.
L'aspetto veramente importante del modello di regressione logistica è che puoi analizzare congiuntamente vari fattori o variabili, al fine di esaminare come possono influenzare il verificarsi o meno dell'evento di studio.
Quando si seleziona il modello per l'analisi di regressione logistica, un'altra considerazione importante è l'adattamento del modello. L'aggiunta di variabili indipendenti a un modello di regressione logistica aumenterà sempre la quantità di varianza spiegata nelle probabilità logaritmiche (tipicamente espresse con R²). Tuttavia, l'aggiunta di variabili al modello può comportare un overfitting, che riduce la generalizzabilità del modello oltre che l’adattamento dei dati al modello.
Sono stati sviluppati numerosi valori pseudo-R2 per la regressione logistica binaria. Questi dovrebbero essere interpretati con estrema cautela poiché hanno molti problemi di calcolo che li rendono artificialmente alti o bassi. Uno degli indici più utilizzati è quello di Hosmer-Lemeshow. Questo è una misura della bontà di adattamento basata sul test del chi quadrato. Tuttavia, l’approccio migliore è sempre quello di condurre i test di ipotesi appropriati e valutare gli intervalli di confidenza dei coefficienti stimati.
Come tutti i modelli di regressione, anche quello logistico richiede che siano soddisfatte certe assunzioni
La variabile risposta Y deve essere di natura dicotomica. Presenza vs assenza, si vs no.
Le osservazioni della variabile Y devono essere indipendenti.
Chiaramente deve esistere una relazione lineare tra Y=logit(p) e i predittori X1, X2, ..., Xn.
Non devono esserci valori anomali nei dati. Nel caso in cui ce ne fossero, possono essere valutati convertendo i predittori continui in punteggi standardizzati e rimuovendo valori inferiori a -3,29 o superiori a 3,29.
Il problema della collinearità consiste nella presenza di correlazioni elevate tra i predittori. Tale problema conduce a un modello privo di significato e quindi a valori dei coefficienti non interpretabili. La presenza di multicollinearità può essere valutata calcolando la matrice di correlazione tra i predittori. Tabachnick e Fidell suggeriscono che se i coefficienti di correlazione tra le variabili indipendenti Xi sono inferiori a 0,90, l'ipotesi è soddisfatta.
La presenza di fattori di rischio può generare bias nella valutazione della relazione tra variabili indipendenti e dipendenti. Nello specifico, uno o più di loro possono assumere il ruolo di fattore di confondimento o di interazione.
Un fattore di confondimento è una variabile che soddisfa tre condizioni:
L'interazione esiste quando l'entità dell'associazione tra una data esposizione e un effetto cambia in base all'entità di una terza variabile, denominata modificatore dell'effetto. Se rilevato, deve essere incluso nel modello indipendentemente rispetto alla variabile del modificatore di effetto (attraverso il prodotto incrociato di entrambe le variabili). I modelli di regressione logistica consentono l'introduzione di variabili di aggiustamento per fattori di confondimento e interazione e possono contenere termini di grado superiore al primo come ad esempio età2, trasformazioni come ad esempio log(età) e anche interazioni come ad esempio età * fumo.
Una delle considerazioni necessarie prima di applicare il modello di regressione logistica è determinare se la relazione tra la variabile indipendente e la probabilità dell'evento cambia senso o direzione, oppure no. Un esempio di ciò è quando abbiamo una situazione in cui per piccoli valori di una variabile indipendente un aumento di questa variabile causa un aumento della variabile dipendente, mentre da un certo valore della variabile indipendente un aumento di quest'ultima porta a una diminuzione della variabile dipendente. Se ciò accade non puoi applicare il modello, anche se in assenza di questo cambiamento di senso o di direzione il modello logistico sarebbe adeguato.
Un altro punto da tenere in considerazione quando si costruisce un modello di regressione logistica è la dimensione del campione. Sarà necessario avere almeno 10 * (n + 1) casi per stimare un modello con n variabili indipendenti. Considera che nel caso di una variabile indipendente qualitativa con j categorie, introduci j−1 variabili dummy nel modello, che saranno considerate come j−1 variabili quando si considera il numero di casi necessari per la costruzione del modello.
La regressione logistica potrebbe essere considerata come un’estensione della regressione lineare quando la variabile risposta Y non è continua. Inoltre, rispetto alla regressione lineare il modello logit offre il vantaggio di non dover soddisfare ipotesi come l'esistenza di una relazione lineare tra la risposta e le variabili predittive, la normalità e l'omoschedasticità dei residui.
Componente Aggiuntivo PH-STAT >>> Regression >>> Logistic Regression
Analizza >>> Regressione >>> Logistica binaria
Analizza >>> Modelli lineari generalizzati >>> Modelli lineari generalizzati
Oltre ai farmaci, efficaci sui neurotrasmettitori ma impotenti contro il pessimismo, l'arma più temibile contro il mal di vivere è l'infantilizzazione degli individui attraverso l'azione di multimedia sempre più potenti. Nel nome della gioia di vivere, assistiamo a una gigantesca regressione culturale e intellettuale.
(GEORGES MINOIS, storico francese)