blog
L'uso della regressione logistica è aumentato nel corso degli anni '80 e attualmente costituisce uno dei metodi più utilizzati nella ricerca nelle scienze della salute e in particolare in epidemiologia.
Altri usi comuni si trovano in psicologia o in ricerche di mercato con lo scopo d’individuare in che modo un consumatore è intenzionato ad acquistare un bene o un servizio.
Uno degli obiettivi dell'epidemiologia è studiare quei fattori che in un dato momento incidono sull'esistenza di una malattia, e di controllare la dimensione di quest'ultima, nonché di costruire modelli con capacità predittiva in grado di valutare il problema di salute menzionato.
Per regressione logistica si intende l'analisi di regressione che si conduce quando la variabile dipendente è dicotomica, cioè che ha solo due modalità: Vero/Falso, Sì/No, Sano/Malato...
Come tutte le analisi di regressione anche quella logistica è un'analisi predittiva. Il modello di regressione logistica è utilizzato per spiegare la relazione tra una variabile binaria dipendente Y e una o più variabili indipendenti qualitative o quantitative Xi.
Per un ripasso sulle sulle scale di modalità guardati questa lezione gratuita estratta dal mio video corso sulla statistica descrittiva.
Questa tecnica permette inoltre di interpretare i parametri in maniera semplice in termini di odds ratio che sono delle probabilità.
Anche qui ho fatto un video nel quale ti spiego attraverso l'uso di una metafora statistica, il significato degli odds ratio.
Ti stai sicuramente chiedendo in quali circostanze è utile utilizzare la regressione logistica. Alcuni esempi di domande plausibili sono:
Come cambia la probabilità di ammalarsi di cancro ai polmoni per ogni pacchetto di sigarette fumato al giorno?
Il peso corporeo, l'apporto calorico, l'assunzione di grassi e l'età influiscono sulla probabilità di avere un infarto?
Il genere, l’istruzione, l’età, il profilo psicologico, influiscono sulle scelte decisionali per l’acquisto di un bene o un servizio?
Possono l’ansia e la depressione influire sul verificarsi di un gesto estremo come il suicidio?
Queste sono solo alcune delle domande possibili, in quanto il campo che abbraccia la regressione logistica è molto ampio.
Il modello di regressione logistica, detto anche logit(p), si compone dalle seguenti variabili:
Y : variabile dipendente dicotomica. Assume valore 0 quando l'evento non si verifica (assenza della caratteristica) e valore 1 quando l'evento si verifica (presenza della caratteristica).
Xi ( i = 1,...,n) : variabili indipendenti o regressori. Questi possono essere di qualsiasi natura, qualitativi o quantitativi e rappresentano quei fattori di rischio che influenzano la variabile risposta Y.
L’obiettivo è quello di mettere in relazione la vera proporzione p di individui che presentano una certa caratteristica (ad esempio, essere malato, essere intenzionato ad acquistare…) con i valori assunti dalle variabili esplicative Xi. Il modello da stimare è dato dall’espressione:
In alternativa, tale espressione può essere scritta in maniera equivalente in termini di probabilità p:
\(\displaystyle p = \frac{1}{1 + e^{-(\beta_0 + \beta_1 \cdot X_1 + \beta_2 \cdot X_2 + \cdots + \beta_n \cdot X_n)}} + \varepsilon \)
I maggiori software statistici come SPSS restituiscono i coefficienti B del modello (colonna azzurra dell'immagine sotto), così come avviene nella regressione lineare classica.
Nella regressione logistica però, è più semplice interpretare gli esponenziali di tali coefficienti questo perché sono più facili da comprendere nella realtà.
Gli esponenziali dei coefficienti βi, da ora in poi Exp ( βi ) (colonna arancione dell'immagine sopra), associati alle variabili indipendenti si interpretano come l'odds ratio (OR) di accadimento dell'evento per ogni incremento della variabile indipendente, al netto delle altre variabili indipendenti.
In altre parole, Exp ( βi ) è una misura che quantifica quanto più il rischio di contrarre la malattia, per esempio, è presente nell'individuo con il fattore di rischio (Xi) rispetto all'individuo senza il fattore di rischio. Puoi seguire le seguenti regole:
Quando il coefficiente Bi è positivo, allora si ottiene OR > 1, e quindi la variabile Xi corrisponde a un fattore di rischio.
Quando il coefficiente Bi è negativo, allora OR < 1, e quindi la variabile Xi corrisponde a un fattore di protezione.
Quando il coefficiente Bi è nullo, allora OR = 1, e quindi la variabile Xi non influisce sulla variabile dipendente Y.
É ovvio che per determinare se un coefficiente è significativo devi guardare il p-value e come sempre quando questo è almeno inferiore a 0,05 allora puoi dire che lo è.
Un altro modo per interpretare i coefficienti del modello logistico è quello di calcolare gli effetti marginali.
L’effetto marginale è l’effetto prodotto sulla probabilità di successo ( Y = 1 ) della variazione di una delle covariate Xi.
L'aspetto veramente importante del modello di regressione logistica è che puoi analizzare congiuntamente vari fattori, al fine di esaminare come possono influenzare il verificarsi o meno dell'evento di studio.
Quando si seleziona il modello per l'analisi di regressione logistica, un'altra considerazione importante è valutare la bontà d'adattamento del modello.
L'aggiunta di variabili indipendenti a un modello di regressione logistica aumenterà sempre la quantità di varianza spiegata nelle probabilità logaritmiche (tipicamente espresse con R²).
Tuttavia, l'aggiunta di variabili al modello può comportare un overfitting, che riduce la generalizzabilità del modello oltre che l’adattamento dei dati al modello.
Sono stati sviluppati numerosi valori pseudo-R2 per la regressione logistica binaria. Questi dovrebbero essere interpretati con estrema cautela poiché hanno molti problemi di calcolo che li rendono artificialmente alti o bassi.
Uno degli indici più utilizzati è quello di Hosmer-Lemeshow. Questo è una misura della bontà di adattamento basata sul test del chi quadrato. Tuttavia, l’approccio migliore è sempre quello di condurre i test di ipotesi appropriati e valutare gli intervalli di confidenza dei coefficienti stimati.
Come tutti i modelli di regressione, anche quello logistico richiede che siano soddisfatte certe assunzioni
La variabile risposta Y deve essere di natura dicotomica. Presenza vs assenza, si vs no. All'interno del dataset va sempre codificata con 0 = assenza della caratteristica, 1 = presenza della caratterisitca.
Le osservazioni della variabile Y devono essere indipendenti altrimenti i coefficienti e la bontà del modello potrebbero essere influenzati.
Chiaramente deve esistere una relazione lineare tra Y = Logit ( p ) e i predittori X1, X2, ..., Xn.
Non devono esserci valori anomali nei dati. Nel caso in cui ce ne fossero, possono essere valutati convertendo i predittori continui in punteggi standardizzati e rimuovendo valori inferiori a -3,29 o superiori a 3,29.
Il problema della collinearità consiste nella presenza di correlazioni elevate tra i predittori. Tale problema conduce a un modello privo di significato e quindi a valori dei coefficienti non interpretabili.
La presenza di multicollinearità può essere valutata calcolando la matrice di correlazione tra i predittori. Tabachnick e Fidell suggeriscono che se i coefficienti di correlazione tra le variabili indipendenti Xi sono inferiori a 0,90, l'ipotesi è soddisfatta.
La presenza di fattori di rischio può generare bias nella valutazione della relazione tra variabili indipendenti e dipendenti. Nello specifico, uno o più di loro possono assumere il ruolo di fattore di confondimento o di interazione.
A tal proposito sul mio canale ho un'intera playlist con all'interno ben 166 shorts, uno per ogni bias cognitivo.
Un fattore di confondimento è una variabile che soddisfa tre condizioni:
1 - È un fattore di rischio per il fenomeno oggetto di studio
2 - È associato all'esposizione in esame.
3 - Non rappresenta un fattore causale che determina il legame tra esposizione ed effetto.
L'interazione esiste quando l'entità dell'associazione tra una data esposizione e un effetto cambia in base all'entità di una terza variabile, denominata modificatore dell'effetto.
Se rilevato, deve essere incluso nel modello indipendentemente rispetto alla variabile del modificatore di effetto, attraverso il prodotto incrociato di entrambe le variabili.
I modelli di regressione logistica consentono l'introduzione di variabili di aggiustamento per fattori di confondimento e interazione e possono contenere termini di grado superiore al primo come ad esempio età2, trasformazioni come ad esempio log ( età ) e anche interazioni come ad esempio età * fumo.
Una delle considerazioni necessarie prima di applicare il modello di regressione logistica è determinare se la relazione tra la variabile indipendente e la probabilità dell'evento cambia direzione oppure no.
Un esempio di ciò si ha quando per piccoli valori di una variabile indipendente, un aumento di quest'ultima provoca un aumento della variabile dipendente, ma da un certo valore della variabile indipendente, un aumento di quest'ultima porta a una diminuzione della variabile dipendente.
Se ciò accade non puoi applicare il modello, anche se in assenza di questo cambiamento di direzione il modello logistico sarebbe adeguato.
Un altro punto da tenere in considerazione quando si costruisce un modello di regressione logistica è la dimensione del campione.
Sarà necessario avere almeno 10 * (n + 1) casi per stimare un modello con n variabili indipendenti. Considera che nel caso di una variabile indipendente qualitativa con j categorie, introduci j−1 variabili dummy nel modello, che saranno considerate come j−1 variabili quando si considera il numero di casi necessari per la costruzione del modello.
La regressione logistica potrebbe essere considerata come un’estensione della regressione lineare quando la variabile risposta Y non è continua.
Inoltre, rispetto alla regressione lineare il modello logit offre il vantaggio di non dover soddisfare ipotesi come l'esistenza di una relazione lineare tra la risposta e le variabili predittive, la normalità e l'omoschedasticità dei residui.
Componente Aggiuntivo PH-STAT >>> Regression >>> Logistic Regression
Analizza >>> Regressione >>> Logistica binaria
Analizza >>> Modelli lineari generalizzati >>> Modelli lineari generalizzati
Oltre ai farmaci, efficaci sui neurotrasmettitori ma impotenti contro il pessimismo, l'arma più temibile contro il mal di vivere è l'infantilizzazione degli individui attraverso l'azione di multimedia sempre più potenti. Nel nome della gioia di vivere, assistiamo a una gigantesca regressione culturale e intellettuale.
(GEORGES MINOIS, storico francese)
Iscriviti alla Newsletter