whatsapp
Adriano Gilardone
Adriano Gilardone
adriano gilardone Docente di Statistica Matematica Excel Spss sfruttare excel consulenze statistiche lezione videocorsi
blog

blog

Regressione logistica

Ultima modifica (28 Febbraio 2025)
YouTube video
Postato il 11 Aprile 2022
Tag

L'uso della regressione logistica è aumentato nel corso degli anni '80 e attualmente costituisce uno dei metodi più utilizzati nella ricerca nelle scienze della salute e in particolare in epidemiologia.

Altri usi comuni si trovano in psicologia o in ricerche di mercato con lo scopo d’individuare in che modo un consumatore è intenzionato ad acquistare un bene o un servizio.

Uno degli obiettivi dell'epidemiologia è studiare quei fattori che in un dato momento incidono sull'esistenza di una malattia, e di controllare la dimensione di quest'ultima, nonché di costruire modelli con capacità predittiva in grado di valutare il problema di salute menzionato.

corso spss

Caratteristiche della regressione logistica

Per regressione logistica si intende l'analisi di regressione che si conduce quando la variabile dipendente è dicotomica, cioè che ha solo due modalità: Vero/Falso, Sì/No, Sano/Malato...

Come tutte le analisi di regressione anche quella logistica è un'analisi predittiva. Il modello di regressione logistica è utilizzato per spiegare la relazione tra una variabile binaria dipendente Y e una o più variabili indipendenti qualitative o quantitative Xi.

Per un ripasso sulle sulle scale di modalità guardati questa lezione gratuita estratta dal mio video corso sulla statistica descrittiva.

YouTube video
Fenomeni e scale di modalità spiegati semplice

Questa tecnica permette inoltre di interpretare i parametri in maniera semplice in termini di odds ratio che sono delle probabilità.

Anche qui ho fatto un video nel quale ti spiego attraverso l'uso di una metafora statistica, il significato degli odds ratio.

YouTube video
Odds Ratio spiegato semplice con una metafora statistica

Quando usare la regressione logistica

Ti stai sicuramente chiedendo in quali circostanze è utile utilizzare la regressione logistica. Alcuni esempi di domande plausibili sono:

Come cambia la probabilità di ammalarsi di cancro ai polmoni per ogni pacchetto di sigarette fumato al giorno?

Il peso corporeo, l'apporto calorico, l'assunzione di grassi e l'età influiscono sulla probabilità di avere un infarto?

Il genere, l’istruzione, l’età, il profilo psicologico, influiscono sulle scelte decisionali per l’acquisto di un bene o un servizio?

Possono l’ansia e la depressione influire sul verificarsi di un gesto estremo come il suicidio?

Queste sono solo alcune delle domande possibili, in quanto il campo che abbraccia la regressione logistica è molto ampio.

corso spss

Modello di regressione logistica

Il modello di regressione logistica, detto anche logit(p), si compone dalle seguenti variabili:

Y : variabile dipendente dicotomica. Assume valore 0 quando l'evento non si verifica (assenza della caratteristica) e valore 1 quando l'evento si verifica (presenza della caratteristica).

Xi ( i = 1,...,n) : variabili indipendenti o regressori. Questi possono essere di qualsiasi natura, qualitativi o quantitativi e rappresentano quei fattori di rischio che influenzano la variabile risposta Y.

L’obiettivo è quello di mettere in relazione la vera proporzione p di individui che presentano una certa caratteristica (ad esempio, essere malato, essere intenzionato ad acquistare…) con i valori assunti dalle variabili esplicative Xi. Il modello da stimare è dato dall’espressione:

regressione logistica

In alternativa, tale espressione può essere scritta in maniera equivalente in termini di probabilità p:

\(\displaystyle p = \frac{1}{1 + e^{-(\beta_0 + \beta_1 \cdot X_1 + \beta_2 \cdot X_2 + \cdots + \beta_n \cdot X_n)}} + \varepsilon \)

Coefficienti della regressione logistica

Coefficienti Exp ( βi )

I maggiori software statistici come SPSS restituiscono i coefficienti B del modello (colonna azzurra dell'immagine sotto), così come avviene nella regressione lineare classica.

Nella regressione logistica però, è più semplice interpretare gli esponenziali di tali coefficienti questo perché sono più facili da comprendere nella realtà.

regressione logistica
esempio coefficienti regressione logistica

Gli esponenziali dei coefficienti βi, da ora in poi Exp ( βi ) (colonna arancione dell'immagine sopra), associati alle variabili indipendenti si interpretano come l'odds ratio (OR) di accadimento dell'evento per ogni incremento della variabile indipendente, al netto delle altre variabili indipendenti. 

In altre parole, Exp ( βi ) è una misura che quantifica quanto più il rischio di contrarre la malattia, per esempio, è presente nell'individuo con il fattore di rischio (Xi) rispetto all'individuo senza il fattore di rischio. Puoi seguire le seguenti regole:

Interpretazione dei coefficienti Exp ( βi )

Quando il coefficiente Bi è positivo, allora si ottiene OR > 1, e quindi la variabile Xi corrisponde a un fattore di rischio

Quando il coefficiente Bi è negativo, allora OR < 1, e quindi la variabile Xi corrisponde a un fattore di protezione.

Quando il coefficiente Bi è nullo, allora OR = 1, e quindi la variabile Xi non influisce sulla variabile dipendente Y.

É ovvio che per determinare se un coefficiente è significativo devi guardare il p-value e come sempre quando questo è almeno inferiore a 0,05 allora puoi dire che lo è.

YouTube video
P-value spiegato semplice con una metafora statistica

Interpretazione degli effetti marginali

Un altro modo per interpretare i coefficienti del modello logistico è quello di calcolare gli effetti marginali.

L’effetto marginale è l’effetto prodotto sulla probabilità di successo ( Y = 1 ) della variazione di una delle covariate Xi.

L'aspetto veramente importante del modello di regressione logistica è che puoi analizzare congiuntamente vari fattori, al fine di esaminare come possono influenzare il verificarsi o meno dell'evento di studio.

Bontà di adattamento

Quando si seleziona il modello per l'analisi di regressione logistica, un'altra considerazione importante è valutare la bontà d'adattamento del modello.

L'aggiunta di variabili indipendenti a un modello di regressione logistica aumenterà sempre la quantità di varianza spiegata nelle probabilità logaritmiche (tipicamente espresse con R²).

Tuttavia, l'aggiunta di variabili al modello può comportare un overfitting, che riduce la generalizzabilità del modello oltre che l’adattamento dei dati al modello.

Sono stati sviluppati numerosi valori pseudo-R2 per la regressione logistica binaria. Questi dovrebbero essere interpretati con estrema cautela poiché hanno molti problemi di calcolo che li rendono artificialmente alti o bassi.

regressione logistica
Esempio di calcolo dello pseudo R-quadro

Uno degli indici più utilizzati è quello di Hosmer-Lemeshow. Questo è una misura della bontà di adattamento basata sul test del chi quadrato. Tuttavia, l’approccio migliore è sempre quello di condurre i test di ipotesi appropriati e valutare gli intervalli di confidenza dei coefficienti stimati. 

analisi dati tesi

Assunzioni

Come tutti i modelli di regressione, anche quello logistico richiede che siano soddisfatte certe assunzioni

Variabile dipendente dicotomica

La variabile risposta Y deve essere di natura dicotomica. Presenza vs assenza, si vs no. All'interno del dataset va sempre codificata con 0 = assenza della caratteristica, 1 = presenza della caratterisitca.

Indipendenza delle osservazioni

Le osservazioni della variabile Y devono essere indipendenti altrimenti i coefficienti e la bontà del modello potrebbero essere influenzati.

Relazione tra Y e i predittori

Chiaramente deve esistere una relazione lineare tra Y = Logit ( p ) e i predittori X1, X2, ..., Xn.

Assenza outliers

Non devono esserci valori anomali nei dati. Nel caso in cui ce ne fossero, possono essere valutati convertendo i predittori continui in punteggi standardizzati e rimuovendo valori inferiori a -3,29 o superiori a 3,29.

Assenza multicollinearità

Il problema della collinearità consiste nella presenza di correlazioni elevate tra i predittori. Tale problema conduce a un modello privo di significato e quindi a valori dei coefficienti non interpretabili.

La presenza di multicollinearità può essere valutata calcolando la matrice di correlazione tra i predittori. Tabachnick e Fidell suggeriscono che se i coefficienti di correlazione tra le variabili indipendenti Xi sono inferiori a 0,90, l'ipotesi è soddisfatta.

Interazione e fattori di confondimento 

La presenza di fattori di rischio può generare bias nella valutazione della relazione tra variabili indipendenti e dipendenti. Nello specifico, uno o più di loro possono assumere il ruolo di fattore di confondimento o di interazione.

A tal proposito sul mio canale ho un'intera playlist con all'interno ben 166 shorts, uno per ogni bias cognitivo.

Playlist con 166 bias

Un fattore di confondimento è una variabile che soddisfa tre condizioni: 

1 - È un fattore di rischio per il fenomeno oggetto di studio

2 - È associato all'esposizione in esame.

3 - Non rappresenta un fattore causale che determina il legame tra esposizione ed effetto. 

    L'interazione esiste quando l'entità dell'associazione tra una data esposizione e un effetto cambia in base all'entità di una terza variabile, denominata modificatore dell'effetto.

    YouTube video
    Moderazione statistica spiegata semplice con una metafora

    Se rilevato, deve essere incluso nel modello indipendentemente rispetto alla variabile del modificatore di effetto, attraverso il prodotto incrociato di entrambe le variabili.

    I modelli di regressione logistica consentono l'introduzione di variabili di aggiustamento per fattori di confondimento e interazione e possono contenere termini di grado superiore al primo come ad esempio età2, trasformazioni come ad esempio log ( età ) e anche interazioni come ad esempio età * fumo.

    corso spss

    Altre considerazioni sul modello logit

    Una delle considerazioni necessarie prima di applicare il modello di regressione logistica è determinare se la relazione tra la variabile indipendente e la probabilità dell'evento cambia direzione oppure no.

    Un esempio di ciò si ha quando per piccoli valori di una variabile indipendente, un aumento di quest'ultima provoca un aumento della variabile dipendente, ma da un certo valore della variabile indipendente, un aumento di quest'ultima porta a una diminuzione della variabile dipendente.

    Se ciò accade non puoi applicare il modello, anche se in assenza di questo cambiamento di direzione il modello logistico sarebbe adeguato.

    Un altro punto da tenere in considerazione quando si costruisce un modello di regressione logistica è la dimensione del campione.

    Sarà necessario avere almeno 10 * (n + 1) casi per stimare un modello con n variabili indipendenti. Considera che nel caso di una variabile indipendente qualitativa con j categorie, introduci j−1 variabili dummy nel modello, che saranno considerate come j−1 variabili quando si considera il numero di casi necessari per la costruzione del modello.

    Differenza rispetto alla regressione lineare

    La regressione logistica potrebbe essere considerata come un’estensione della regressione lineare quando la variabile risposta Y non è continua.

    Inoltre, rispetto alla regressione lineare il modello logit offre il vantaggio di non dover soddisfare ipotesi come l'esistenza di una relazione lineare tra la risposta e le variabili predittive, la normalità e l'omoschedasticità dei residui.

    analisi dati tesi

    Regressione logistica EXCEL

    Componente Aggiuntivo PH-STAT >>> Regression >>> Logistic Regression

    Regressione logistica SPSS

    Analizza >>> Regressione >>> Logistica binaria

    Analizza >>> Modelli lineari generalizzati >>> Modelli lineari generalizzati

    Riassumendo

    • La regressione logistica si basa sullo studio di una variabile dicotomica qualitativa Y [0,1], in funzione di uno o più fenomeni predittivi
    • Le variabili predittive indicano le caratteristiche del soggetto e possono essere sia discrete che continue.
    • Le principali assunzioni che devono essere rispettate per usare il modello logistico sono: la presenza di una variabile Y dicotomica, la dipendenza delle osservazioni, la presenza di una relazione tra Y e i predittori, assenza di valori anomali e di collinearità.
    • Il modello logit è un’estensione del modello di regressione lineare nel caso in cui la variabile dipendente non è continua.

    Oltre ai farmaci, efficaci sui neurotrasmettitori ma impotenti contro il pessimismo, l'arma più temibile contro il mal di vivere è l'infantilizzazione degli individui attraverso l'azione di multimedia sempre più potenti. Nel nome della gioia di vivere, assistiamo a una gigantesca regressione culturale e intellettuale.

    (GEORGES MINOIS, storico francese)

    Iscriviti alla Newsletter

    Se hai bisogno d’informazioni che non hai trovato nella sezione servizi o dei video corsi, scrivimi un messaggio o chiamami.
    Domande, prezzi, richieste, delucidazioni...tutto quello che ti serve. Cercherò di risponderti entro le 24h.
    Newsletter

    Consenso al trattamento dei dati
    Utilizzerò i tuoi dati (nome ed indirizzo mail) solo per inviarti gratuitamente via mail la newsletter mensile. Niente spam, niente scocciature, ti disiscrivi in un click quando vuoi.

    arrow-up-circle
    linkedin facebook pinterest youtube rss twitter instagram facebook-blank rss-blank linkedin-blank pinterest youtube twitter instagram