whatsapp
Adriano Gilardone
Adriano Gilardone
adriano gilardone Docente di Statistica Matematica Excel Spss sfruttare excel consulenze statistiche lezione videocorsi
blog

blog

Il teorema di Bayes

YouTube video
Postato il 11 Luglio 2022
Tag

Cos’è il teorema di Bayes?

Chiamato anche formula di Bayes, o teorema della probabilità delle cause, è, appunto, un teorema (enunciato da Thomas Bayes all’inizio del XVIII secolo) che devi utilizzare quando vuoi calcolare la probabilità a posteriori che una causa abbia realizzato un effetto, conoscendo la probabilità a priori che quella causa si manifesti.

Andiamo con ordine e proviamo ad entrare nel dettaglio del teorema spiegandolo con un esempio pratico, così vedrai che, in realtà, può essere che tu sia già venuto a contatto più volte con esso nella tua vita.

Tutto parte da due eventi, A e B, due casi possibili a cui applicare il teorema. Ma, invece che chiamarli semplicemente evento A e evento B, darò inizio a questa spiegazione citandoti un programma televisivo un tempo abbastanza famoso, e parlandoti del problema di Monty Hall e di come può esserti utile per capire il teorema di Bayes.

corso statistica

Il problema di Monty Hall

Negli anni ‘60 la televisione statunitense ospitava Let’s Make a Deal, un gioco a premi condotto da Maurice Halprin, noto con lo pseudonimo di Monty Hall. Proprio da qui ha inizio il paradosso (o problema) di Monty Hall: ad ogni concorrente venivano presentate 3 porte, chiedendogli di sceglierne solamente una. Dietro a 2 di esse c’era una capra, mentre la terza nascondeva un’automobile. Il giocatore avrebbe portato a casa il premio che avrebbe trovato dietro alla porta da esso selezionata.

Dilemma di Monty Hall
Il paradosso di Monty Hall

Questa quindi la situazione di partenza: porta 1, porta 2, porta 3.
 
Poniamo come esempio che il concorrente selezioni la porta 1: la probabilità che la scelta sia quella vincente è di ⅓.

Come si può fare un calcolo delle probabilità? 

Si tratta del rapporto tra i casi favorevoli (1 porta vincente) e i casi possibili (3 porte totali): la probabilità è del 33,3%.

A questo punto, Monty Hall apriva una delle due porte rimanenti, mostrando ovviamente al concorrente quella che dietro nascondeva una capra. Poniamo in questo caso fosse la numero 3. 

Così il giocatore sapeva con certezza che la macchina poteva essere o dietro la porta 1 (da lui scelta) o dietro la porta 2, e Monty Hall chiedeva: “Vuoi cambiare porta o confermi quella selezionata?”

Ed è qui che ti spiego cosa significa la probabilità a priori, come capire la probabilità condizionata e quindi come si calcola il teorema di Bayes.

corso statistica

La probabilità a priori e la probabilità condizionata

Come abbiamo detto inizialmente, il teorema di Bayes ti aiuta a calcolare la probabilità che una causa abbia provocato un effetto sull’evento che stai analizzando.

Questo evento avrà quindi una probabilità a priori, cioè la probabilità che questo evento si verifichi prima che una seconda causa vada a condizionarlo.

Se hai problemi a comprendere la probabilità condizionata ti lascio il video tratto dal mio videocorso sulla probabilità e le variabili casuali.

YouTube video
Distribuzioni condizionate

Nel caso del problema di Monty Hall, la probabilità a priori che il concorrente scelga la porta giusta (prima che il conduttore gli sveli cosa c’è dietro a un’altra) è, come abbiamo detto, ⅓.

Qui entra in gioco la probabilità condizionata, cioè come si modifica la probabilità dopo che un nuovo evento è entrato in scena, creando un effetto sulla prima situazione.

In questo caso, la condizione che modifica la probabilità a priori è proprio Monty Hall che apre una nuova porta al giocatore, chiedendogli poi se vuole cambiare scelta.

Da questo momento, se il concorrente decide effettivamente di cambiare porta, le probabilità di vittoria passano da ⅓ a ⅔. Vediamo come.

La soluzione del dilemma di Monty Hall

Con 2 porte chiuse su 3, si potrebbe pensare che le probabilità di vittoria ora siano 50/50 per ognuna, e che quindi non ci sia motivo di cambiare porta selezionata. Invece è proprio il teorema di Bayes che ci mostra che non è così, ma che per i concorrenti di Let’s Make a Deal era sempre consigliabile cambiare porta. 

Ci sono tre scenari possibili, e ognuno di essi ha probabilità di vittoria di ⅓:

  • Il giocatore sceglie la porta numero 1, che nasconde una capra. Il conduttore sceglie l'altra capra, la numero 2. Cambiando, il giocatore vince l'auto.
  • Il giocatore sceglie la porta numero 2, che nasconde una capra. Il conduttore sceglie l'altra capra, la numero 1. Cambiando, il giocatore vince l'auto.
  • Il giocatore sceglie la porta numero 3, che nasconde l'auto. Il conduttore sceglie una capra, non importa quale. Cambiando, il giocatore trova l'altra capra.
Teorema di Bayes
Dilemma di Monty Hall

Nei primi due scenari, se il giocatore cambia vince l'auto; nel terzo invece se il giocatore cambia non vince. Dal momento che la strategia "cambiare" porta alla vittoria in due casi su tre, allora la probabilità che questa si verifichi è del 66,6%, passando da una probabilità iniziale di 1/3 a quella a posteriori di 2/3.

Il calcolo appena effettuato, cioè la probabilità che la percentuale di vittoria del concorrente sia aumentata a causa dell'intervento di Monty Hall è proprio il teorema di Bayes.

Come si applica il teorema di Bayes?

Vediamo adesso come si applica il teorema di Bayes, ripercorrendo insieme i vari passaggi, sempre applicandolo ad un esempio pratico. Questa volta, ti mostrerò una situazione un po’ più vicina a noi, e che sicuramente hai già vissuto in questi due anni: la percentuale di essere sani anche se si ha un test positivo al Covid (quindi, quello che abbiamo imparato a conoscere in questi anni come “un falso positivo”).

Guardiamo insieme i diversi passaggi.

Recupera i dati

Per poter procedere con il teorema di Bayes dovrai, per prima cosa, avere accesso ad alcuni dati. Questi non possono essere calcolati, dovrai averli a disposizione!

Nel caso che stiamo esaminando adesso, per esempio, avrai bisogno di sapere 4 diversi fattori:

  1. la percentuale per cui un Test risulta Positivo se l’individuo è Malato, poniamo sia il 95%: lo chiameremo TP | M, che puoi leggere come dato che sono Malato, il mio Test è Positivo
  2. la percentuale per cui un Test risulta Positivo se l’individuo è Sano, poniamo sia il 2%: lo chiameremo TP | S, che puoi leggere come dato che sono Sano, il mio Test è Positivo
  3. la percentuale di persone malate sul totale della popolazione, poniamo sia il 0,5%: la chiameremo P (M).
  4. la percentuale di persone sane sul totale della popolazione, poniamo sia il 95%: la chiameremo P (S).

Una volta recuperati questi valori, possiamo passare al passaggio successivo per trovare la formula della probabilità totale.

Calcola la probabilità totale

É la probabilità totale che il test risulti positivo data dalla somma tra le due diverse probabilità: che il test risulti positivo se l’individuo è malato (quindi sia “giusto”) e che il test risulti positivo anche se l’individuo è sano (quindi sia “sbagliato”). Prima di procedere al teorema di Bayes ti servirà calcolare questo dato.

Vediamo come fare.

Moltiplica P (M) e P (TP | M)

Il primo punto da seguire per calcolare la probabilità totale è calcolare la probabilità per cui il test è “giusto”, quindi, come dicevamo prima, risulti positivo nel momento che ho effettivamente la malattia.

Attenzione: la probabilità è sempre un numero tra 0 e 1, quindi in questo esempio dovremo prima trasformare le percentuali in numeri. Avremo così:

  • Test Positivo e individuo Malato: 95% → 0,95
  • Test Positivo e individuo Sano: 2% → 0,02
  • Persone Malate sul totale della popolazione: 0,5% → 0,005
  • Persone Sane sul totale della popolazione: 95% → 0,995

Avremo quindi la formula:

P (M) x P (TP | M) = 0,005 x 0,95 = 0,00475

Moltiplica P (S) e P (TP | S)

Il secondo dato che ti serve è calcolare la probabilità in cui il test è “sbagliato”, quindi, risulti positivo anche se non ho la malattia (il “falso positivo”).

In questo caso la formula è:

P (S) x P (TP | S) = 0,995 x 0,02 = 0,01990

Somma i due valori

Prendi i due valori appena calcolati e sommali. Otterrai dunque la probabilità totale che un Test sia Positivo.

La formula quindi sarà:

P (TP) = P (M) x P (TP | M) + P (S) x P (TP | S) = 0,00475 + 0,01990 = 0,02465

Calcola il teorema di Bayes

Ora che abbiamo calcolato la probabilità totale, il passaggio successivo è il teorema di Bayes, che entra in gioco in seguito, calcolando la probabilità a posteriori che una causa abbia realizzato un effetto.

Nell'esempio ci interessa sapere che, visto che il Test è risultato Positivo, qual è la probabilità che sia effettivamente malato? e di conseguenza anche quella in cui sia sano.

Sappi che dovrai fare "la parte" sul "tutto" che in statistica significa calcolare un percentuale.

Vediamo come, cominciando con la prima situazione, cioè quella in cui ho un test positivo e sono malato.

Per applicare il teorema di Bayes il passaggio da fare è solamente uno, perché hai già precedentemente calcolato tutti i dati di cui ora hai bisogno. Cosa devi fare quindi?

P (M | TP) = P (M) x P (TP | M) / P(TP) = 0,00475 / 0,02465 = 0,1926

Quindi, tornando alle percentuali, la probabilità che io sia malato se il mio test è positivo è del 19,26%

Viceversa, se voglio calcolare la probabilità che per cui, dato che il mio test è positivo, io sia sano, avrò:

P (S | TP) = P (S) x P (TP | S) / P(TP) = 0,01990 / 0,02465 = 0,8073

Questo dato, in percentuale l’80,74%, sarà la probabilità che io sia sano nonostante il mio test sia risultato positivo.

Attenzione: la somma delle due situazioni analizzate dal teorema di Bayes deve sempre fare 100! Questo perché, a logica, prende in considerazione due dati opposti l’uno all’altro, per cui un fattore o si verifica o non si verifica, non esiste una terza strada. Per questo motivo sommando i due valori trovati devo sempre avere come risultato il 100%.

Se hai ancora dubbi sul teorema di Bayes, ti consiglio di guardarti il video iniziale dove te lo spiego con una metafora statistica.

Il teorema di Bayes EXCEL

Non c’è un comando specifico ma si utilizzano le celle per inserire i dati e fare i calcoli necessari

Il teorema di Bayes SPSS

Non c’è un comando

Riassumendo

  • Devi utilizzare il teorema di Bayes quando vuoi calcolare la probabilità a posteriori che una causa abbia realizzato un effetto, conoscendo la probabilità a priori che quella causa si manifesti
  • La probabilità a priori è la probabilità che un evento si verifichi prima che una seconda causa vada a condizionarlo, mentre la probabilità condizionata è come si modifica la probabilità dopo che un nuovo evento è entrato in scena, creando un effetto sulla prima situazione
  • Prima di poter calcolare il teorema di Bayes, dovrai ricavare la probabilità totale di un fenomeno
  • Vuoi fare un primo check dei tuoi risultati? Ricorda che la somma dei dati delle due situazioni ottenute deve fare 100!

“La teoria della probabilità non è in fondo che il buon senso ridotto a calcolo: essa fa apprezzare con precisione ciò che gli spiriti giusti sentono per una sorta di istinto, senza che essi possano, sovente, rendersene conto.”

Pierre Simon Laplace

Iscriviti alla Newsletter

Se hai bisogno d’informazioni che non hai trovato nella sezione servizi o dei video corsi, scrivimi un messaggio o chiamami.
Domande, prezzi, richieste, delucidazioni...tutto quello che ti serve. Cercherò di risponderti entro le 24h.
Newsletter

Consenso al trattamento dei dati
Utilizzerò i tuoi dati (nome ed indirizzo mail) solo per inviarti gratuitamente via mail la newsletter mensile. Niente spam, niente scocciature, ti disiscrivi in un click quando vuoi.

arrow-up-circle
error: Content is protected !!
linkedin facebook pinterest youtube rss twitter instagram facebook-blank rss-blank linkedin-blank pinterest youtube twitter instagram