Una variabile casuale X è una variabile il cui valore dipende dall'esito di un fenomeno aleatorio cioè che si riferisce a un evento casuale. Possiamo anche descriverlo come una funzione che mappa dallo spazio campionario ω a uno spazio misurabile (ad esempio un numero reale).
X: ω —>R
Una famiglia di variabili casuali dipendenti dal tempo, definite su uno spazio campione si definisce processo stocastico. Un processo stocastico è un insieme di funzioni che evolvono nel tempo ognuna delle quali è associata ad un determinato elemento dello spazio campione, così che il risultato di un esperimento corrisponde all'estrazione di una di queste funzioni.
Supponi di avere uno spazio campionario contenente 4 studenti A, B, C, D. Se ora scegli casualmente lo studente A e misuri l'altezza in centimetri, puoi pensare alla variabile casuale X come alla funzione che probabilizza gli studenti in base alle loro altezze espresse mediante numeri reali.
A seconda di quale studente venga scelto casualmente la variabile X può assumere stati diversi o valori diversi in termini di altezza in centimetri.
Se la variabili casuali possono assumere solo un numero finito o numerabile infinito di valori distinti, allora sono variabili casuali discrete.
In altre parole, una variabile casuale è discreta se i valori che assume si possono contare e i numeri a cui fa riferimento sono i numeri naturali (0 - 1 - 2 - ...).
I fenomeni che tipicamente si manifestano con numeri naturali sono per esempio tutti quelli che hanno a che fare con il conteggio delle persone:
oppure fenomeni per il conteggio di oggetti:
Insomma in generale caratteri in cui non possano comparire i decimali. (Non posso studiare la probabilità di avere 15,978 studenti)
Se le variabili casuali possono assumere solo un numero infinito di valori, allora sono variabili casuali continue.
In altre parole, una variabile casuale è continua se i valori che assume si possono misurare e i numeri a cui fa riferimento sono i numeri reali (0 - 0,5 - 1 - 1,27 - 2,55 - …).
I fenomeni che tipicamente si manifestano con numeri reali sono per esempio tutti quelli che hanno a che fare con la misurazione delle persone:
oppure fenomeni per la misurazione di oggetti:
Insomma in generale caratteri in cui possano comparire i decimali. (Ma includono anche i numeri naturali)
Chiaramente una variabile aleatoria, da qui in poi abbreviata con VA, di per sé non ci fornisce informazioni sulla probabilità che questa assuma determinati valori.
Questa informazione viene fornita dalla distribuzione di probabilità della VA, ma a cosa si indica esattamente con questo termine? Di seguito rispondo a questa domanda e ti mostro come questo concetto è legato al calcolo delle probabilità.
La probabilità che una VA assuma uno dei suoi risultati possibili può essere data da una distribuzione di probabilità cioè una funzione matematica che fornisce le probabilità di risultati diversi per un esperimento.
Più in generale può essere descritta come la funzione che associa uno spazio di partenza A - relativo allo spazio campionario - a un numero reale p, ovvero la probabilità.
f: A —>p
Affinché la funzione di cui sopra caratterizzi una distribuzione di probabilità, deve seguire tutti gli assiomi di Kolmogorov:
La f(x) deve essere maggiore o uguale a 0. Non esiste al mondo una probabilità negativa, al massimo può essere nulla
La f(x) deve essere minore o uguale a 1. Non esiste al mondo una probabilità che superi il tetto massimo del 100%.
Dai punti 1) e 2) si deduce che una probabilità deve sempre essere compresa tra 0 e 1, o se la vuoi vedere in termini percentuali tra lo 0% e il 100%.
Due eventi E1 e E2 sono incompatibili quando la loro l'intersezione forma un insieme vuoto ( E1 ⋂ E2 = Ø ), in altre parole il verificarsi di un evento esclude il verificarsi dell’altro. (Esempio avere o non avere una laurea). Sotto questa ipotesi, si ha che la probabilità dell’unione dei due eventi è uguale alla somma delle probabilità dell’evento E1 e dell’evento E2. In formule questo si scrive come segue:
P(E1 U E2)=P(E1)+P(E2)
Tale formula si può estendere al caso con più di due eventi incompatibili
Il modo in cui descriviamo una distribuzione di probabilità e quindi la funzione suddetta dipende dal fatto che la VA sia discreta o continua. Nel primo caso f si chiamerà funzione di massa di probabilità e si indicherà con p(x) mentre nel secondo caso sarà la funzione di densità di probabilità e si indicherà con f(x).
La funzione di massa di probabilità detta probability mass function in inglese (pmf) descrive la distribuzione di probabilità di variabili casuali discrete. In altri termini, è una funzione che restituisce la probabilità che una variabile casuale sia esattamente uguale a un valore specifico, in formule:
p(x) = P(X=x)
N.B.
la X maiuscola indica il fenomeno, per esempio il numero di figli di una coppia
la x minuscola indica i numeri che quel fenomeno può assumere, per esempio 0,1,2…
La probabilità restituita è sempre compresa nell'intervallo [0, 1] e la somma di tutte le probabilità per ogni stato è sempre uguale a uno.
Supponi che una famiglia vuole avere due figli e necessiti calcolare tutte le probabilità collegate alle possibili coppie di figli.
Forse non sai che c’è una legge matematica che si ripete sempre in qualsiasi paese del mondo, epoca o condizioni socio-culturali.
Nascono più uomini che donne! Ebbene sì, su 1000 persone nate 515 saranno del genere maschile mentre 485 di quello femminile. Se non ci credi puoi controllare tu stesso sul sito demo.istat per riscontrare le nascite in Italia
Tradotto in termini statistici puoi scrivere che P(M) = 0,515 infatti basta prendere i casi favorevoli (515) e dividerli per i casi possibili (1000).
Dunque i dati di partenza sono questi:
P(M) = numero maschi / numero totale nati = 515 / 1000 = 0,515
P(F) = numero femmine / numero totale nati = 485 / 1000 = 0,485
A questo punto devi identificare la tua variabile casuale. Può scegliere indifferentemente se farla in funzione dei maschi o delle femmine, tanto non cambia nulla.
Alla luce di ciò, scegliamo la la funzione “X: numero di maschi” su 2 figli nati:
P (X = 0) = P (F-F) = 0,485 * 0,485 = 0,2352 (23,52%)
P (X = 1) = P (M-F) + P (F-M) = (0,515 * 0,485) * 2 = 0,4996 (49,96%)
P (X = 2) = P (M-M) = 0,515 * 0,515 = 0,2652 (26,52%)
Come vedi la probabilità di ottenere 0 maschi corrisponde al prodotto tra la probabilità di avere una femmina come primo e come secondo figlio. Analogo discorso per le altre probabilità
Di seguito il grafico della funzione di probabilità della VA.
Nel caso di variabili casuali continue, come già detto, la distribuzione di probabilità è fornita dalla funzione di densità (PDF).
Contrariamente alla funzione di massa (PMF), non fornisce la probabilità che una variabile casuale prenda direttamente uno stato specifico. Descrive invece la probabilità che una variabile casuale si trovi all'interno di un particolare intervallo di valori. Tale probabilità non è altro che l’area che sta sotto la curva PDF e il suo calcolo richiede lo svolgimento di integrali matematici che vanno al di là dello scopo di questo articolo.
Per tale motivo, a titolo di esempio, qui sotto ti ho riportato il grafico della funzione di densità di una VA continua molto famosa: la variabile casuale normale. Ti rimando a questo articolo dove te ne ho parlato in dettaglio.
Legata alle PDF e PFM è la funzione di ripartizione F(x) detta abbreviatamente CDF. Questa è definita come la probabilità che la VA X assuma valore minore o uguale a uno specifico valore x fissato:
F(x) = P(X <= x)
Nel caso di VA discreta sarà la somma di tutte le probabilità che vanno dal valore di X più piccolo fino al valore di X cercato.
Nel caso di VA continua sarà l’integrale che va dal valore di X più piccolo fino al valore di X cercato.
Tornando all’esempio dei figli se volessi calcolare la probabilità di avere al massimo 1 figlio maschio dovresti usare la funzione di ripartizione P(X ≤ 1) ovvero sommare le probabilità di P(X = 0) + P(X = 1) = 0,2352 + 0,4996 = 0,7348 (73,48%).
Non esiste un comando generale ma uno per ogni variabile specifica. Le funzioni iniziano tutte con DISTRIB.
Non esiste un comando specifico, ma uno per ogni singola variabile. Le funzioni iniziano tutte con DISTRIB.
DISTRIB.NORM.N (x; media; dev_standard; cumulativa)
DISTRIB.NORM.ST.N (z; cumulativa)
DISTRIB.T.2T (x; grad_libertà)
DISTRIB.T.N (x; grad_libertà; code)
DISTRIB.T.DS (x; grad_libertà)
DISTRIB.LOGNORM.N (x; media; dev_standard; cumulativa)
DISTRIB.F.DS (x; grad_libertà1; grad_libertà2)
DISTRIBF (x; grad_libertà1; grad_libertà2; cumulativa)
DISTRIB.BINOM.N (num_successi; prove; probabilità_s; cumulativa)
DISTRIB.IPERGEOM.N (s_campione; num_campione; s_pop; num_pop; cumulativa)
DISTRIB.BINOM.NEG.N (num_insuccessi; num_successi; probabilità_s; cumulativa)
DISTRIB.POISSON (x; media; cumulativa)
DISTRIB.EXP.N (x; lambda; cumulativa)
DISTRIB.GAMMA.N (x; alfa; beta; cumulativa)
DISTRIB.CHI.QUAD (x; grad_libertà; cumulativa)
DISTRIB.CHI.QUAD.DS (x; grad_libertà)
DISTRIB.BETA.N (x; alfa; beta; cumulativa; a; b)
DISTRIB.WEIBULL (x; alfa; beta; cumulativa)
Non esiste un comando specifico
Le teorie statistiche nascondono un perfetto deciso e una realtà constatata dietro variabili che eludono le nostre tecniche sperimentali.
(LOUIS DE BROGLIE)