blog
In uno degli articoli precedenti ti ho parlato della distribuzione binomiale che possiamo definire la "cugina" della distribuzione ipergeometrica perché molto simile alla precedente, ma che si differenzia dal fatto che gli eventi sono indipendenti mentre nella binomiale sono dipendenti.
La variabile casuale ipergeometrica è una distribuzione di probabilità discreta che viene utilizzata per stimare la probabilità di ottenere un certo numero di successi in un campione di dimensione fissa, estratto senza reimmissione (o senza reinserimento, o senza riposizione) da una popolazione finita.
Significa che, una volta estratti n elementi dal campione, essi vengono rimossi e non possono essere selezionati nuovamente come succede nella binomiale
La distribuzione ipergeometrica può essere utilizzata nei seguenti casi:
In generale, la distribuzione ipergeometrica viene utilizzata quando la popolazione è finita e non è possibile effettuare l'assunzione di indipendenza tra le osservazioni.
Questa distribuzione è asimmetrica e la sua forma dipende dalla dimensione del campione rispetto alla popolazione, nonché dal numero di successi e di insuccessi nella stessa.
Se vuoi approfondire il concetto di asimmetria o altrimenti guardati il video in cui ti spiego il concetto con una metafora.
Una proprietà fondamentale della distribuzione ipergeometrica è la sua relazione con la variabile casuale binomiale.
La principale differenza è che la variabile casuale ipergeometrica presume una popolazione finita e il campione viene estratto senza reinserimento (eventi dipendenti), mentre nella variabile casuale binomiale la popolazione è infinita e il campione viene estratto con reimmissione (eventi indipendenti).
Se vuoi approfondire la distribuzione binomiale, ti metto a disposizione una lezione presa dal mio videocorso su probabilità e variabili casuali.
Prima di tutto definiamo i valori dei parametri della distribuzione ipergeometrica, che sono:
N = numerosità della popolazione
n = numerosità del campione
k = successi della popolazione
x = successi del campione
di conseguenza avrai che:
N - k = insuccessi della popolazione
n - x = insuccessi del campione
Questa formula fornisce la probabilità di ottenere esattamente x successi in un campione di dimensione n estratto da una popolazione di dimensione N con k successi.
Ricordandoti che un numero fattoriale (n!) è la moltiplicazione di quel numero per tutti i numeri interi precedenti, esempio: 4! = 4 * 3 * 2 * 1, di seguito trovi passaggi per il calcolo della funzione di massa di probabilità.
\(\displaystyle \binom{k}{x} = \dfrac{k!}{x!(k-x)!} \)
Calcola il primo coefficiente della formula che rappresenta le combinazioni di x successi del campione all'interno dei k successi della popolazione.
\(\displaystyle \binom{N-k}{n-x} = \dfrac{(N-k)!}{(n-x)! [(N-k)-(n-x)]!} \)
Calcola il secondo coefficiente della formula che rappresenta le combinazioni di n-x insuccessi del campione all'interno dei N-k insuccessi della popolazione.
\(\displaystyle \binom{N}{n} = \dfrac{N!}{n!(N-n)!} \)
Infine trova l'ultimo coefficiente che determina le combinazioni di n osservazioni del campione all'interno delle N osservazioni della popolazione.
Se hai difficoltà con questi calcoli puoi leggere anche qui l'articolo di riferimento sul calcolo combinatorio o guardati i miei video esplicativi.
La funzione di ripartizione di una distribuzione ipergeometrica è invece data da:
\(\displaystyle P(X \leq x) = \sum_{k=0}^{x} \dfrac{\binom{k}{x} \binom{N-k}{n-x}}{\binom{N}{n}} \)
La funzione ci informa sulla probabilità cumulata, ovvero che il numero di successi sia inferiore o uguale a un determinato valore x.
Come tutte le funzioni di ripartizioni discrete devi sommare le probabilità che vanno dalla x più piccola fino a quella desiderata.
Come già dovresti sapere la media si ottiene moltiplicando le modalità per le frequenze assolute e dividendo il tutto per n.
Qui però hai le probabilità che sono uguali alle frequenze relative della statistica descrittiva e quindi ti basterebbe moltiplicarle per le modalità x, senza dividere il tutto per n.
Ma la variabile ipergeometrica, come tutte le variabili casuali note, ha una formula che ti calcola direttamente media e varianza.
MEDIA = E(X) = n * ( k / n )
Nota: Il simbolo di un valore atteso di una qualsiasi variabile casuale è E(X) perchè deriva dall’inglese Expectation, cioè aspettativa che in statistica è sinonimo di media.
VARIANZA = V(X) = ( n * k ) * ( N - k ) * ( N - n ) / [ N2 * ( N - 1 ) ]
Se ancora hai dubbi sulla formula non ti preoccupare perché ho realizzato un video, con l'aiuto della calcolatrice scientifica SHARP, che ti permetterà di svolgere un'esercizio sulla distribuzione ipergeometrica in modo semplice e veloce.
Immagina di avere una scatola piena di palline di due colori diversi e di cui conosci il loro numero.
La distribuzione ipergeometrica è come una formula magica che ti aiuta a scoprire la probabilità di estrarre un certo numero di palline, senza dover guardare nella scatola.
Ad esempio, se ci sono 20 palline nella scatola, di cui 12 palline rosse e 8 palline nere, e vuoi prenderne 5 a caso, la distribuzione ipergeometrica ti aiuta a calcolare la probabilità, per esempio, di ottenere 3 palline rosse in quel campione di 5 palline.
Testo dell'esercizio:
In una scatola ci sono \( N = 20 \) palline, di cui \( 12 \) rosse e \( 8 \) nere. Si estraggono \( n = 5 \) palline senza reinserimento. Qual è la probabilità di ottenere esattamente \( k = 3 \) palline rosse?
Tabella riassuntiva dei dati:
\[
\begin{array}{|c|c|}
\hline
\textbf{Parametro} & \textbf{Valore} \\
\hline
\text{num.popolazione} \, (N) & 20 \\
\text{suc. popolazione} \, (K) & 12 \\
\text{num. campione} \, (n) & 5 \\
\text{suc. campione} \, (k) & 3 \\
\hline
\end{array}
\]
Formula della distribuzione ipergeometrica:
\[
P(X = k) = \frac{\binom{K}{k} \binom{N-K}{n-k}}{\binom{N}{n}}
\]
Sostituendo i valori dell'esercizio:
\[
P(X = 3) = \frac{\binom{12}{3} \binom{8}{2}}{\binom{20}{5}}
\]
Passo 1: Calcolo dei coefficienti binomiali
Calcoliamo il primo coefficiente binomiale:
\[
\binom{12}{3} = \frac{12!}{3!(12-3)!} = \frac{12!}{3! \cdot 9!} = \frac{12 \times 11 \times 10}{3 \times 2 \times 1} = 220
\]
Calcoliamo il secondo coefficiente binomiale:
\[
\binom{8}{2} = \frac{8!}{2!(8-2)!} = \frac{8!}{2! \cdot 6!} = \frac{8 \times 7}{2 \times 1} = 28
\]
Calcoliamo il denominatore:
\[
\binom{20}{5} = \frac{20!}{5!(20-5)!} = \frac{20!}{5! \cdot 15!} = \frac{20 \times 19 \times 18 \times 17 \times 16}{5 \times 4 \times 3 \times 2 \times 1} = 15504
\]
Passo 2: Calcolo della probabilità
\[
P(X = 3) = \frac{220 \times 28}{15504}
\]
\[
P(X = 3) = \frac{6160}{15504} \approx 0.397
\]
Risultato finale:
La probabilità di ottenere esattamente 3 palline rosse nel campione di 5 è circa 0.397 (39.7%).
Quando la proporzione del campione è sufficientemente piccola (n / N < 0,10), allora la differenza tra la distribuzione ipergeometrica e quella binomiale si assottiglia e pertanto si possono semplificare i calcoli utilizzando quest'ultima.
DISTRIB.IPERGEOM.N (s_campione; num_campione; s_pop; num_pop; cumulativo)
Non esiste un comando specifico.
"La statistica: l’unica scienza che permette a esperti diversi, usando gli stessi numeri, di trarne diverse conclusioni."
Evan Esar
Iscriviti alla Newsletter