Rozkład hipergeometryczny

Rozkład hipergeometryczny
Parametry

N 0 , 1 , 2 , m 0 , 1 , 2 , , N n 0 , 1 , 2 , , N {\displaystyle {\begin{aligned}N&\in 0,1,2,\dots \\m&\in 0,1,2,\dots ,N\\n&\in 0,1,2,\dots ,N\end{aligned}}}

Nośnik

k max ( 0 , n + m N ) , , min ( m , n ) {\displaystyle k\,\in \,\max {(0,\,n+m-N)},\,\dots ,\,\min {(m,\,n)}}

Funkcja rozkładu prawdopodobieństwa

( m k ) ( N m n k ) ( N n ) {\displaystyle {\frac {{m \choose k}{N-m \choose n-k}}{N \choose n}}}

Wartość oczekiwana (średnia)

n m N {\displaystyle {\frac {nm}{N}}}

Moda

( n + 1 ) ( m + 1 ) N + 2 {\displaystyle \left\lfloor {\frac {(n+1)(m+1)}{N+2}}\right\rfloor }

Wariancja

n ( m / N ) ( 1 m / N ) ( N n ) / ( N 1 ) {\displaystyle n(m/N)(1-m/N)(N-n)/(N-1)}

Współczynnik skośności

( N 2 m ) ( N 1 ) 1 2 ( N 2 n ) [ n m ( N m ) ( N n ) ] 1 2 ( N 2 ) {\displaystyle {\frac {(N-2m)(N-1)^{\frac {1}{2}}(N-2n)}{[nm(N-m)(N-n)]^{\frac {1}{2}}(N-2)}}}

Kurtoza

[ N 2 ( N 1 ) n ( N 2 ) ( N 3 ) ( N n ) ] {\displaystyle \left[{\frac {N^{2}(N-1)}{n(N-2)(N-3)(N-n)}}\right]} [ N ( N + 1 ) 6 N ( N n ) m ( N m ) {\displaystyle \cdot \left[{\frac {N(N+1)-6N(N-n)}{m(N-m)}}\right.} + 3 n ( N n ) ( N + 6 ) N 2 6 ] {\displaystyle +\left.{\frac {3n(N-n)(N+6)}{N^{2}}}-6\right]}

Funkcja tworząca momenty

( N m n )   2 F 1 ( n , m ; N m n + 1 ; e t ) ( N n ) {\displaystyle {\frac {{N-m \choose n}\ _{2}F_{1}(-n,-m;N-m-n+1;e^{t})}{N \choose n}}}

Funkcja charakterystyczna

( N m n )   2 F 1 ( n , m ; N m n + 1 ; e i t ) ( N n ) {\displaystyle {\frac {{N-m \choose n}\ _{2}F_{1}(-n,-m;N-m-n+1;e^{it})}{N \choose n}}}

Rozkład hipergeometrycznydyskretny rozkład prawdopodobieństwa związany z tzw. schematem urnowym.

Zmienna losowa o tym rozkładzie określa prawdopodobieństwo uzyskania k {\displaystyle k} sukcesów ( k {\displaystyle k} -krotnego wylosowania obiektu mającego określoną cechę) w n {\displaystyle n} -elementowej próbie, czyli n {\displaystyle n} pojedynczych próbkowaniach bez zwracania z populacji o skończonej wielkości N {\displaystyle N} , w której znajduje się dokładnie m {\displaystyle m} obiektów mających tę cechę. W każdym pojedynczym próbkowaniu może nastąpić albo sukces, albo porażka[1].

Niekiedy spotyka się inny sposób sformułowania, np. zamiast N {\displaystyle N} (wielkości całej populacji) parametrem jest N m {\displaystyle N-m} (liczba obiektów niemających określonej cechy w populacji)[2].

Funkcja masy prawdopodobieństwa

Zmienna losowa X {\displaystyle X} ma rozkład hipergeometryczny, gdy funkcja masy prawdopodobieństwa (pmf) jest dana wzorem[3]

p X ( k ) = P ( X = k ) = ( m k ) ( N m n k ) ( N n ) , {\displaystyle p_{X}(k)=\mathbb {P} (X=k)={\frac {{\binom {m}{k}}{\binom {N-m}{n-k}}}{\binom {N}{n}}},}

gdzie

  • N {\displaystyle N} to wielkość populacji,
  • m {\displaystyle m} to liczba sukcesów (obiektów, które mają określoną cechę) w tej populacji,
  • n {\displaystyle n} to liczba pojedynczych losowań (wielkość pobieranej próbki),
  • k {\displaystyle k} to liczba sukcesów zaobserwowanych w próbce,
  • ( a b ) {\textstyle \textstyle {a \choose b}} to symbol Newtona.

Wzór ten stosuje się dla k, takich że max ( 0 , n + m N ) k min ( m , n ) {\displaystyle \max(0,n+m-N)\leq k\leq \min(m,n)} . Poza tym przedziałem prawdopodobieństwa p X ( k ) {\displaystyle p_{X}(k)} wynoszą zero.

Przykład

W grze Lotto uczestnik kupuje zakład, w ramach którego typuje, które z 49 liczb zostaną wylosowane w losowaniu odbywającym się w określonym terminie. W pojedynczym losowaniu losuje się 6 liczb. W pojedynczym zakładzie uczestnik typuje również 6 liczb. Zmienna X {\displaystyle X} określająca, ile z wytypowanych w tym zakładzie liczb zostanie wylosowanych, ma rozkład hipergeometryczny z parametrami N = 49 {\displaystyle N=49} , m = 6 {\displaystyle m=6} , n = 6 {\displaystyle n=6} . Prawdopodobieństwo prawidłowego wytypowania wszystkich sześciu liczb (trafienia szóstki) wynosi więc:

p X ( 6 ) = P ( X = 6 ) = ( 6 6 ) ( 49 6 6 6 ) ( 49 6 ) = 1 13983816 0,000 0000715 , {\displaystyle p_{X}(6)=\mathbb {P} (X=6)={\frac {{\binom {6}{6}}{\binom {49-6}{6-6}}}{\binom {49}{6}}}={\frac {1}{13983816}}\approx 0{,}0000000715,}

zaś prawdopodobieństwo uzyskania trójki (prawidłowego wytypowania dokładnie trzech liczb) wynosi:

p X ( 3 ) = P ( X = 3 ) = ( 6 3 ) ( 49 3 6 3 ) ( 49 6 ) = 246820 13983816 0,017 7. {\displaystyle p_{X}(3)=\mathbb {P} (X=3)={\frac {{\binom {6}{3}}{\binom {49-3}{6-3}}}{\binom {49}{6}}}={\frac {246820}{13983816}}\approx 0{,}0177.}

Jeżeli uczestnik gra systemem i typuje 8 liczb (co jest równoważne z zakupem odpowiedniej liczby powiązanych zakładów), zmienna Y {\displaystyle Y} określająca, ile z wytypowanych liczb będzie wylosowanych, ma rozkład hipergeometryczny z parametrami N = 49 {\displaystyle N=49} , m = 8 {\displaystyle m=8} , n = 6 {\displaystyle n=6} . W takiej sytuacji prawdopodobieństwo uzyskania szóstki wynosi:

p Y ( k ) = P ( Y = k ) = ( 8 6 ) ( 49 8 6 6 ) ( 49 6 ) 0,000 0020023 {\displaystyle p_{Y}(k)=\mathbb {P} (Y=k)={\frac {{\binom {8}{6}}{\binom {49-8}{6-6}}}{\binom {49}{6}}}\approx 0{,}0000020023}

Zobacz też

Przypisy

  1. JacekJ. Jakubowski JacekJ., RafałR. Sztencel RafałR., Wstęp do teorii prawdopodobieństwa, Wyd. 2 popr., rozsz., (dodr.), Warszawa: "Script", 2001, s. 16, ISBN 978-83-904564-5-4 .
  2. R: The Hypergeometric distribution [online], search.r-project.org [dostęp 2024-06-19] .
  3. John A. Rice: Mathematical Statistics and Data Analysis. Wyd. Third. Duxbury Press, 2007, s. 42.
Encyklopedie internetowe (univariate probability distribution):
  • Britannica: topic/hypergeometric-distribution
  • SNL: hypergeometrisk_fordeling