Rozkład hipergeometryczny

Rozkład hipergeometryczny jest jednym z klasycznych rozkładów prawdopodobieństwa stosowanych w statystyce i teorii prawdopodobieństwa. Opisuje on liczbę sukcesów w próbie losowej pobranej bez zwracania z ograniczonej populacji. W przeciwieństwie do rozkładu dwumianowego, gdzie próby są niezależne i z zastąpieniem, w rozkładzie hipergeometrycznym każda próba wpływa na prawdopodobieństwo sukcesu w kolejnych próbach. Rozkład hipergeometryczny znajduje szerokie zastosowanie w sytuacjach, gdzie próbki są pobierane z małych populacji, takich jak badania kontrolne, testy jakościowe czy badania statystyczne.

Definicja rozkładu hipergeometrycznego

Zmienna losowa $X$ ma rozkład hipergeometryczny z parametrami $N$, $K$, i $n$, jeśli reprezentuje liczbę sukcesów w próbce $n$ elementów pobranej bez zwracania z populacji o wielkości $N$, zawierającej $K$ sukcesów. Prawdopodobieństwo, że zmienna losowa $X$ przyjmie wartość $k$, jest dane wzorem:

$$ P\{X = k\} = \frac{\binom{K}{k} \binom{N-K}{n-k}}{\binom{N}{n}} \quad (k = \max(0, n-(N-K)), \ldots, \min(n, K)) $$

W powyższym wzorze:

$N$ - całkowita liczba elementów w populacji,
$K$ - liczba elementów w populacji, które są sukcesami,
$n$ - liczba elementów w próbie,
$k$ - liczba sukcesów w próbie.

Rozkład hipergeometryczny jest używany do modelowania liczby sukcesów w próbie, gdy próbki są pobierane bez zwracania, co oznacza, że każde pobranie zmienia skład populacji i prawdopodobieństwo kolejnych sukcesów.

Własności rozkładu hipergeometrycznego

Rozkład hipergeometryczny posiada kilka kluczowych własności, które czynią go użytecznym w analizie zjawisk losowych:

Zmiana prawdopodobieństwa: W przeciwieństwie do rozkładu dwumianowego, w rozkładzie hipergeometrycznym prawdopodobieństwo sukcesu zmienia się po każdej próbie, ponieważ próbki są pobierane bez zwracania.
Brak niezależności prób: Każde losowanie zmienia skład populacji, więc próby nie są niezależne.
Wartość oczekiwana i wariancja: Dla zmiennej losowej $X$ o rozkładzie hipergeometrycznym z parametrami $N$, $K$, i $n$, wartość oczekiwana i wariancja są dane wzorami: $$ E(X) = \frac{nK}{N}, \quad \text{Var}(X) = \frac{nK}{N} \left(1 - \frac{K}{N}\right) \frac{N-n}{N-1} $$

Przykłady zastosowań rozkładu hipergeometrycznego

Rozkład hipergeometryczny znajduje zastosowanie w wielu dziedzinach nauki, inżynierii, finansów i medycyny. Oto kilka typowych przykładów jego zastosowania:

Kontrola jakości: W produkcji rozkład hipergeometryczny może być używany do modelowania liczby wadliwych produktów w próbce pobranej z partii produkcyjnej bez zwracania. Na przykład, jeśli mamy 1000 produktów, z których 50 jest wadliwych, i losowo wybieramy 20 produktów do kontroli, rozkład hipergeometryczny może określić prawdopodobieństwo znalezienia określonej liczby wadliwych produktów w próbie.
Badania biologiczne: W biologii rozkład hipergeometryczny może być używany do modelowania liczby osobników z określoną cechą w próbce pobranej z populacji bez zwracania. Na przykład, można go użyć do badania liczby roślin z określoną mutacją genetyczną w próbce pobranej z większej populacji.
Badania ankietowe: W badaniach społecznych rozkład hipergeometryczny może opisywać liczbę osób o określonej charakterystyce w próbce pobranej bez zwracania z bazy danych respondentów. Przykładem może być liczba respondentów w próbie, którzy popierają określoną politykę, wybranych z grupy z wcześniejszymi odpowiedziami.

Porównanie rozkładu hipergeometrycznego z innymi rozkładami

Rozkład hipergeometryczny jest często porównywany z innymi rozkładami prawdopodobieństwa, takimi jak rozkład dwumianowy i rozkład Poissona:

Rozkład dwumianowy: Rozkład dwumianowy opisuje liczbę sukcesów w próbach przeprowadzanych z zastąpieniem, co oznacza, że prawdopodobieństwo sukcesu jest stałe. Rozkład hipergeometryczny, z drugiej strony, opisuje liczbę sukcesów w próbie pobranej bez zwracania, co oznacza, że prawdopodobieństwo sukcesu zmienia się po każdej próbie.
Rozkład Poissona: Rozkład Poissona jest często używany jako przybliżenie rozkładu hipergeometrycznego w sytuacjach, gdzie populacja jest duża, a próbka jest mała w porównaniu do całej populacji. W takim przypadku, gdy liczba sukcesów jest niewielka, rozkład hipergeometryczny zbliża się do rozkładu Poissona z parametrem $\lambda = \frac{Kn}{N}$.

Przykład zastosowania rozkładu hipergeometrycznego

Przykład 1: Kontrola jakości w produkcji

Fabryka produkuje partię 1000 urządzeń, z których 50 jest wadliwych. Losowo wybiera się 20 urządzeń do kontroli jakości. Jakie jest prawdopodobieństwo, że dokładnie 2 z wybranych urządzeń będzie wadliwe?

Rozwiązanie:

W tym przypadku mamy:

$N = 1000$ (całkowita liczba urządzeń),
$K = 50$ (liczba wadliwych urządzeń),
$n = 20$ (liczba urządzeń w próbie),
$k = 2$ (liczba wadliwych urządzeń w próbie).

Prawdopodobieństwo znalezienia dokładnie 2 wadliwych urządzeń w próbie jest dane wzorem rozkładu hipergeometrycznego:

$$ P\{X = 2\} = \frac{\binom{50}{2} \binom{950}{18}}{\binom{1000}{20}} $$

Obliczając wartości symboli Newtona, otrzymujemy:

$$ P\{X = 2\} = \frac{\frac{50!}{2!(50-2)!} \cdot \frac{950!}{18!(950-18)!}}{\frac{1000!}{20!(1000-20)!}} $$

Przybliżone obliczenia mogą być wykonane za pomocą kalkulatora lub oprogramowania statystycznego, co daje nam ostateczne prawdopodobieństwo.

Funkcja generująca momenty rozkładu hipergeometrycznego

Funkcja generująca momenty (MGF - Moment Generating Function) dla rozkładu hipergeometrycznego jest bardziej złożona i rzadziej stosowana w praktyce niż w przypadku innych rozkładów. Wynika to z faktu, że próbki są pobierane bez zwracania, co komplikuje wyrażenia matematyczne. Mimo to, MGF można używać do obliczania momentów rozkładu, jeśli jest to potrzebne.

Podsumowanie

Rozkład hipergeometryczny jest istotnym narzędziem w statystyce i probabilistyce, używanym do modelowania liczby sukcesów w próbie pobranej bez zwracania z ograniczonej populacji. Jego zastosowanie obejmuje kontrolę jakości, badania biologiczne, testy ankietowe i inne sytuacje, w których próbki są pobierane z małych populacji. Zrozumienie rozkładu hipergeometrycznego i jego właściwości jest kluczowe dla skutecznego stosowania metod statystycznych i podejmowania decyzji w praktyce.