Rozkład hipergeometryczny
Rozkład hipergeometryczny jest jednym z klasycznych rozkładów prawdopodobieństwa stosowanych w statystyce i teorii prawdopodobieństwa. Opisuje on liczbę sukcesów w próbie losowej pobranej bez zwracania z ograniczonej populacji. W przeciwieństwie do rozkładu dwumianowego, gdzie próby są niezależne i z zastąpieniem, w rozkładzie hipergeometrycznym każda próba wpływa na prawdopodobieństwo sukcesu w kolejnych próbach. Rozkład hipergeometryczny znajduje szerokie zastosowanie w sytuacjach, gdzie próbki są pobierane z małych populacji, takich jak badania kontrolne, testy jakościowe czy badania statystyczne.
Definicja rozkładu hipergeometrycznego
Zmienna losowa $X$ ma rozkład hipergeometryczny z parametrami $N$, $K$, i $n$, jeśli reprezentuje liczbę sukcesów w próbce $n$ elementów pobranej bez zwracania z populacji o wielkości $N$, zawierającej $K$ sukcesów. Prawdopodobieństwo, że zmienna losowa $X$ przyjmie wartość $k$, jest dane wzorem:
$$ P\{X = k\} = \frac{\binom{K}{k} \binom{N-K}{n-k}}{\binom{N}{n}} \quad (k = \max(0, n-(N-K)), \ldots, \min(n, K)) $$
W powyższym wzorze:
- $N$ - całkowita liczba elementów w populacji,
- $K$ - liczba elementów w populacji, które są sukcesami,
- $n$ - liczba elementów w próbie,
- $k$ - liczba sukcesów w próbie.
Rozkład hipergeometryczny jest używany do modelowania liczby sukcesów w próbie, gdy próbki są pobierane bez zwracania, co oznacza, że każde pobranie zmienia skład populacji i prawdopodobieństwo kolejnych sukcesów.
Własności rozkładu hipergeometrycznego
Rozkład hipergeometryczny posiada kilka kluczowych własności, które czynią go użytecznym w analizie zjawisk losowych:
- Zmiana prawdopodobieństwa: W przeciwieństwie do rozkładu dwumianowego, w rozkładzie hipergeometrycznym prawdopodobieństwo sukcesu zmienia się po każdej próbie, ponieważ próbki są pobierane bez zwracania.
- Brak niezależności prób: Każde losowanie zmienia skład populacji, więc próby nie są niezależne.
- Wartość oczekiwana i wariancja: Dla zmiennej losowej $X$ o rozkładzie hipergeometrycznym z parametrami $N$, $K$, i $n$, wartość oczekiwana i wariancja są dane wzorami: $$ E(X) = \frac{nK}{N}, \quad \text{Var}(X) = \frac{nK}{N} \left(1 - \frac{K}{N}\right) \frac{N-n}{N-1} $$
Przykłady zastosowań rozkładu hipergeometrycznego
Rozkład hipergeometryczny znajduje zastosowanie w wielu dziedzinach nauki, inżynierii, finansów i medycyny. Oto kilka typowych przykładów jego zastosowania:
- Kontrola jakości: W produkcji rozkład hipergeometryczny może być używany do modelowania liczby wadliwych produktów w próbce pobranej z partii produkcyjnej bez zwracania. Na przykład, jeśli mamy 1000 produktów, z których 50 jest wadliwych, i losowo wybieramy 20 produktów do kontroli, rozkład hipergeometryczny może określić prawdopodobieństwo znalezienia określonej liczby wadliwych produktów w próbie.
- Badania biologiczne: W biologii rozkład hipergeometryczny może być używany do modelowania liczby osobników z określoną cechą w próbce pobranej z populacji bez zwracania. Na przykład, można go użyć do badania liczby roślin z określoną mutacją genetyczną w próbce pobranej z większej populacji.
- Badania ankietowe: W badaniach społecznych rozkład hipergeometryczny może opisywać liczbę osób o określonej charakterystyce w próbce pobranej bez zwracania z bazy danych respondentów. Przykładem może być liczba respondentów w próbie, którzy popierają określoną politykę, wybranych z grupy z wcześniejszymi odpowiedziami.
Porównanie rozkładu hipergeometrycznego z innymi rozkładami
Rozkład hipergeometryczny jest często porównywany z innymi rozkładami prawdopodobieństwa, takimi jak rozkład dwumianowy i rozkład Poissona:
- Rozkład dwumianowy: Rozkład dwumianowy opisuje liczbę sukcesów w próbach przeprowadzanych z zastąpieniem, co oznacza, że prawdopodobieństwo sukcesu jest stałe. Rozkład hipergeometryczny, z drugiej strony, opisuje liczbę sukcesów w próbie pobranej bez zwracania, co oznacza, że prawdopodobieństwo sukcesu zmienia się po każdej próbie.
- Rozkład Poissona: Rozkład Poissona jest często używany jako przybliżenie rozkładu hipergeometrycznego w sytuacjach, gdzie populacja jest duża, a próbka jest mała w porównaniu do całej populacji. W takim przypadku, gdy liczba sukcesów jest niewielka, rozkład hipergeometryczny zbliża się do rozkładu Poissona z parametrem $\lambda = \frac{Kn}{N}$.
Przykład zastosowania rozkładu hipergeometrycznego
Przykład 1: Kontrola jakości w produkcji
Fabryka produkuje partię 1000 urządzeń, z których 50 jest wadliwych. Losowo wybiera się 20 urządzeń do kontroli jakości. Jakie jest prawdopodobieństwo, że dokładnie 2 z wybranych urządzeń będzie wadliwe?
Rozwiązanie:
W tym przypadku mamy:
- $N = 1000$ (całkowita liczba urządzeń),
- $K = 50$ (liczba wadliwych urządzeń),
- $n = 20$ (liczba urządzeń w próbie),
- $k = 2$ (liczba wadliwych urządzeń w próbie).
Prawdopodobieństwo znalezienia dokładnie 2 wadliwych urządzeń w próbie jest dane wzorem rozkładu hipergeometrycznego:
$$ P\{X = 2\} = \frac{\binom{50}{2} \binom{950}{18}}{\binom{1000}{20}} $$
Obliczając wartości symboli Newtona, otrzymujemy:
$$ P\{X = 2\} = \frac{\frac{50!}{2!(50-2)!} \cdot \frac{950!}{18!(950-18)!}}{\frac{1000!}{20!(1000-20)!}} $$
Przybliżone obliczenia mogą być wykonane za pomocą kalkulatora lub oprogramowania statystycznego, co daje nam ostateczne prawdopodobieństwo.
Funkcja generująca momenty rozkładu hipergeometrycznego
Funkcja generująca momenty (MGF - Moment Generating Function) dla rozkładu hipergeometrycznego jest bardziej złożona i rzadziej stosowana w praktyce niż w przypadku innych rozkładów. Wynika to z faktu, że próbki są pobierane bez zwracania, co komplikuje wyrażenia matematyczne. Mimo to, MGF można używać do obliczania momentów rozkładu, jeśli jest to potrzebne.
Podsumowanie
Rozkład hipergeometryczny jest istotnym narzędziem w statystyce i probabilistyce, używanym do modelowania liczby sukcesów w próbie pobranej bez zwracania z ograniczonej populacji. Jego zastosowanie obejmuje kontrolę jakości, badania biologiczne, testy ankietowe i inne sytuacje, w których próbki są pobierane z małych populacji. Zrozumienie rozkładu hipergeometrycznego i jego właściwości jest kluczowe dla skutecznego stosowania metod statystycznych i podejmowania decyzji w praktyce.