여러 가지 확률 분포
Q. 베르누이 분포 / 이항 분포 / 카테고리 분포 / 다항 분포 / 가우시안 정규 분포 / T 분포 / 카이제곱 분포 / F 분포 / 베타 분포 / 감마 분포 / 디리클레 분포에 대해 설명해주세요. 혹시 연관된 분포가 있다면 연관 관계를 설명해주세요.
이전 포스팅에서 확률 모형 및 확률 변수, 그리고 확률 분포 함수에 대해 다룬 적이 있다. 이 글에서는 여러 가지 확률 분포의 종류에 대해 간단하게 정리하고자 한다. 관련 용어가 헷갈리는 경우, 이전 포스팅을 참고하면 도움이 될 것이다.
확률 분포란?
확률 분포(probability distribution)는 확률 변수가 특정한 값을 가질 확률을 나타내는 함수를 의미한다.
확률 분포는 확률 변수의 종류에 따라 이산(discrete) 확률 분포, 연속(continuous) 확률 분포로 나눌 수 있다.
[이산 확률 분포]
확률 변수의 값이 정수와 같이 연속이 아닌 이산적인 경우의 분포
베르누이 분포(Bernoulli distribution)
베르누이 시행(Bernoulli Trial)은 결과가 두 가지 중 하나로만 나오는 실험이나 시도를 의미한다.
앞면(head)과 뒷면(tail)만 나오는 동전 던지기가 베르누이 시행의 대표적인 예시이다.
베르누이 확률 변수(Bernoulli random variable)는 베르누이 시행 결과를 0 또는 1의 숫자로 나타낸 것이다.
베르누이 분포의 확률 질량 함수는 다음과 같다.
$$ Bern(x; \theta)=\begin{cases} \theta \\ 1-\theta \end{cases}
베르누이 분포를 따르는 확률 변수의 평균과 분산은 다음과 같다.
$$ E[X] = \theta,\quad Var[X] = \theta(1-\theta) $$
이항 분포(Binomial distribution)
이항 분포는 베르누이 시행을 N번 시행했을 때의 확률 분포를 의미한다.
위에서 예시로 들었던 동전 던지기를 10번 했을 때 앞면이 나온 횟수를 확률 변수로 둘 수 있다.
이항 분포의 확률 질량 함수는 다음과 같다.
$$ Bin(x;N, \theta)=\binom{{N}}{x}\theta^{x}(1-\theta)^{N-x} $$
이항 분포를 따르는 확률 변수의 평균과 분산은 다음과 같다.
$$ E[X] = N\theta,\quad Var[X]=N\theta(1-\theta) $$
카테고리 분포(Categorical distribution)
카테고리 분포는 베르누이 분포의 확장된(?) 버전으로, 2개 이상의 결과가 나올 수 있는 시해에 대한 확률 분포를 의미하며, 확률 변수는 one-hot vector 형태로 표현한다.
예를 들어, 주사위를 던졌을 때 2의 눈이 나온다면 카테고리 확률 변수는 [0, 1, 0, 0, 0, 0]으로 표현할 수 있다.
확률 변수 내 각 원소들은 베르누이 분포를 따르고(해당 경우가 발생하거나 안 하거나) 각각의 모수를 가진다.
카테고리 분포의 확률 질량 함수는 다음과 같다.
$$ Cat(x;\theta) = \theta_1^{x_1}\theta_2^{x_2}···\theta_N^{x_N}=\prod_{i=1}^N \theta_i^{x_i} $$
카테고리 분포를 따르는 확률 변수의 평균과 분산은 다음과 같다.
$$ E[X_k]=\theta_k,\quad Var[X]=\theta_k(1-\theta_k) $$
다항 분포(Multinomial distribution)
다항 분포는 독립적인 카테고리 시행을 여러 번 반복했을 때의 확률 분포를 의미한다.
예를 들어 주사위를 2번 던졌을 때 2번 모두 2의 눈이 나온다면 [0, 2, 0, 0, 0, 0]으로 표현할 수 있다.
다항 분포의 확률 질량 함수는 다음과 같다.
$$ Mu(x;N, \theta)= \binom{{N}}{x}\prod_{k=1}^K \theta_k^{x_k} = \binom{{N}}{x_1, ···, x_N}\prod_{k=1}^{K}\theta_k^{x_k} $$
다항 분포를 따르는 확률 변수의 평균과 분산은 다음과 같다.
$$ E[x_k]=N\theta_k,\quad Var[x_k]=N\theta_k(1-\theta_k) $$
[연속 확률 분포]
확률 변수의 값이 실수와 같이 연속적인 경우의 분포
가우시안 정규 분포(Gaussian normal distribution)
가우시안 정규 분포는 평균을 중심으로 분산을 고려하여 분포가 퍼져있는 종 모양의 곡선을 그리는 형태이다. 주로 수집된 자료의 분포를 근사하는 데 자주 사용된다.
확률 변수 X가 평균이 µ, 표준편차 σ인 정규 분포를 따른다고 할 때 다음과 같이 표기한다.
$$ X \sim \mathcal{N}(\mu,\,\sigma^{2}) $$
정규 분포의 확률 밀도 함수는 다음과 같다.
$$ f(x|\mu,\, \sigma^{2})= \frac{1}{\sigma\sqrt{2\pi}}\exp\left(-\frac{1}{2}\left(\frac{x-\mu}{\sigma}\right)^{\!2}\,\right) $$
T 분포 (t-distribution)
T-분포는 표본의 수가 적을 경우 정규 분포의 신뢰도가 낮아질 때 이를 해결하는 방법 중 하나로, 정규 분포의 평균을 모를 때 표본의 통계량을 바탕으로 정규 분포의 모수를 추정하는 분포이다.
자유도 v를 갖는 T-분포의 확률 밀도 함수는 다음과 같다.
$$ f(x) = \frac {\Gamma[(v+1)/2]}{\Gamma[(v/2)]/\sqrt{v\pi}}\frac{1}{(1+x^{2}/v)^{(v+1)/2}},\quad -\infty < x < \infty $$
카이제곱 분포(Chi-squared distribution)
카이제곱 분포는 독립적인 k개의 표준 정규 분포를 따르는 확률 변수의 제곱합을 나타내는 분포이다.
확률 변수 X가 자유도(degree of freedom) v인 카이제곱 분포를 따른다고 할 때, 다음과 같이 표기한다.
$$ X \sim \chi^{2}(v) $$
표준 정규 분포의 확률 변수 Z_i들의 제곱합으로 카이제곱 분포의 확률 변수가 정의되므로 다음과 같이 정의한다.
$$ Z_1, ..., Z_v : indep\, N(0, 1) $$
$$ U = \sum_{i=1}^v Z_i^{2} \sim \chi^{2}(v) $$
F 분포(F-distribution)
F-분포는 정규 분포를 이루는 모집단에서 독립적으로 추출한 표본들의 분산 비율이 나타내는 연속 확률 분포로 다음과 같이 정의된다.
확률 변수 U, V와 각각의 자유도 v, w에 대해
$$ F=\frac{U/v}{V/w} \sim F(v, w) $$
베타 분포(Beta distribution)
베타 분포는 a와 b라는 두 모수를 가지며 표본 공간은 0과 1 사이의 실수다.
$$ \Gamma(a)=\int_0^\infty x^{a-1}e^{-x}dx $$
$$ Beta(x;a, b)=\frac{\Gamma(a+b)}{\Gamma(a)\Gamma(b)}x^{a-1}(1-x)^{b-1} $$
감마 분포(Gamma distribution)
감마 분포는 0과 1 사이의 값을 가지는 베타 분포와 달리 0부터 무한대의 값을 가지는 양수 값을 추정하는 데 사용된다.
감마 분포에 대한 확률 밀도 함수는 다음과 같다.
$$ Gam(x;a, b)=\frac{1}{\Gamma(a)}b^{a}x^{a-1}e^{-bx} $$
디리클레 분포(Dirichlet distribution)
디리클레 분포는 k차원의 실수 벡터 중 벡터의 요소가 양수이며, 모든 요소를 더한 값이 1인 경우에 대해 확률값이 정의되는 분포이다.0과 1 사이의 값을 가지는 다변수 확률 변수의 베이지안 모형에 사용된다.
2 이상의 자연수 k와 양의 상수 a_1, a_2, ..., a_k에 대해, 디리클레 분포의 확률 밀도 함수는 실수 x_1, x_2, ..., x_k가 모두 양의 실수이고 합이 1일 때 다음과 같이 정의된다. (그렇지 않은 경우 0)
$$ Dir(x;a)=Dir(x_1, x_2, ···, x_K; \alpha_1, \alpha_2, ···,\alpha_K) \\=\frac{1}{B(\alpha_1, \alpha_2, ···, \alpha_K)}\prod_{i=1}^K x_i^{\alpha_i-1} $$
References
- https://specialscene.tistory.com/151