AIMS Study Blog

다양한 분포 본문

통계

다양한 분포

hannn 2023. 1. 28. 12:18
베르누이 분포 / 이항 분포 / 카테고리 분포 / 다항 분포 / 가우시안 정규 분포 / T 분포 / 카이제곱 분포 / F 분포 / 베타 분포 / 감마 분포 / 디리클레 분포에 대해 설명해주세요. 혹시 연관된 분포가 있다면 연관 관계를 설명해주세요

 

 

 

베르누이 분포

먼저 베르누이 시행이라는 것은 0 혹은 1로만 결과가 나오는 시행을 의미한다. 즉, 0과 1로 대응되는 결과만 나오고, 그 이외의 결과는 나오지 않는 실험이나 시행을 의미한다. 대부분 1과 0은 유/무, 성공/실패 등 대비되는 개념과 많이 대응된다.

이 베르누이 시행의 분포를 베르누이 분포라고 말한다. 이 때, 1이 나올 확률을 p라고 한다면, 수식은 다음과 같다.

 

 

 

이항분포

이항분포는 위에서 설명한 베르누이 시행을 n번 했을 때의 결과들의 분포를 의미한다. 고등학교 수학시간에 배운 Combination 개념이 사용되며,  n combination k와 0과 1의 확률들이 해당 횟수만큼 곱해진다.

 

 

 

카테고리 분포

이 분포 역시 베르누이 분포로부터 응용되었다고 볼 수 있다.

베르누이 시행에서는 0 또는 1의 결과만 나올 수 있다고 언급했었는데, 카테고리 분포는 0, 1, … c 까지의 결과를 가질 수 있는 시행을 분포로 나타낸 것을 의미한다. 다만, 단순히 결과를 하나의 스칼라 값으로 표현하는 것이 아닌 One-Hot Vector로 해당하는 결과에 대한 값을 1로, 나머지들은 0으로 채운 벡터로 설정하여 다음과 같은 수식으로 표현할 수 있도록 하였다. 

 

 

 

 

다항 분포

이항분포가 베르누이 시행을 여러번 수행했을 때, 나타나는 분포인 것처럼, 다항분포는 카테고리 분포를 거의 동일한 방식으로 확장한 분포이다.

 

 

 

 

가우시안 분포

여러가지 실험을 하면서 가정으로 가장 많이 사용되는 분포 중 하나이다. 이후에 나오는 많은 분포들 (카이제곱 분포, T-분포, F-분포 등)은 모두 가우시안 분포의 성질을 이용해서 생성된 분포이다.

가우시안 분포는 종 형태의 분포를 가지며, 분포의 중심은 평균이며, 분산을 통해서 분포의 폭이 정해진다. 대부분의 자연 현상을 매우 잘 표현하고, 통계적 방법에서 가장 많이 사용되는 분포이다. 평균이 0이고, 분산이 1인 가우시안 분포는 특별히 표준정규분포라고 칭한다.

 

 

T-분포

가우시안 분포(정규 분포)는 많은 상황에서 추정 분포로 사용될 수 있다. 하지만, 표본의 수가 적을 수록 가우시안 분포의 신뢰도가 하락하게 된다. 신뢰도를 높이는 방식에는 크게 2가지가 존재한다.

  1. 더 많은 표본을 뽑아서 해당 표본들을 토대로 평균과 분산을 구해서 새로운 가우시안 분포를 만드는 것
  2. t-분포를 사용하는 것

T-분포는 표본의 수가 적을 때 가우시안 분포의 신뢰도가 낮아지는 문제를 해결하기 위해 고안된 분포로 평균에 가까운 부분은 가우시안 분포보다 낮은 확률 밀도를 보이고, 평균에서 멀어질 수록 가우시안 분포보다 높은 확률 밀도를 보이는 형태를 지닌다.

 

오른쪽 상단의 legend를 보면 T-Dist 옆에 df=1이 되어 있는데, df는 degree of freedom으로 자유도를 의미한다. 자유도는 대부분 (표본 개수 - 1)의 값으로 설정이 된다. 이 자유도가 30에 가까운 수가 되거나 30보다 큰 수가 된다면, 즉, 표본의 개수가 30개 이상이 된다면, 거의 정규분포로 봐도 무방할 정도로 정규분포와 T-분포의 모양이 비슷하게 나오는 것을 확인할 수 있다. 따라서 많은 경우에, 표본의 개수가 30개 미만인 경우에는 T-분포를 적용하지만, 30개가 넘어가면서 부터는 일반적인 정규분포를 사용하는 경우가 많다.

 

위의 수식에서 거꾸로된 대문자 L처럼 보이는 것은 Gamma Function으로 모든 자연수에 정의되는 계승함수를 일반화한 함수이다.

 

ref : https://tjkyner.medium.com/the-normal-distribution-vs-students-t-distribution-322aa12ffd15

 

 

 

 

카이제곱 분포

표준 정규 분포를 따르는 확률 변수 k개를 각각 제곱한 후 모두 더해서 얻어지는 분포이다.

제곱을 하여 모두 더한 값이므로 이 분포는 0보다 큰 부분에서만 값을 가질 수 있으며, 자유도가 커질수록 정규분포에 가까워 지는 것을 확인할 수 있다.

카이 제곱 분포는 집단의 분산 추정 및 검정에 많이 사용이 되는 분포이다. 위에서 표준 정규 분포를 따르는 확률 변수 k개를 각각 제곱한 후 모두 더했다라는 부분도 분산을 확인하기 위해서 처리한 과정이라고 볼 수 있다.

 

 

ref : https://math100.tistory.com/44

https://blog.naver.com/PostView.naver?blogId=mykepzzang&logNo=220852102307&redirect=Dlog&widgetTypeCall=true&directAccess=false

 

 

 

 

F-분포

F-분포는 카이제곱 분포를 따르는 두개 혹은 그 이상의 집단을 다룬다. 집단들의 분산의 크기를 비교하는 경우에 사용하는 분포이다. F라는 확률 변수는 자유도가 각각

인 카이제곱 분포를 따르는 확률 변수 2개를 나눈 것이다.

두 분산을 나누는 것을 통해서 집단 간 분산의 비교를 수행하므로, F-분포에서는 1의 위치가 어디에 있는지 파악을 하는 것이 중요하다. 분산 분석을 하는 경우에 사용하는 것이 F-분포이므로, 실질적으로 확률을 구하는 경우에 사용을 하는 것이 아니라, F-statistic을 통해서 신뢰 구간을 구하거나 가설 검정을 하는 때에 많이 사용한다.

 

 

 

 

감마 분포

alpha번째 사건이 발생할 때 까지의 대기 시간의 분포이다. 지수 분포는 우리가 원하는 사건이 1번 일어날 때 까지 걸리는 시간을 확률 분포로 표현을 한 것이라면, 감마 분포는 조금 더 일반화 하여 우리가 원하는 사건이 alpha번 일어날 때 까지 걸리는 시간을 확률 분포로 표현한 것이다.

 

Gamma Function

Gamma Distribution

감마 분포의 모수에서 alpha와 lambda 가 있는데, alpha는 형상 모수(Shape parameter), lambda는 척도 모수(scale parameter)라고 한다. (lambda : 단위 시간당 발생하는 사건의 평균 횟수)

 

 

 

 

Beta-분포

Beta 분포는 베이지안에서 사전 확률을 가정할 때 주로 사용하는 분포이다. 베르누이 분포와 이항 분포에서는 성공의 횟수를 확률의 분포로 나타낸 것이지만, 베타 분포에서는 성공의 비율, 즉, 성공의 확률을 확률 변수로 나타낸 것이다.

확률을 나타내는 것이므로, 분포는 [0, 1] 의 구간에서만 존재하며, alpha와 beta에 의해서 분포의 모양이 결정된다. alpha는 성공 횟수, beta는 실패횟수라고 해석할 수 있다. 또한, 이 alpha와 beta의 값들에 의해서 분포의 모양이 매우 다양하므로, 여러 경우에 잘 적용이 될 수 있다.

 

ref : http://piramvill2.org/?p=3624

 

 

디리클레 분포

디리클레 분포는 beta-분포가 성공과 실패 2가지 경우만을 고려한 것을 일반화 하여 k가지의 경우로 확장한 분포라고 볼 수 있다. Beta 분포에서 성공의 횟수를 alpha, 실패의 횟수를 beta라고 했었는데, 디리클레 분포에서는 결과가 k가지가 나올 수 있으므로 통상적으로 각 결과들의 횟수를 alpha_1, alpha_2, ....alpha_k로 둔다. beta 분포가 베이지안에서 사전 확률을 가정할 때 주로 쓰이는 분포였듯이, 디리클레 분포도 사전 확률을 가정할 때 자주 쓰인다.

ref : https://data-hoon.tistory.com/m/entry/Dirichlet-distribution

Comments