통계

베르누이 분포 / 이항 분포 / 카테고리 분포 / 다항 분포 + a

hyenzzang 2023. 1. 29. 21:01
Q. 베르누이 분포 / 이항 분포 / 카테고리 분포 / 다항 분포 / 가우시안 정규 분포 /
T 분포 / 카이제곱 분포 / F 분포 / 베타 분포 / 감마 분포 / 디리클레 분포에 대해 설명해주세요.

혹시 연관된 분포가 있다면 연관 관계를 설명해주세요.

 


베르누이 분포

  • 결과가 둘 중 하나로만 나오는 것을 베르누이 시행 (Bernoulli trial)이라고 한다.
    • 예를 들어, 동전을 한번 던져 앞면이나 뒷면이 나오는 것도 베르누이 시행이다.
  • 시행의 결과를 실수 0 또는 1로 바꾼 것을 베르누이 확률 변수 (Bernoulli random variable)이라고 하며, 이는 이산 확률 변수이다.
  • 베르누이 확률 변수의 분포를 베르누이 분포라 한다. 베르누이 분포는 1이 나올 확률을 의미하는 모수 𝜇를 가지며 반대로 0이 나올 확률은 1-𝜇이다.

이항 분포

  • 연속된 N번의 독립적 시행에서 각 시행의 성공할 확률이 𝜇일 때의 이산 확률 분포를 나타낸다.
  • N=1 일때 베르누이 분포라 하며, 여러 번 시행할 시 이항 분포라 한다.

카테고리 분포

  • 카테고리 확률변수는 1부터 K까지 K개의 정수 중 하나가 나온다.
  • 예를 들어서 주사위를 던져 나오는 수는 1부터 6까지 K=6인 카테고리 분포이다.
  • 카테고리 분포를 가진 확률 변수는 1과 0으로 원핫 인코딩 되어진 벡터를 출력한다.

다항 분포

  • 독립적인 카테고리 확률변수의 데이터가 여럿 있으면 이는 다항분포가 된다.
  • 즉, 주사위를 N번 던져 각 면이 나오는 횟수의 집합의 분포가 다항분포다.

가우시안 정규 분포

  • 가우시안 정규분포는 자연 현상에서 나타나는 숫자를 확률 모형으로 모형화할 때 사용된다.
  • 정규분포는 평균 𝜇와 분산 σ2 두 모수로 정의되며, 정규 분포 중에서도 평균이 0 이고 분산이 1인 정규분포를 표준 정규 분포라고 한다.
  • 정규분포에서는 기댓값, 최빈값, 중앙값이 모두 𝜇이다.

붉은색이 표준정규분포이다

T분포

  • 현실의 데이터는 정규분포와 유사하지만 양 끝 (극단적 현상)의 비중이 정규분포에 비해 더 크다.
  • 따라서, 분포의 양 끝단의 모양이 정규분포보다 두꺼운 것을 팻 테일 (fat tail)이라 부르며, 팻 테일을 보이는 데이터 모형에 적합한 것이 T분포이다.
  • T분포는 자유도 (degree of freedom) 라는 모수 v를 가진다. 자유도가 작으면 정규분포보다 분산이 크고, 자유도가 커질 수록 정규분포로 수렴한다.

카이제곱 분포

  • 정규분포를 따르는 확률 변수 X에서 N개의 표본을 뽑아 제곱하여 더하면 양수값만 가지는 분포가 되는데, 이 분포를 카이제곱 분포라고 한다.
  • 카이제곱 분포 또한 t분포처럼 자유도 모수 v를 가진다.

  • 카이제곱 분포는 오차 또는 편차를 분석할 때 도움을 받을 수 있는 분포이다.

F분포

  • F 분포는 두 집단의 분산을 다루며, 두 집단의 분산 크기가 서로 같은지 다른지를 나눗셈을 활용하여 비교한다.
  • 두 집단의 분산을 서로 나누었을 때 1이 나오면 분산 크기가 같다는 것을 알 수 있고, 1보다 큰 수가 나오면 분산 크기가 다르다는 것을 알 수 있다.
  • 가설검정시에 주로 사용하는 분포로, 분산 분석 시에 F분포를 사용한다.

베타 분포

  • 베타분포는 비율을 설명하는 분포로, 기기의 작동률, 제품의 불량률으로 활용할 수 있다.
  • 베타 분포는 아래에 등장할 감마분포로 구성되어 있으며, 어떤 사건이 발생하는 비율을 확률 분포로서 나타낸 것이다.

감마 분포

  • Gamma(a, B) 분포는 첫번째 사건이 발생할 때까지의 걸리는 시간이 B(=1/λ)인 실험에서 a번째 사건이 발생할 때까지의 시간에 대한 분포이다.
  • 따라서, 감마분포에서 a=1인 경우는 지수분포가 되며, 감마분포는 지수분포의 확장이라 할 수 있다.

 

a 값에 따른 감마분포의 형태

디리클레 분포

  • 디리클레 분포는 베타 분포의 확장이며, k차원의 실수 벡터 중 벡터의 요소가 양수이며, 모든 요소를 더한 값이 1인 경우에 대해 확률값이 정의되는 분포다.
  • 베타분포에서 다변수로 확장하면 디리클레 분포가 되며, 베타분포는 K=2인 디리클레분포라고 볼 수 있다.

 

 

Reference

https://datascienceschool.net/02%20mathematics/08.02%20%EB%B2%A0%EB%A5%B4%EB%88%84%EC%9D%B4%EB%B6%84%ED%8F%AC%EC%99%80%20%EC%9D%B4%ED%95%AD%EB%B6%84%ED%8F%AC.html

https://datascienceschool.net/02%20mathematics/08.03%20%EC%B9%B4%ED%85%8C%EA%B3%A0%EB%A6%AC%EB%B6%84%ED%8F%AC%EC%99%80%20%EB%8B%A4%ED%95%AD%EB%B6%84%ED%8F%AC.html

http://contents.kocw.net/KOCW/document/2014/Chungbuk/najonghwa/5.pdf

https://ko.wikipedia.org/wiki/%EC%A0%95%EA%B7%9C_%EB%B6%84%ED%8F%AC

https://angeloyeo.github.io/2021/12/13/chi_square.html

https://ko.wikipedia.org/wiki/%EC%B9%B4%EC%9D%B4%EC%A0%9C%EA%B3%B1_%EB%B6%84%ED%8F%AC

https://math100.tistory.com/46

https://techblog-history-younghunjo1.tistory.com/119

https://datascienceschool.net/02%20mathematics/08.07%20%EB%B2%A0%ED%83%80%EB%B6%84%ED%8F%AC%2C%20%EA%B0%90%EB%A7%88%EB%B6%84%ED%8F%AC%2C%20%EB%94%94%EB%A6%AC%ED%81%B4%EB%A0%88%20%EB%B6%84%ED%8F%AC.html