AIMS Study Blog

확률 변수와 확률 모형 본문

통계

확률 변수와 확률 모형

hannn 2023. 1. 21. 18:52
확률 변수와 확률 모형이란?

확률 변수

 

확률 변수라는 것은, 우리가 임의로 사건들을 실험을 할 때 거기에서 나오는 결과들을 특정 값으로 대응(Mapping) 시키는 변수를 의미한다.

 

 

예를 들어, 동전 2개를 던져서 나오는 그림의 개수를 확률 변수 X 라고 한다면,

 

  • 동전 2개가 모두 숫자가 나오는 경우 : X = 0
  • 하나는 그림, 하나는 숫자가 나오는 경우 : X = 1
  • 동전 2개가 모두 그림이 나오는 경우 : X = 2

 

 

이런식으로 값을 대응시킬 수 있다는 것이다. 필자는 확률 변수와 확률 값의 관계가 정확하게 정리되지 않고 애매했었는데,

다시 한번 정리를 하자면, 확률 변수는 임의의 확률 실험을 했을 때 나올 수 있는 결과 상태를 정해진 값으로 대입하는 것을 의미한다. (위의 예시에서 X=2이 동전 2개가 모두 그림이 나오는 경우를 의미하는 것처럼)

 

확률 값은 확률 변수 X가 특정 값을 가질 때, 그 결과가 나타날 확률을 의미한다. 따라서 확률 값은 P(X=2)로 적을 수 있으며, (1/2) * (1/2) = 1/4이므로, P(X=2) = 1/4이다. 확률 변수가 취할 수 있는 모든 값의 집합을 상태 공간(State Space)라고 한다. (위의 동전 예시에서는 {0, 1, 2} 이다. )

 

 

  • 확률 분포 : 확률 변수의 모든 값에 대해서 각 확률을 나타낸 분포
  • 확률 함수 : 확률 변수에 의해 정의된 값들을 0 ~ 1 사이의 값(확률)에 대응시키는 함수

 


확률 모형

 

단순하게 데이터의 분포를 샘플들을 전부 확인하지 않고도,  대표 값들을 통해서 확인하는 방식이 있다. 하지만, 데이터 분포와 데이터 분포에 대한 정보들이 대표 값들로만 추정을 하기에는 분명히 놓치는 정보들이 발생하게 된다. 이 문제를 해결하기 위해서는 데이터를 나누는 각 구간의 간격을 더 좁게 만드는 방법이 있다. 하지만, 구간을 더 좁게 만들게 되면,

 

 

  1. 각 구간이 좁아질수록 각 구간에 포함되어 있는 데이터의 수는 줄어든다.
  2. 각 구간이 좁아질수록 더 많은 정보들이 발생하기는 하지만, 적은 값들을 통해서 데이터의 분포를 알고 싶던 목적이 퇴색되게 된다.

 

 

확률 모형이라는 것은 확률 함수를 통해서 수학적으로 만든 모형(수식)이라고 볼 수 있다.

 

많은 경우에 데이터는 가지고 있지만, 확률 모형 (확률 함수)는 모르는 경우가 많고, 확률 함수를 구해서 데이터의 분포에 대한 정보를 알고자 하는 경우가 많다. 대부분의 경우에, 확률 분포 함수(Probability distribution Function) 또는 확률 밀도 함수 (Probability Density Function)라고 불리우는 미리 정해진 함수의 수식을 사용한다. 확률 함수에 쓰인 계수들을 모수(Parameter)라고 하고, 이 모수들을 알게 된다면 확률 함수를 알아서 확률 변수가 특정 값을 가질때의 확률 값을 전부 알 수 있게 된다. 따라서 데이터의 분포에 대한 정보를 얻기 위해서 확률 함수의 모수를 구하는 것을 모수 추정이라고 한다.

 

 

 

Answer. 

확률 변수는 임의의 확률 실험을 했을 때 나올 수 있는 결과 상태를 정해진 수치 값으로 대입하는 것으로, 실세계에서 일어나는 일을 숫자로 대입하는 역할을 한다. 확률 모형은 확률 함수를 통해서 수학적으로 만든 모형으로, 데이터의 분포를 하나의 수식을 통해서 정보를 담고 있다.  

 

 

 

Ref.

https://drhongdatanote.tistory.com/49

https://notebook.community/zzsza/Datascience_School/09.

https://variety82p.tistory.com/entry/확률변수와-확률모형?category=996031

Comments