일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | ||||
4 | 5 | 6 | 7 | 8 | 9 | 10 |
11 | 12 | 13 | 14 | 15 | 16 | 17 |
18 | 19 | 20 | 21 | 22 | 23 | 24 |
25 | 26 | 27 | 28 | 29 | 30 | 31 |
- 통계
- 샘플링
- 데이터분석면접
- 확률변수
- p-value
- 고유값
- 누적분포함수
- 확률모형
- 리샘플링
- 모집단
- 통계면접
- 검정력
- 확률밀도함수
- 고유벡터
- 데이터분석
- 상관계수
- ViT
- Transformer
- 조건부확률
- 베타분포
- 신뢰구간
- 표본
- 확률
- 검정
- 확률분포
- 공분산
- 모평균
- Self-attention
- 평균
- 선형대수
- Today
- Total
AIMS Study Blog
확률변수와 확률모형 본문
Question 확률 모형과 확률 변수는 무엇일까요?
확률변수 (random variable)란?
변수란 특정 조건에 따라 변하는 값을 의미한다. 확률변수는 확률에 따라 변하는 값을 의미한다.
확률변수의 다양한 정의
- 확률변수의 정의는 무작위 실험을 했을 때, 특정 확률로 발생하는 각각의 결과를 수치로 표현한 변수이다.
- 확률변수는 일반적으로 X로 표기하며 확률로 표기하기 위한 event를 정의하는 것이다.
- 확률변수(random variable)란, 확률현상에 기인해 결과값이 확률적으로 정해지는 변수를 의미한다.
이 때 확률변수의 값을 셀 수 있는지 없는지에 따라 이산확률변수, 연속확률변수로 나눈다.
이산확률변수란, 확률변수가 취할 수 있는 모든 값들이 하나씩 셀 수 있는 경우이다.
주사위나 동전의 앞뒷면과 같은 것들이 이산확률변수에 해당한다.
연속확률변수란, 확률변수가 연속적인값 즉 셀 수 없는 경우이다.
어느 학교에서 랜덤하게 선택된 남학생의 키 같은 경우가 연속확률 변수에 해당한다.
언뜻 생각하기에 키도 셀수 있다고 생각되지만, 정밀히 측정하면 162.3452423⋯과 같이 연속적인 형태의 값이다.
확률변수는 일반적으로 대문자 X로 나타낸다. 확률변수 X의 구체적인 값에 대해서는
보통 소문자를 사용해서, 예를 들어 X가 p의 확률로 x의 값을 가진다는 것은
P(X=x)=p 등의 확률함수로 표현할 수 있다.
예시를 들어 설명하면
동전을 던질 때 앞면을 H, 뒷면을 T 라고 할 경우 동전을 두번 던졌을 때의 표본 공간은 다음과 같다.
S = {HH, HT, TH, TT}
이렇게 표현하기보다 수리적으로 다루기 쉽게 하기 위해 숫자로 표현한다.
즉, 앞면 출현 횟수가 중요할 경우 H 발생을 1로 정의하면
HH = 2
HT = 1
TH = 1
TT = 0
의 확률변수로 정의가 된다.
확률모형 (probabilistic model)이란?
확률모형이란 데이터와 확률간의 관계 즉, 확률변수를 이용하여 데이터 분포를 수학적으로 정의하는 방법을 말한다.
이 때 수학적인 수식을 확률분포함수(probability distribution function), 식을 결정짓는 값을 모수(parameter)라고 한다.
확률모형에 정확한 모수를 사용한다면 우리가 가지고 있는 데이터와 똑같은 분포의 데이터를 만들어낼 수 있다.
이 때 중요한 것은 동일한 데이터를 만들어내는것이 아니라 동일한 데이터 분포를 만들어낸다는 것이다.
일반적으로 이 모수를 정확하게 알 수 없어서 임의의 확률 모형을 가정하고 적어도 그 모형에 데이터를 가장 잘 설명하는 파라미터를 찾는 모수 추정을 사용하여 실제 데이터의 분포를 최대한 잘 근사하는 모형을 찾는다.
가우시안 정규분포가 하나의 확률 모형의 예시이다.
추가적인 예시 :
확률질량함수(PMF, Probability Mass Function) - 이산형 확률 모형
확률밀도함수(PDF, Probability Density Function) - 연속형 확률 모형
누적분포함수(CDF, Cumulative Distribution Function)
ref
- https://velog.io/@du-du-zi/%ED%86%B5%EA%B3%84-%EC%9A%A9%EC%96%B4-%EC%A0%95%EB%A6%AC-%ED%99%95%EB%A5%A0%EB%B3%80%EC%88%98%EB%9E%80
- https://datacookbook.kr/60
- https://variety82p.tistory.com/entry/%ED%99%95%EB%A5%A0%EB%B3%80%EC%88%98%EC%99%80-%ED%99%95%EB%A5%A0%EB%AA%A8%ED%98%95?category=996031
- https://gaussian37.github.io/ml-concept-probability_model/
'통계' 카테고리의 다른 글
누적 분포 함수와 확률 밀도 함수 (0) | 2023.01.21 |
---|---|
확률 모형과 확률 변수의 개념 (0) | 2023.01.20 |
샘플링, 리샘플링의 개념 (0) | 2023.01.15 |
샘플링과 리샘플링에 대해 (0) | 2023.01.15 |
샘플링(Sampling)과 리샘플링(Resampling) (0) | 2023.01.15 |