Notice
Recent Posts
Recent Comments
Link
AIMS Study Blog
공분산과 상관계수 본문
Q. 공분산과 상관계수는 무엇일까요?
수식과 함께 표현해주세요.
공분산
- 공분산 (Covariance)은 2개의 확률변수 X, Y가 주어질 때, 두 확률 변수가 얼마나 상관이 있는지 나타내는 값이다.
- 즉 두 확률 변수가 함께 변하는지를 나타낸 값이며, 공분산은 X의 편차와 Y의 편차의 곱의 평균과 같다.
- Cov[X,Y] > 0 : X가 증가할 때 Y도 증가한다.
- Cov[X,Y] < 0 : X가 증가할 때 Y는 감소한다.
- Cov[X,Y] = 0 : 두 변수가 독립적이라면 공분산은 0이다. 하지만 공분산이 0이라고 해서 항상 독립적이라고 볼 수는 없다.
- 하지만 공분산은 X와 Y의 단위의 크기에 영향을 받는다는 단점이 있다.
- 예를 들어, 100점 만점인 두 과목의 점수 비교와 10점 만점인 두 과목의 점수 비교를 할 때, 100점 만점의 경우, 상관성이 부족하더라도 높은 값이 나오고, 10점 만점의 경우는 상관성이 높더라도 낮은 값이 나올 수 있다.
상관계수
- 위와 같은 공분산의 단점을 보완하기 위해 상관 계수를 사용할 수 있다.
- 상관 계수는 분산의 크기 만큼 공분산을 나눔으로써 확률 변수의 크기에 영향을 받지 않고 두 확률변수의 상관성을 파악할 수 있다.
- 상관 계수의 성질은 다음과 같다.
- 상관 계수의 절대값은 1보다 작거나 같다.
- 확률 변수 X, Y가 독립이라면 상관 계수는 0이다.
- X와 Y가 선형적 관계라면 상관 계수는 1 (양의 선형관계) 또는 -1 (음의 선형 관계)이다.
Summary
- 공분산은 2개의 확률 변수 X, Y가 주어졌을 때, 두 확률변수가 얼마나 상관이 있는지 나타내는 값으로 X의 편차와 Y의 편차의 곱의 평균과 같다. 그러나 공분산은 X와 Y의 단위의 크기에 영향을 받으며 이를 보완하기 위해 공분산을 분산의 크기만큼 나눔으로써 단위화 한 상관계수를 사용할 수 있다. 상관 계수는 -1과 1사이의 값으로 나타나며 확률 변수의 크기에 영향을 받지 않고 두 확률 변수 X, Y의 상관성을 파악할 수 있는 값이다.
Reference
'통계' 카테고리의 다른 글
공분산과 상관계수 (0) | 2023.02.01 |
---|---|
신뢰구간이란? (0) | 2023.01.31 |
조건부 확률(Conditional Probability) 이란 무엇일까요? (0) | 2023.01.30 |
조건부 확률 (1) | 2023.01.29 |
베르누이 분포 / 이항 분포 / 카테고리 분포 / 다항 분포 / 가우시안 정규 분포 / T 분포 / 카이제곱 분포 / F 분포 / 베타 분포 / 감마 분포 / 디리클레 분포 (0) | 2023.01.29 |
Comments