AIMS Study Blog
공분산과 상관계수 본문
Q. 공분산과 상관계수는 무엇일까요? 수식과 함께 표현해주세요.
공분산이란?
공분산(Covariance)은 2개의 확률 변수의 상관 관계를 나타내는 값이다.
두 확률 변수 X, Y에 대해 공분산은 다음과 같이 계산된다.
$E(X) = \mu_X , E(Y) = \mu_Y$이면
$$ Cov(X,Y)= E((X-\mu_X)(Y-\mu_Y))$$
두 확률 변수의 관계에 따라 공분산의 값의 범위가 나뉘는데,
- X, Y가 독립이면 $Cov(X, Y) = 0$, 상관 없음
- X가 증가할 때 Y도 같이 증가하면 $Cov(X, Y) > 0$, 양의 상관관계
- X가 증가할 때 Y는 감소하면 $Cov(X, Y) < 0$, 음의 상관관계
공분산의 문제점
공분산은 두 확률 변수의 상관관계가 어떤 방향인지(양의 방향, 음의 방향, 혹은 관계없음)를 나타내는 것이지, 그 정도를 우리는 알 수 없다.
왜냐하면 공분산의 값은 확률 변수의 단위 크기에 영향을 많이 받기 때문에, 단위가 크면 값이 무조건 크게 나올 수 밖에 없다.
이를 해결하기 위해 나온 방법이 상관계수, 즉 공분산을 정규화시킨 값이다.
상관계수란?
상관계수(Correlation coefficient)는 확률 변수의 단위 크기에 영향을 받지 않게끔 공분산을 단위화(정규화 사용)시킨 값으로, 다음과 같은 수식으로 표현된다.
$$\rho=\frac{Cov(X,Y)}{\sqrt{Var(X)Var(Y)}},\quad -1 \leq \rho \leq 1$$
상관계수의 값에 따라 두 확률 변수의 관계가 아래와 같이 나뉜다.
- $ 0 < \rho \leq 1$이면 양의 상관관계
- $-1 \leq \rho < 0$이면 음의 상관관계
- $\rho = 0$이면 상관없음
요약하자면,
공분산은 두 확률 변수의 상관관계를 나타내는 값으로, 각 확률 변수에서 평균을 뺀 값의 평균으로 계산된다.
공분산은 그 값의 범위에 따라 상관관계의 방향성만 나타낼 뿐, 그 정도를 알 순 없다.
이를 해결하기 위해 제안된 상관계수는 공분산을 각 확률변수의 분산으로 나누어 정규화한 값으로,
상관관계의 정도를 알 수 있다.
References
'통계' 카테고리의 다른 글
공분산과 상관계수 (0) | 2023.02.05 |
---|---|
신뢰 구간 (0) | 2023.02.05 |
공분산(Covariance)과 상관계수(Correlation Coefficient) (0) | 2023.02.05 |
신뢰 구간 (Confidence Interval) (0) | 2023.02.05 |
공분산(Covariance)과 상관계수(Correlation coefficient) (0) | 2023.02.04 |