AIMS Study Blog

공분산과 상관계수 본문

통계

공분산과 상관계수

정저엉지 2023. 2. 5. 15:15
Q. 공분산과 상관계수는 무엇일까요? 수식과 함께 표현해주세요.

 

공분산이란?

공분산(Covariance)은 2개의 확률 변수의 상관 관계를 나타내는 값이다.

 

두 확률 변수 X, Y에 대해 공분산은 다음과 같이 계산된다.

$E(X) = \mu_X , E(Y) = \mu_Y$이면

$$ Cov(X,Y)= E((X-\mu_X)(Y-\mu_Y))$$

 

 

두 확률 변수의 관계에 따라 공분산의 값의 범위가 나뉘는데,

  • X, Y가 독립이면 $Cov(X, Y) = 0$, 상관 없음
  • X가 증가할 때 Y도 같이 증가하면 $Cov(X, Y) > 0$, 양의 상관관계
  • X가 증가할 때 Y는 감소하면 $Cov(X, Y) < 0$, 음의 상관관계

공분산의 문제점

공분산은 두 확률 변수의 상관관계가 어떤 방향인지(양의 방향, 음의 방향, 혹은 관계없음)를 나타내는 것이지, 그 정도를 우리는 알 수 없다.

왜냐하면 공분산의 값은 확률 변수의 단위 크기에 영향을 많이 받기 때문에, 단위가 크면 값이 무조건 크게 나올 수 밖에 없다.

 

이를 해결하기 위해 나온 방법이 상관계수, 즉 공분산을 정규화시킨 값이다.

 

상관계수란?

상관계수(Correlation coefficient)는 확률 변수의 단위 크기에 영향을 받지 않게끔 공분산을 단위화(정규화 사용)시킨 값으로, 다음과 같은 수식으로 표현된다.

$$\rho=\frac{Cov(X,Y)}{\sqrt{Var(X)Var(Y)}},\quad -1 \leq \rho \leq 1$$

 

상관계수의 값에 따라 두 확률 변수의 관계가 아래와 같이 나뉜다.

  • $ 0 < \rho \leq 1$이면 양의 상관관계
  • $-1 \leq \rho < 0$이면 음의 상관관계
  • $\rho = 0$이면 상관없음

 

 

요약하자면,

공분산은 두 확률 변수의 상관관계를 나타내는 값으로, 각 확률 변수에서 평균을 뺀 값의 평균으로 계산된다.

공분산은 그 값의 범위에 따라 상관관계의 방향성만 나타낼 뿐, 그 정도를 알 순 없다.

이를 해결하기 위해 제안된 상관계수는 공분산을 각 확률변수의 분산으로 나누어 정규화한 값으로,

상관관계의 정도를 알 수 있다.

 

 

References

- https://destrudo.tistory.com/15

- https://datascienceschool.net/02%20mathematics/07.05%20%EA%B3%B5%EB%B6%84%EC%82%B0%EA%B3%BC%20%EC%83%81%EA%B4%80%EA%B3%84%EC%88%98.html

Comments