AIMS Study Blog

공분산과 상관계수 본문

통계

공분산과 상관계수

hyenzzang 2023. 1. 30. 18:13
Q. 공분산과 상관계수는 무엇일까요?
수식과 함께 표현해주세요.

공분산

  • 공분산 (Covariance)은 2개의 확률변수 X, Y가 주어질 때, 두 확률 변수가 얼마나 상관이 있는지 나타내는 값이다.
  • 즉 두 확률 변수가 함께 변하는지를 나타낸 값이며, 공분산은 X의 편차와 Y의 편차의 곱의 평균과 같다.

 

  • Cov[X,Y] > 0  : X가 증가할 때 Y도 증가한다.
  • Cov[X,Y] < 0 : X가 증가할 때 Y는 감소한다.
  • Cov[X,Y] = 0 : 두 변수가 독립적이라면 공분산은 0이다. 하지만 공분산이 0이라고 해서 항상 독립적이라고 볼 수는 없다.

 

  • 하지만 공분산은 X와 Y의 단위의 크기에 영향을 받는다는 단점이 있다.
  • 예를 들어, 100점 만점인 두 과목의 점수 비교와 10점 만점인 두 과목의 점수 비교를 할 때, 100점 만점의 경우, 상관성이 부족하더라도 높은 값이 나오고, 10점 만점의 경우는 상관성이 높더라도 낮은 값이 나올 수 있다.

 

상관계수

  • 위와 같은 공분산의 단점을 보완하기 위해 상관 계수를 사용할 수 있다.
  • 상관 계수는 분산의 크기 만큼 공분산을 나눔으로써 확률 변수의 크기에 영향을 받지 않고 두 확률변수의 상관성을 파악할 수 있다.

  • 상관 계수의 성질은 다음과 같다.
    • 상관 계수의 절대값은 1보다 작거나 같다.
    • 확률 변수 X, Y가 독립이라면 상관 계수는 0이다.
    • X와 Y가 선형적 관계라면 상관 계수는 1 (양의 선형관계) 또는 -1 (음의 선형 관계)이다. 

 

Summary

  • 공분산은 2개의 확률 변수 X, Y가 주어졌을 때, 두 확률변수가 얼마나 상관이 있는지 나타내는 값으로 X의 편차와 Y의 편차의 곱의 평균과 같다. 그러나 공분산은 X와 Y의 단위의 크기에 영향을 받으며 이를 보완하기 위해 공분산을 분산의 크기만큼 나눔으로써 단위화 한 상관계수를 사용할 수 있다. 상관 계수는 -1과 1사이의 값으로 나타나며 확률 변수의 크기에 영향을 받지 않고 두 확률 변수 X, Y의 상관성을 파악할 수 있는 값이다.

Reference

https://koosco.tistory.com/58

https://destrudo.tistory.com/15

Comments