AIMS Study Blog

공분산과 상관계수 본문

통계

공분산과 상관계수

hannn 2023. 2. 1. 10:13
공분산과 상관계수 


공분산과 상관계수를 계산하는 목적  


공분산과 상관계수는 두 변수 간 어떤 선형적 관계를 가지고 있는지 알아보기 위한 상관분석에서 사용되는 개념들이다. 

공분산(Covariance)

공분산은 2개의 확률변수 X, Y가 있다고 가정했을 때, X에서 X의 평균을 뺀 값과, Y에서 Y의 평균을 뺀 값의 곱에 대한 기댓값을 의미한다. 수식은 다음과 같다. 


이 식은 계산을 통해서 다음과 같이 나타낼 수 있다. 

공분산의 값을 통해서 두 확률변수 X, Y가 서로 어떤 선형적 상관관계를 가지고 있는지에 대해서 알아볼 수 있다. 

 

  • 공분산이 양의 값을 가지면, X가 증가할 때 Y가 증가하는 양의 선형 관계에 있다. 
  • 공분산이 음의 값을 가지면, X가 증가할 때 Y는 감소하는 음의 선형 관계에 있다. 

 

두 확률변수 X, Y가 독립이라면 공분산의 값이 0이라는 것이다. 하지만, 주의해야 할 것은 공분산의 값이 0이라고 해서 
두 확률변수가 무조건 독립이라는 위의 명제의 역은 성립하지 않는다! 


공분산은 두 확률변수가 어떤 선형적 관계가 존재하는지에 대해서 알아볼 수 있다. 

하지만, 두 확률변수가 "얼만큼"의 상관정도를 가지는 지에 대해서는 확실하게 알기 어렵다. 그 이유는 공분산의 경우, 두 확률변수의 크기(Scale)에 따라서 값이 영향을 많이 받기 때문이다. 





상관계수(Correlation Coefficient)


공분산의 값이 두 확률변수의 크기에 영향을 받는 문제를 해결하기 위해서 공분산에 각 확률변수의 분산의 제곱근을 나누어 준 것이 상관계수이다. 



이렇게 하여 상관계수는 확률변수의 크기에 상관없이 -1 ~ 1 사이의 값을 가지게 된다. 이를 통해서 두 확률변수 X, Y가 어떤 상관관계를 얼만큼 가지고 있는지 알 수 있게 된다. 


공분산과 마찬가지로 상관계수가 음의 값을 가지면 X가 증가할 때 Y는 감소하는 선형관계를 가지고 있고, 상관계수가 양의 값을 가지게 되면 X가 증가할 때 Y가 증가하는 선형관계를 가지게 된다. 
상관계수가 0이라면, 두 확률변수는 상관관계를 가지지 않는 관계에 있는 것이다. 


상관계수를 통해서 우리가 알 수 있는 것은 두 확률변수의 "선형관계"라는 것에 주목하자. 
여러 관계들 중에서 선형관계는 존재하지 않지만, 비선형관계를 가지고 있는 확률변수들이 있을 수 있다. 
이런 경우에는 상관계수의 값이 0에 가까운 값이나 0이 나올 수 있지만, 그렇다고 해서 두 확률변수들이 아예 독립이라거나 상관관계가 약하다고 판단할 수는 없음에 주의하자. 

'통계' 카테고리의 다른 글

신뢰 구간 (Confidence Interval)  (1) 2023.02.02
공분산과 상관계수  (0) 2023.02.01
신뢰구간이란?  (0) 2023.01.31
공분산과 상관계수  (0) 2023.01.30
조건부 확률(Conditional Probability) 이란 무엇일까요?  (0) 2023.01.30
Comments