AIMS Study Blog
공분산과 상관계수 본문
공분산과 상관계수
공분산과 상관계수를 계산하는 목적
공분산과 상관계수는 두 변수 간 어떤 선형적 관계를 가지고 있는지 알아보기 위한 상관분석에서 사용되는 개념들이다.
공분산(Covariance)
공분산은 2개의 확률변수 X, Y가 있다고 가정했을 때, X에서 X의 평균을 뺀 값과, Y에서 Y의 평균을 뺀 값의 곱에 대한 기댓값을 의미한다. 수식은 다음과 같다.
이 식은 계산을 통해서 다음과 같이 나타낼 수 있다.
공분산의 값을 통해서 두 확률변수 X, Y가 서로 어떤 선형적 상관관계를 가지고 있는지에 대해서 알아볼 수 있다.
- 공분산이 양의 값을 가지면, X가 증가할 때 Y가 증가하는 양의 선형 관계에 있다.
- 공분산이 음의 값을 가지면, X가 증가할 때 Y는 감소하는 음의 선형 관계에 있다.
두 확률변수 X, Y가 독립이라면 공분산의 값이 0이라는 것이다. 하지만, 주의해야 할 것은 공분산의 값이 0이라고 해서
두 확률변수가 무조건 독립이라는 위의 명제의 역은 성립하지 않는다!
공분산은 두 확률변수가 어떤 선형적 관계가 존재하는지에 대해서 알아볼 수 있다.
하지만, 두 확률변수가 "얼만큼"의 상관정도를 가지는 지에 대해서는 확실하게 알기 어렵다. 그 이유는 공분산의 경우, 두 확률변수의 크기(Scale)에 따라서 값이 영향을 많이 받기 때문이다.
상관계수(Correlation Coefficient)
공분산의 값이 두 확률변수의 크기에 영향을 받는 문제를 해결하기 위해서 공분산에 각 확률변수의 분산의 제곱근을 나누어 준 것이 상관계수이다.
이렇게 하여 상관계수는 확률변수의 크기에 상관없이 -1 ~ 1 사이의 값을 가지게 된다. 이를 통해서 두 확률변수 X, Y가 어떤 상관관계를 얼만큼 가지고 있는지 알 수 있게 된다.
공분산과 마찬가지로 상관계수가 음의 값을 가지면 X가 증가할 때 Y는 감소하는 선형관계를 가지고 있고, 상관계수가 양의 값을 가지게 되면 X가 증가할 때 Y가 증가하는 선형관계를 가지게 된다.
상관계수가 0이라면, 두 확률변수는 상관관계를 가지지 않는 관계에 있는 것이다.
상관계수를 통해서 우리가 알 수 있는 것은 두 확률변수의 "선형관계"라는 것에 주목하자.
여러 관계들 중에서 선형관계는 존재하지 않지만, 비선형관계를 가지고 있는 확률변수들이 있을 수 있다.
이런 경우에는 상관계수의 값이 0에 가까운 값이나 0이 나올 수 있지만, 그렇다고 해서 두 확률변수들이 아예 독립이라거나 상관관계가 약하다고 판단할 수는 없음에 주의하자.
'통계' 카테고리의 다른 글
신뢰 구간 (Confidence Interval) (1) | 2023.02.02 |
---|---|
공분산과 상관계수 (0) | 2023.02.01 |
신뢰구간이란? (0) | 2023.01.31 |
공분산과 상관계수 (0) | 2023.01.30 |
조건부 확률(Conditional Probability) 이란 무엇일까요? (0) | 2023.01.30 |