AIMS Study Blog

공분산(Covariance)과 상관계수(Correlation coefficient) 본문

통계

공분산(Covariance)과 상관계수(Correlation coefficient)

김랑명 2023. 2. 4. 11:33
공분산과 상관계수는 무엇일까요? 수식과 함께 표현해주세요

 

1. 공분산(Covariance, Cov)

공분산은 2개의 확률변수의 선형 관계를 나타내는 값이다.

 

2개의 변수 중 하나의 값이 상승하는 경향을 보일 때 다른 값도 상승하는 선형 상관성이 있다면 양의 공분산 값을 가진다(a).

반대로 하강하는 선형 상관성이라면 음의 공분산 값을 가진다.(b)

 

정리하자면, 

(a) Cov(X, Y) > 0    X가 증가 할 때 Y도 증가한다.

(b) Cov(X, Y) < 0    X가 증가 할 때 Y는 감소한다.

(c) Cov(X, Y) = 0    공분산이 0이라면 두 변수간에는 아무런 선형관계가 없으며 두 변수는 서로 독립적인 관계에 있음을 알 수 있다.

 

공분산의 정의는 다음과 같다.

공분산의 성질

만약 X, Y가 실수값인 확률변수이고 a, b상수라면, 공분산에 대해서 아래와 같은 식이 성립한다.

공분산은 확률변수들의 벡터 공간상에서의 내적을 의미하며, 벡터에서 적용되는 벡터합 X + Y 및 aX와 같은 스칼라곱의 성질도 가진다.

 

2. 상관계수(Correlation)

상관 계수는 상관관계 분석에서 두 변수 간에 선형 관계의 정도를 나타내는 측도이며 r로 기호화한다.

공분산은 X와 Y의 단위 크기에 영향을 받는데, 이것을 보완하기 위해 상관계수(Correlation)을 사용한다.

확률변수의 절대적인 크기에 영향을 받지 않도록 단위화 시켜 분산의 크기만큼 나누게 된다.

상관계수의 성질

1. 상관계수의 절대값은 1을 넘을 수 없다.

2. 확률변수 X, Y가 독립이라면 상관계수는 0이다.

3. X와 Y가 선형적 관계라면 상관계수는 1 혹은 -1이다.

양의 선형관계면 1, 음의 선형관계면 -1
상관관계는 가까운 변수 2개만 고려하며 이변량 데이터 이외의 관계를 파악하지 않는다. 이 검정은 데이터의 이상치를 감지하지 않으므로 이상치에 의해 왜곡될 수 있어 비선형 관계를 제대로 감지할 수는 없다.

가장 일반적인 유형의 상관관계 측도인 피어슨 적률 상관관계(Pearson product-moment correlation)의 상관계수 계산 식은 다음과 같다.

Reference

'통계' 카테고리의 다른 글

공분산(Covariance)과 상관계수(Correlation Coefficient)  (0) 2023.02.05
신뢰 구간 (Confidence Interval)  (0) 2023.02.05
신뢰 구간 (Confidence Interval)  (1) 2023.02.02
공분산과 상관계수  (0) 2023.02.01
공분산과 상관계수  (0) 2023.02.01
Comments