통계

공분산과 상관계수

호우루기 2023. 2. 5. 20:15

데이터를 분석할 때, 특히 EDA를 할 때 feature 간의 상관관계를 파악하는 경우가 많이 있습니다. 이런 경우 주로 상관계수를 분석한다고 합니다. 이 상관관계수가 무엇인지, 그리고 공분산이 무엇인지 알아보겠습니다.

 

간단히 말하자면, 상관계수는 공분산을 단위화시킨 것입니다. 데이터마다 다른 스케일을 가지고 있기 때문에, 상관관계의 절대적인 값으로 표현하기 위해 단위화 시키는 것입니다. 따라서 우리는 공분산의 개념을 먼저 알아야 합니다. 어느정도 데이터 분석 경험이 있거나 통계 분석이 있는 분들은 공분산의 정의를 모르더라도 상관관계와 연관을 지어 어떤 역할을 하는 것인지는 추론이 가능할 것입니다. 

 

위키피디아의 공분산의 정의는 다음과 같습니다. 

공분산(共分散, 영어: covariance)은 2개의 확률변수의 선형 관계를 나타내는 값이다.[1] 만약 2개의 변수중 하나의 값이 상승하는 경향을 보일 때 다른 값도 상승하는 선형 상관성이 있다면 양수의 공분산을 가진다.[2] 반대로 2개의 변수중 하나의 값이 상승하는 경향을 보일 때 다른 값이 하강하는 선형 상관성을 보인다면 공분산의 값은 음수가 된다. 이렇게 공분산은 상관관계의 상승 혹은 하강하는 경향을 이해할 수 있으나 2개 변수의 측정 단위의 크기에 따라 값이 달라지므로 상관분석을 통해 정도를 파악하기에는 부적절하다. 상관분석에서는 상관관계의 정도를 나타내는 단위로 모상관계수로는 그리스 문자 ρ를, 표본상관계수로는 알파벳 s를 사용한다.

 

 

네, 공분산은 두 확률변수가 어떠한 선형관계가 있는지, 그 선형관계가 얼만큼 있는지를 나타내줍니다. 선형관계의 종류로는 양의 선형관계, 음의 선형관계가 있습니다. 한 데이터가 증가할 때 다른 데이터도 같이 선형적으로 증가한다면 양의 선형관계, 한 데이터가 증가할 때 다른 데이터는 선형적으로 감소한다면 음의 선형관계라고 할 수 있습니다. 공분산은 값의 부호를 통해 이러한 정보를 나타냅니다. 또한 그 값을 통해 얼만큼의 선형관계가 있는지를 나타냅니다. 

 

수식은 다음과 같습니다.

하지만 공분산의 값만으로는 객관적이고 절대적인 상관관계 수치를 나타내줄 수는 없습니다. 그 이유는 단위화가 되어있지 않은 값이기 때문입니다. 따라서 이 문제를 해결하기 위해 공분산을 -1~1로 단위화한 값이 상관계수입니다. 해당 값의 수식은 다음과 같습니다.

 

 

reference:

https://supermemi.tistory.com/71

 

공분산(Covariance, Cor)과 상관계수(Correalation coefficient) 이란 - 2

앞선 글에서 기댓값과 분산에 대해서 다뤘다. 2021/01/28 - [확률과 통계/Probability] - [ 확률과 통계 ] 분산(variance, Var)과 공분산(Covariance, Cor) 이란 - 1 [ 확률과 통계 ] 분산(variance, Var)과 공분산(Covarianc

supermemi.tistory.com

https://ko.wikipedia.org/wiki/%EA%B3%B5%EB%B6%84%EC%82%B0