공분산과 상관계수
Question. 공분산과 상관계수는 무엇일까요? 수식과 함께 표현해주세요
공분산 (Covariance)
공분산이란 2개의 확률변수의 상관관계의 정도를 나타내는 값이다.
공분산의 값이 양수라면, 두 확률변수는 양의 선형 관계가 있고, 공분산의 값이 음수라면 두 확률변수는 음의 선형관계가 있다.
또, 공분산은 아래와 같은 성질을 가진다.
같은 확률변수에 대한 공분산은 확률변수의 분산과 같으며, Cov(X,Y) = Cov(Y,X)로 동일하다.
또한, Cov(aX, bY)의 경우 ab Cov(X, Y)와 같다.
피어슨 상관계수에 사용되는 표본 공분산은 다음과 같다.
상관계수 (Correlation Coefficient)
상관계수는 두 변수 사이의 통계적 관계를 표현하기 위해 특정한 상관관계의 정도를 수치적으로 나타낸 계수이다. 가장 대표적으로 사용하는 것이 피어슨 상관계수(Pearson Correlation Coefficient ,PCC) 이다. 피어슨 상관계수는 두 변수 X 와 Y 간의 선형상관관계를 계량화한 수치다. 피어슨 상관 계수는 코시슈바르츠 부등식에 의해 1과 -1 사이의 값을 가지며, 1은 완벽한 양의 선형 상관 관계, 0은 선형 상관 관계 없음, -1은 완벽한 음의 선형 상관 관계를 의미한다. 일반적으로 상관관계는 피어슨 상관관계를 의미하는 상관계수이다.
수식은 다음과 같다.
-ref
https://ko.wikipedia.org/wiki/%EA%B3%B5%EB%B6%84%EC%82%B0
https://ko.wikipedia.org/wiki/%ED%94%BC%EC%96%B4%EC%8A%A8_%EC%83%81%EA%B4%80_%EA%B3%84%EC%88%98