일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | 5 | ||
6 | 7 | 8 | 9 | 10 | 11 | 12 |
13 | 14 | 15 | 16 | 17 | 18 | 19 |
20 | 21 | 22 | 23 | 24 | 25 | 26 |
27 | 28 | 29 | 30 | 31 |
- 모집단
- 표본
- 통계
- 통계면접
- 누적분포함수
- 모평균
- Self-attention
- 검정
- 공분산
- 평균
- 상관계수
- 확률모형
- Transformer
- ViT
- 데이터분석
- p-value
- 고유값
- 고유벡터
- 샘플링
- 신뢰구간
- 확률분포
- 데이터분석면접
- 확률밀도함수
- 검정력
- 확률변수
- 리샘플링
- 확률
- 선형대수
- 베타분포
- 조건부확률
- Today
- Total
AIMS Study Blog
공분산과 상관계수 본문
Q. 공분산과 상관계수는 무엇일까요? 수식과 함께 표현해주세요.
공분산이란?
공분산(Covariance)은 2개의 확률 변수의 상관 관계를 나타내는 값이다.
두 확률 변수 X, Y에 대해 공분산은 다음과 같이 계산된다.
$E(X) = \mu_X , E(Y) = \mu_Y$이면
$$ Cov(X,Y)= E((X-\mu_X)(Y-\mu_Y))$$
두 확률 변수의 관계에 따라 공분산의 값의 범위가 나뉘는데,
- X, Y가 독립이면 $Cov(X, Y) = 0$, 상관 없음
- X가 증가할 때 Y도 같이 증가하면 $Cov(X, Y) > 0$, 양의 상관관계
- X가 증가할 때 Y는 감소하면 $Cov(X, Y) < 0$, 음의 상관관계
공분산의 문제점
공분산은 두 확률 변수의 상관관계가 어떤 방향인지(양의 방향, 음의 방향, 혹은 관계없음)를 나타내는 것이지, 그 정도를 우리는 알 수 없다.
왜냐하면 공분산의 값은 확률 변수의 단위 크기에 영향을 많이 받기 때문에, 단위가 크면 값이 무조건 크게 나올 수 밖에 없다.
이를 해결하기 위해 나온 방법이 상관계수, 즉 공분산을 정규화시킨 값이다.
상관계수란?
상관계수(Correlation coefficient)는 확률 변수의 단위 크기에 영향을 받지 않게끔 공분산을 단위화(정규화 사용)시킨 값으로, 다음과 같은 수식으로 표현된다.
$$\rho=\frac{Cov(X,Y)}{\sqrt{Var(X)Var(Y)}},\quad -1 \leq \rho \leq 1$$
상관계수의 값에 따라 두 확률 변수의 관계가 아래와 같이 나뉜다.
- $ 0 < \rho \leq 1$이면 양의 상관관계
- $-1 \leq \rho < 0$이면 음의 상관관계
- $\rho = 0$이면 상관없음
요약하자면,
공분산은 두 확률 변수의 상관관계를 나타내는 값으로, 각 확률 변수에서 평균을 뺀 값의 평균으로 계산된다.
공분산은 그 값의 범위에 따라 상관관계의 방향성만 나타낼 뿐, 그 정도를 알 순 없다.
이를 해결하기 위해 제안된 상관계수는 공분산을 각 확률변수의 분산으로 나누어 정규화한 값으로,
상관관계의 정도를 알 수 있다.
References
'통계' 카테고리의 다른 글
공분산과 상관계수 (0) | 2023.02.05 |
---|---|
신뢰 구간 (0) | 2023.02.05 |
공분산(Covariance)과 상관계수(Correlation Coefficient) (0) | 2023.02.05 |
신뢰 구간 (Confidence Interval) (0) | 2023.02.05 |
공분산(Covariance)과 상관계수(Correlation coefficient) (0) | 2023.02.04 |