일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | 5 | ||
6 | 7 | 8 | 9 | 10 | 11 | 12 |
13 | 14 | 15 | 16 | 17 | 18 | 19 |
20 | 21 | 22 | 23 | 24 | 25 | 26 |
27 | 28 | 29 | 30 | 31 |
- 표본
- Transformer
- 데이터분석면접
- ViT
- 확률변수
- 데이터분석
- 모집단
- Self-attention
- 누적분포함수
- 확률
- 평균
- 선형대수
- 확률모형
- 통계면접
- 통계
- 고유벡터
- 베타분포
- 샘플링
- 검정
- 모평균
- 리샘플링
- 확률밀도함수
- 검정력
- 공분산
- p-value
- 조건부확률
- 상관계수
- 확률분포
- 고유값
- 신뢰구간
- Today
- Total
AIMS Study Blog
R-squared 란? 본문
R-squared란 무엇일까요?
R-squared는 회귀 모델의 독립 변수에 의해 설명되는 종속 변수의 변동성입니다. 회귀 모델에서 일반적으로 사용되는 적합도의 척도이며, 여러 모델의 성능을 비교하는 데에 있어서 자주 사용됩니다. R-squared는 종속 변수(y)에서 독립 변수(X)에 의해 설명될 수 있는 변동성을 정량화 하는 역할을 합니다. 값의 범위는 항상 0 ~ 1 사이의 값을 가집니다.
- 값이 0이라면, 종속 변수의 변동성이 독립 변수에 의해서 하나도 설명이 될 수 없음을 의미하며
- 값이 1이라면, 종속 변수의 변동성이 독립 변수에 의해서 전부 설명이 될 수 있음을 의미합니다.
R-squared는 ‘coefficient of determination’ 혹은 ‘explained Variance’로 표현이 되기도 합니다. 특히 ‘explained variance’는 R-squared가 모델에 의해서 설명이 되는 종속 변수의 총 변동성을 측정한다는 사실을 강조하기 위해서 사용될 때가 많습니다. 모델에 의해서 설명이 되지 않는 변동성은 ‘unexplained variance’ 혹은 ‘residual variance’라고 부릅니다.
Unexplained Variance는 모델에 포함되지 않은 다른 요인이 종속 변수에 영향을 주는 정도를 의미합니다. 하지만, R-squared 값이 높다고 해서 모델이 데이터에 무조건 적합한 것이라고 볼 수는 없습니다. 이를 보완하기 위해서는 Residual plots, significance of the regression coefficients, and model assumption이 모델 성능을 평가하는 또 다른 척도로써 필요합니다.
수식으로 표현하면, 다음과 같습니다.
가장 오른쪽에 있는 식에 대한 의미를 조금 더 이해하기 쉽게 식에 쓰면 다음과 같습니다.
SST이자 Total Variation, 즉, 전체 변동성을 구하기 위해서는 어떻게 해야 할까요?
즉, 전체 label의 평균과 각 Sample의 Label의 차이를 제곱한 값을 전부 더하여 해당 데이터에서 전체 변동성(Total Variation)을 계산하게 됩니다.
Unexplained Variance는 어떻게 구하는 것일까요?
여기에서 Unexplained라는 것은 모델이 설명하지 못한다는 것을 의미합니다. SST를 계산할 때처럼 각 샘플에서 모델의 예측값과 실제 label의 차이를 구해서 전부 제곱한 값들을 더하는 방식을 계산이 됩니다.
이렇게 Total Variation 중 Unexplained Variance의 비율을 계산하여 이를 1에서 빼준 값이 최종적으로 독립 변수에 의해서 설명될 수 있는 변동성, 즉 R-squared의 의미입니다.
ref.
'통계' 카테고리의 다른 글
A/B Test (0) | 2023.02.18 |
---|---|
A/B Test (0) | 2023.02.18 |
A/B Test (0) | 2023.02.16 |
R square란? (0) | 2023.02.13 |
P-value의 유효성 (0) | 2023.02.13 |