Notice
Recent Posts
Recent Comments
Link
일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | 5 | ||
6 | 7 | 8 | 9 | 10 | 11 | 12 |
13 | 14 | 15 | 16 | 17 | 18 | 19 |
20 | 21 | 22 | 23 | 24 | 25 | 26 |
27 | 28 | 29 | 30 | 31 |
Tags
- 모평균
- 리샘플링
- 고유값
- 통계면접
- 통계
- 상관계수
- 데이터분석
- 확률밀도함수
- 베타분포
- ViT
- 공분산
- Self-attention
- 확률
- 검정
- 신뢰구간
- 조건부확률
- 확률분포
- 데이터분석면접
- 검정력
- 확률변수
- Transformer
- 표본
- p-value
- 누적분포함수
- 고유벡터
- 평균
- 모집단
- 선형대수
- 샘플링
- 확률모형
Archives
- Today
- Total
AIMS Study Blog
Cross Validation 본문
Q. Cross Validation은 무엇이고 어떻게 해야하나요?
Cross Validation
- 데이터를 Train set과 Test set으로만 나누어 학습 및 평가를 할 경우 내가 만든 모델이 Test set에 대해서만 잘 작동할 수 있다.
- 이렇듯 모델 과적합이 일어나면 다른 데이터를 사용했을 때 예측을 잘 수행할 수 없게 된다.
- 고정된 Train 및 Test set으로부터 발생할 수 있는 문제를 해결하고자 하는 것이 바로 교차검증 (cross validation)이다.
- 아래 그림처럼 전체 데이터를 k개의 subset으로 나누고 Test set을 중복없이 바꾸어가면서 k번의 평가를 진행할 수 있다. 이를 K-fold cross validation이라 한다.
- k개의 평가 값에 대해 평균을 내어서 최종적인 모델의 성능으로 사용할 수 있다.
- Cross validation의 장점
- 모든 데이터셋을 평가에 사용할 수 있다. 이를 통해 데이터 편향 및 과적합을 방지할 수 있다.
- K개의 성능 결과를 통합하여 하나의 결과를 도출하기 때문에 보다 일반화된 모델 성능 평가가 가능하다.
- Cross validation의 단점
- 반복 횟수가 많아서 모델 학습 및 평가 시간이 길어진다.
- 데이터 클래스가 불균형한 경우에는 Stratified k-fold cross validation을 사용하여 데이터 클래스별 분포를 고려하여 폴드 세트를 만들어야 한다.
- 전체 데이터 중 p개의 샘플을 선택하여 그것을 모델 검증에 사용하는 Leave-p-out cross validation 방법도 존재한다. 이 방법은 데이터 폴드 세트의 경우의 수가 매우 커서 계산 시간에 대한 부담이 크다.
Reference
https://m.blog.naver.com/ckdgus1433/221599517834
https://huidea.tistory.com/30
'통계' 카테고리의 다른 글
로그함수 (log) (0) | 2023.06.04 |
---|---|
Log 함수를 사용하는 이유 (0) | 2023.06.04 |
Bias를 통제하는 방법 (0) | 2023.05.27 |
Bias 통제 방법 (0) | 2023.05.25 |
필요한 표본의 크기를 계산하는 방법 (0) | 2023.05.19 |
Comments