Notice
Recent Posts
Recent Comments
Link
일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | ||||
4 | 5 | 6 | 7 | 8 | 9 | 10 |
11 | 12 | 13 | 14 | 15 | 16 | 17 |
18 | 19 | 20 | 21 | 22 | 23 | 24 |
25 | 26 | 27 | 28 | 29 | 30 | 31 |
Tags
- 확률모형
- 모집단
- 확률변수
- 데이터분석
- 표본
- 리샘플링
- 확률분포
- 고유벡터
- 평균
- 공분산
- ViT
- 확률밀도함수
- 고유값
- 상관계수
- 모평균
- p-value
- 선형대수
- 검정력
- Transformer
- 조건부확률
- 확률
- 통계면접
- 베타분포
- 누적분포함수
- 검정
- 신뢰구간
- 데이터분석면접
- 통계
- 샘플링
- Self-attention
Archives
- Today
- Total
AIMS Study Blog
데이터가 적을 때의 예측 모델 수립 본문
Q. 데이터가 적은 케이스의 경우
어떤 방식으로 예측 모델을 수립할 수 있을까요?
데이터가 매우 적은 케이스에서 모델을 수립하기 위해 아래의 방법을 고려할 수 있다.
1. 간단한 모델 선택
- 모델을 잘 학습하기 위해서는 대략적으로 모델의 매개변수 수보다 약 10배 많은 샘플이 필요하다. 관측치가 적을 경우 모델이 과적합 될 가능성이 높다. 따라서 데이터가 매우 적은 케이스에서는 작은 모델을 선택하는 것이 좋다.
- 데이터가 적은 경우 회귀, 랜덤 포레스트, SVM과 같은 간단한 기계학습 모델이 딥러닝보다 뛰어난 성능을 보여주게 된다.
2. 전처리
- 적은 데이터셋으로 학습 시, 이상치는 모델에 큰 영향을 미칠 수 있기 때문에 제거하는 것이 좋다. 또한 데이터를 정규화 하거나 스케일링함으로써 모델을 보다 단순하게 만들고 정확성을 향상할 수 있다.
3. 관련 Feature 선택
- 모든 Feature가 모델에 필요하지 않을 수도 있으므로 재귀 재거, 상관관계 분석, 중요도 분석 등의 기술을 사용하여 중요한 Feature만 사용하여 모델을 만들 수 있다.
4. 모델 앙상블
- 여러 개별 모델의 예측 결과를 결합해 예측 결과를 도출함으로써 모델을 더욱 강력하게 만들 수 있다.
- Bagging: 많은 수의 강력한 모델을 병렬로 학습한 다음, 이들을 결합하여 예측을 부드럽게 함으로써 복잡한 모델이 과적합될 가능성을 줄이는 방법
- Boosting: 많은 수의 약한 모델을 순서대로 학습한 다음, 이들을 하나의 강력한 모델로 결합하여 간단한 모델의 예측 유연성을 높이는 방법
5. 교차 검증
- 교차 검증을 활용하여 모델의 정확성을 검증할 수 있으며, 이는 모델 과적합을 방지하는 데에 도움이 된다.
Reference
'통계' 카테고리의 다른 글
프리퀀티스트 & 베이지안 (0) | 2023.04.23 |
---|---|
베이지안과 프리퀀티스트간의 입장차이 (0) | 2023.04.22 |
데이터 샘플 수가 매우 적은 경우 (0) | 2023.04.16 |
Bootstrapping (0) | 2023.04.09 |
부트스트랩(Bootstrap)의 의미 (0) | 2023.04.07 |
Comments