AIMS Study Blog

데이터가 적을 때의 예측 모델 수립 본문

통계

데이터가 적을 때의 예측 모델 수립

hyenzzang 2023. 4. 18. 12:38
Q. 데이터가 적은 케이스의 경우
어떤 방식으로 예측 모델을 수립할 수 있을까요?

 

데이터가 매우 적은 케이스에서 모델을 수립하기 위해 아래의 방법을 고려할 수 있다.

 

1. 간단한 모델 선택

  • 모델을 잘 학습하기 위해서는 대략적으로 모델의 매개변수 수보다 약 10배 많은 샘플이 필요하다. 관측치가 적을 경우 모델이 과적합 될 가능성이 높다. 따라서 데이터가 매우 적은 케이스에서는 작은 모델을 선택하는 것이 좋다.
  • 데이터가 적은 경우 회귀, 랜덤 포레스트, SVM과 같은 간단한 기계학습 모델이 딥러닝보다 뛰어난 성능을 보여주게 된다.

 

2. 전처리

  • 적은 데이터셋으로 학습 시, 이상치는 모델에 큰 영향을 미칠 수 있기 때문에 제거하는 것이 좋다. 또한 데이터를 정규화 하거나 스케일링함으로써 모델을 보다 단순하게 만들고 정확성을 향상할 수 있다. 

 

3. 관련 Feature 선택

  • 모든 Feature가 모델에 필요하지 않을 수도 있으므로 재귀 재거, 상관관계 분석, 중요도 분석 등의 기술을 사용하여 중요한 Feature만 사용하여 모델을 만들 수 있다.

 

4. 모델 앙상블

  • 여러 개별 모델의 예측 결과를 결합해 예측 결과를 도출함으로써 모델을 더욱 강력하게 만들 수 있다.
  • Bagging: 많은 수의 강력한 모델을 병렬로 학습한 다음, 이들을 결합하여 예측을 부드럽게 함으로써 복잡한 모델이 과적합될 가능성을 줄이는 방법
  • Boosting: 많은 수의 약한 모델을 순서대로 학습한 다음, 이들을 하나의 강력한 모델로 결합하여 간단한 모델의 예측 유연성을 높이는 방법

 

5. 교차 검증

  • 교차 검증을 활용하여 모델의 정확성을 검증할 수 있으며, 이는 모델 과적합을 방지하는 데에 도움이 된다.

 

Reference

https://brunch.co.kr/@saas-hannah/38

'통계' 카테고리의 다른 글

프리퀀티스트 & 베이지안  (0) 2023.04.23
베이지안과 프리퀀티스트간의 입장차이  (0) 2023.04.22
데이터 샘플 수가 매우 적은 경우  (0) 2023.04.16
Bootstrapping  (0) 2023.04.09
부트스트랩(Bootstrap)의 의미  (0) 2023.04.07
Comments