통계

샘플링, 리샘플링의 개념

hyenzzang 2023. 1. 15. 15:08
Q. 샘플링과 리샘플링에 대해 설명해주세요.
리샘플링은 무슨 장점이 있을까요?

샘플링 (Sampling)

  • 샘플링은 모집단의 특성을 파악하기 위해 모집단에서 임의의 샘플을 뽑아내는 것이다.
    • ex) 전국의 모든 사람들에게 약물을 투여하기 전, 수천명의 남녀를 대상을 샘플링하여 테스트한다.
  • 샘플링은 크게 두 가지 그룹으로 분류 된다.
    1. Probability Sampling (Random Sampling) : 모집단의 모든 관측치가 선택될 확률이 같으며 무작위로 샘플링 되는 방법
      • Simple Random Sampling
      • Cluster Sampling
      • Stratified Sampling
      • Systematic Sampling
    2. Non-Probability Sampling: 확률 샘플링과 달리 모집단의 각 관측치가 선택될 확률이 다른 샘플링 방법
      • Convenience Sampling
      • Judgemental/Purposive Sampling
      • Snowball/Referral Sampling
      • Quota Sampling
  • 샘플링의 장점은 다음과 같다.
    • 비용과 시간 절약
    • 더 큰 모집단에 대한 추론 가능
    • 더 적은 리소스 사용

리샘플링 (Resampling)

  • 리샘플링은 모집단에서 샘플을 반복적으로 추출하는 방식이다.
  • 기계학습에서는 리샘플링을 통해 모델에 대해 추가적인 정보를 얻을 수 있기에 모델의 성능을 향상시키는 데에 도움을 준다.
  • 일반적으로 사용되는 리샘플링 방법에는 크게 두 가지가 있다.
    1. K-Fold Cross Validation
      • 데이터를 k 개의 세트로 나누어, 하나의 세트가 실험의 테스트 세트로 간주되고 나머지 모든 세트가 모델 Train에 사용된다.
      • 첫 번째 실험에서는 첫 번째 세트가 테스트 세트로, 나머지는 Train 에 사용된다.
      • 위와 같은 프로세스를 k번 반복한다.
    2. Bootstrapping
      • 데이터로부터 관측치를 반복적으로 복원 추출하여 Train 데이터를 늘리는 방법
      • 데이터셋의 양을 늘리고 분포를 고르게 만드는 효과가 있다.
      • 원래 데이터 중 샘플링되지 않은 나머지 데이터들은 모델 테스트에 사용된다.
  • 리샘플링의 장점은 다음과 같다.
    • 더 적은 가정 - 정규성 가정과 표본의 수 조건이 필요없음
    • 더 높은 정확도
    • 일반성

 

Ref) https://www.naukri.com/learning/articles/introduction-to-sampling-and-resampling/