통계
샘플링, 리샘플링의 개념
hyenzzang
2023. 1. 15. 15:08
Q. 샘플링과 리샘플링에 대해 설명해주세요.
리샘플링은 무슨 장점이 있을까요?
샘플링 (Sampling)
- 샘플링은 모집단의 특성을 파악하기 위해 모집단에서 임의의 샘플을 뽑아내는 것이다.
- ex) 전국의 모든 사람들에게 약물을 투여하기 전, 수천명의 남녀를 대상을 샘플링하여 테스트한다.
- 샘플링은 크게 두 가지 그룹으로 분류 된다.
- Probability Sampling (Random Sampling) : 모집단의 모든 관측치가 선택될 확률이 같으며 무작위로 샘플링 되는 방법
- Simple Random Sampling
- Cluster Sampling
- Stratified Sampling
- Systematic Sampling
- Non-Probability Sampling: 확률 샘플링과 달리 모집단의 각 관측치가 선택될 확률이 다른 샘플링 방법
- Convenience Sampling
- Judgemental/Purposive Sampling
- Snowball/Referral Sampling
- Quota Sampling
- Probability Sampling (Random Sampling) : 모집단의 모든 관측치가 선택될 확률이 같으며 무작위로 샘플링 되는 방법
- 샘플링의 장점은 다음과 같다.
- 비용과 시간 절약
- 더 큰 모집단에 대한 추론 가능
- 더 적은 리소스 사용
리샘플링 (Resampling)
- 리샘플링은 모집단에서 샘플을 반복적으로 추출하는 방식이다.
- 기계학습에서는 리샘플링을 통해 모델에 대해 추가적인 정보를 얻을 수 있기에 모델의 성능을 향상시키는 데에 도움을 준다.
- 일반적으로 사용되는 리샘플링 방법에는 크게 두 가지가 있다.
- K-Fold Cross Validation
- 데이터를 k 개의 세트로 나누어, 하나의 세트가 실험의 테스트 세트로 간주되고 나머지 모든 세트가 모델 Train에 사용된다.
- 첫 번째 실험에서는 첫 번째 세트가 테스트 세트로, 나머지는 Train 에 사용된다.
- 위와 같은 프로세스를 k번 반복한다.
- Bootstrapping
- 데이터로부터 관측치를 반복적으로 복원 추출하여 Train 데이터를 늘리는 방법
- 데이터셋의 양을 늘리고 분포를 고르게 만드는 효과가 있다.
- 원래 데이터 중 샘플링되지 않은 나머지 데이터들은 모델 테스트에 사용된다.
- K-Fold Cross Validation
- 리샘플링의 장점은 다음과 같다.
- 더 적은 가정 - 정규성 가정과 표본의 수 조건이 필요없음
- 더 높은 정확도
- 일반성
Ref) https://www.naukri.com/learning/articles/introduction-to-sampling-and-resampling/