AIMS Study Blog
샘플링(Sampling)과 리샘플링(Resampling) 본문
샘플링 (Sampling)
표본추출을 의미하며, 모집단으로부터 무작위(임의의) Sample을 뽑는 것을 의미한다.
예를들어 우리나라 사람들의 IQ 분포(모집단)가 있다고 하자.
이때 모든 사람의 IQ를 알기란 어렵기 때문에, 샘플링을 통해 어느정도의 모집단을 추론(Inference) 할 수 있다.
하지만 이렇게 샘플링 된 데이터는 모집단 그 자체는 아니기 때문에, 모집단과 유사하지만 노이즈가 존재한다.
우리나라 사람들의 IQ분포를 샘플링을 통해 100명을 뽑아 구성했는데, 이 100명의 데이터의 추세가 모집단과 비슷할 수는 있지만 동일하지 않기 때문이다. 원래의 모집단의 패턴과 다를 수 있음을 뜻한다.
따라서 이를 보완하기 위해 리샘플링을 해볼 수 있다.
리샘플링 (Resampling)
리샘플링은 아까 뽑은 샘플링 데이터에서, 또다시 데이터를 샘플링하는 것 이다. => 이로서 데이터의 통계량 변동성을 확인하는 것이다. 같은 샘플을 여러번 사용하게 되는 것과 같다.
예시로는 Fold Cross Validation, Bootstrapping이 있다.
- K-Fold Cross Validation
데이터 샘플을 K개의 Fold로 나눈 뒤, K-1개의 데이터로 학습을 진행하고 학습을 진행하지 않은 폴더를 Test 성능 평가로 이용하는 것을 의미한다. 이렇게 총 K번 반복을 통해 성능을 도출 한 뒤, 이를 K로 나누어 평균한다.
- Bootstrapping
위에서 샘플링한 표본에서 하나를 뽑는 과정을 n번 반복해, 재표본추출한 값의 평균을 구한다. 이 전체의 과정을 R번 반복해 신뢰구간을 구한다. 데이터의 중복사용을 허용하는 것이다.
K-Fold Cross Validation의 기법을 사용하는 상황과 Bootstrapping 기법을 사용하는 상황은 같다고 할 수 있다.
참고
[1] https://cnp-0717.tistory.com/7
(데이터과학 인터뷰 질문)(2) 샘플링과 리샘플링, 1편
이 글 시리즈는 zzsza.github.io/data/2018/02/17/datascience-interivew-questions/에 있는 에 스스로 대답해보면서 정리해보고자 적어가는 글입니다. 주인장 분께 감사의 말씀 드립니다! 샘플링과 리샘플링이란?
cnp-0717.tistory.com
'통계' 카테고리의 다른 글
샘플링, 리샘플링의 개념 (0) | 2023.01.15 |
---|---|
샘플링과 리샘플링에 대해 (0) | 2023.01.15 |
고윳값(Eigenvalue), 고유벡터(Eigenvector에 대한 설명) (0) | 2023.01.15 |
샘플링, 리샘플링의 개념 (0) | 2023.01.15 |
고유값, 고유벡터의 개념 및 중요성 (0) | 2023.01.15 |