AIMS Study Blog

샘플링과 리샘플링 본문

통계

샘플링과 리샘플링

김랑명 2023. 1. 14. 18:26
Q. 샘플링과 리샘플링에 대해 설명해주세요. 리샘플링은 무슨 장점이 있을까요?

 

1. 샘플링이란?

샘플링이란 표본추출을 의미하는 것으로,

모집단 전체에 대한 추정치(estimate)을 얻기 위해 모집단에서 임의의 sample을 뽑아내는 것이다. 여기서 모집단 전체에 대한 조사는 사실상 불가능하기 때문에 일부를 뽑아내어 sample을 이용해 모집단에 대한 추론을 진행하며 이를 샘플링이라 한다. 그러나 샘플링을 아무리 잘 진행해도 모집단 그 자체일 수는 없고, 표본에는 반드시 원래의 패턴에서 놓치는 부분, noise가 존재할 수 밖에 없다. 이를 보정하기 위해서 리샘플링을 사용한다.

 

2. 리샘플링이란?

일부의 표본추출로는 모집단의 분포 형태를 정확하게 알 수 없을 때 사용하는 방법이다. 보유한 샘플들에서 다시 샘플 부분집합을 뽑아 통계량의 변동성(variablility of statistics)을 확인하게 되며, 이 방법을 리샘플링이라 한다. 즉, 같은 샘플을 여러 번 사용해서 성능을 측정하는 방식이다. 

대표적인 예시로 k-fold 교차검증, bootstrapping 기법이 있다.

  • K-Fold Cross Validation : Sampling한 데이터를 K개의 부분 집합으로 나누고, 그 중 하나를 validation set으로 사용하고 나머지를 train set으로 사용하는 방식
  • Bootstraping : Sampling된 데이터셋에서 일부 데이터를 sampling하여 새로운 데이터셋을 만들고, 새로운 데이터셋의 크기가 원래의 데이터셋의 크기와 같아질 때 까지 원래의 데이터셋에서 새로운 데이터셋에 데이터 하나씩을 복사해서 넣는 과정을 반복. 이 때 중복은 허용하며, 원래 데이터셋의 데이터중 새로운 데이터셋에 포함되지않은 데이터들은 test set으로 활용.

 

3. 리샘플링의 장점

리샘플링은 표본을 추출하면서 원래 데이터 셋을 복원하기 때문에 이를 통해서 모집단의 분포에 어떤 가정도 필요 없이 표본만으로 추론이 가능하다는 장점이 있다. 

 

 

Summary

샘플링은 표본추출을 뜻하는 것으로, 모집단 전체에 대한 추정치를 얻기 위해 모집단에서 임의의 sample을 뽑는 것을 뜻함
리샘플링은 보유한 샘플들에서 다시 샘플을 뽑아 통계량의 변동성을 확인하는 방법이다. 이는 통계적인 신뢰도를 높일 수 있고, 모집단의 분포에 어떠한 가정도 필요 없이 표본만으로 추론이 가능하다는 장점이 있다.

 

Referance
Comments