AIMS Study Blog

Sampling & Resampling 본문

통계

Sampling & Resampling

hannn 2023. 1. 14. 00:06

Question.

샘플링과 리샘플링에 대해 설명해주세요. 리샘플링은 어떤 장점이 있을까요?

 

 

Sampling

샘플링이란 표본 추출을 의미한다. 모집단을 전부 조사하는 것이 실질적으로 가능한 경우가 많이 존재하지 않기 때문에, 모집단 전체에 대한 추정치(estimate)을 얻기 위해 모집단에서 임의로 표본(Sample)들을 추출한다. 이렇게 추출한 표본들을 통해서 모집단에 대한 추론(inference)이 가능해진다.

 

데이터 샘플링 방식

확률적 샘플링과 비확률적 샘플링 2가지로 샘플링 방식을 크게 나눌 수 있다.

  • 확률적 샘플링 : 무작위로 샘플링 하는 방법
    • 단순 랜덤 샘플링(Simple Random Sampling)
    • 층별 샘플링(Stratified Random Sampling)
    • 군집/집락 샘플링(Cluster Sampling)
    • 계통 샘플링(Systematic Sampling)
  • 비확률적 샘플링 : 사람의 주관을 개입하여 이상적 모집단과 일치하도록 샘플링을 진행하는 방법
    • 편의 샘플링(Convenience Sampling)
    • 판단 샘플링(Purpose Sampling)
    • 할당 샘플링(Quota Sampling)

 

 

Resampling

가지고 있는 표본이 과연 모집단을 얼마나 대표한다고 볼 수 있는지를 알아보기 위해서 Resampling이라는 과정을 거친다. 표본은 모집단에서 추출하였지만, 모집단의 원래 패턴에서 놓친 정보가 존재할 수 밖에 없다. ‘추출한 샘플들에서 샘플들의 일부분을 재추출하여 분포를 만들고 그에 따른 통계량의 변동성(Variability of statistics)을 확인하는 것’ 이다. 모분포를 알 수 없어, 일반적인 통계적 공식들을 사용하는 데에 제약이 있을 때, 현재 샘플에서 모분포와 비슷할 것으로 추정되는 분포를 만들어 보는 것이다. 이렇게 샘플 통계치의 정확도를 측정하거나, 모델의 일반화 성능을 검증할 때 사용한다. 대표적으로 k-fold 교차검증, bootstrapping 기법이 있다.

 

 

K-fold Cross Validation

모델의 일반화 성능을 확인하기 위해서 일반적으로 train set, test set을 나눠 한번만 평가하는 것보다 데이터 셋을 여러개로 분할한 후에 이에 대해서 train set과 test set을 변경해가며 성능을 평가하는 것이 좋다. k-fold는 k-1개의 부분집합을 Train set으로, 나머지 하나를 test set으로 사용하여 총 k번의 결과를 얻을 수 있다.

 

Boot Strapping

가지고 있는 샘플에서 복원추출을 사용하여 임의의 랜덤샘플을 추출하는 기법

  1. 표본에서 복원추출로 다수의 표본을 만든다. 이 때 각 표본들은 원래의 표본과 크기가 동일하도록 설정한다. 
  2. 새로운 표본에서 통계량을 계산하여 생성된 통계량의 분포가 bootstrap 분포이다.
  3. bootstrap 분포는 통계량의 표본 분포의 정보를 제공한다. 

 

 

Answer

샘플링은 모집단에서 임의의 개수만큼의 표본을 추출하는 것을 의미하며, 크게 모집단에서 무작위로 샘플링하는 방식인 확률적 샘플링과 표본을 추출하는 과정에서 사람의 주관이 개입하는 샘플링 방식인 비확률적 샘플링이 있습니다. 
리샘플링이란, 샘플링 과정을 거쳐 얻게 된 표본들의 집합이 실제로 표본을 대표하는 정보를 가지고 있는지를 표본들에서 또다른 표본들을 재추출하여 확인하는 방식입니다. 리샘플링을 통해서 표본들의 통계치에 대한 정확도를 얻을 수 있으며, 모델의 일반화 성능을 검증하는 경우에도 리샘플링 방식이 사용되게 됩니다. 

 

Comments