AIMS Study Blog

Bootstrapping 본문

통계

Bootstrapping

hannn 2023. 4. 9. 14:15

Bootstrapping 

 

1. 표본에서 복원추출을 통해서 기존 sample dataset의 크기 만큼을 반복하여 새로운 sample dataset을 생성한다. 

2. 새롭게 생성된 sample dataset에서 통계치들을 계산한다. 

3. 1, 2의 과정을 n번 반복한다. 

4. n개의 통계치들을 통해서 신뢰 구간을 계산한다. 

 

 

Bootstrap의 장점 

  • 표본 데이터의 분포에 대한 가정이 필요하지 않다. 
  • 신뢰 구간 추정에 사용되거나, 가설 검정하는 경우에 사용된다. 
  • 샘플의 크기를 줄이지 않고, 여러 sample dataset을 생성할 수 있다. 
  • 복원 추출을 통해서 모집단의 분포에 대한 추정으로 해석할 수 있다. 

 

기존에 하나의 sample dataset만을 가지고 있다면, 하나의 통계치만을 구할 수 있고, 이렇게 되면 실질적으로 이 통계치가 모집단에 대해서 얼마나 신뢰성(reliable)이 있는 값인지에 대해서 알 수가 없다. 이런 조건에서 Bootstrapping은 제한된 수의 표본 내에서 여러 sample dataset을 생성할 수 있고, 각각의 새롭게 생성된 sample dataset에서 통계치들을 구하여 신뢰구간을 확보할 수 있는 방법이다. 

 

대부분의 경우에는 표본의 수를 늘리는 것이 시간적, 경제적으로 제한이 되어있는 경우가 많다. 이런 경우에는 가지고 있는 표본의 집합이 가장 좋은 것이자, 유일한 정보이다. 이것을 다시 무작위로 복원 추출을 함으로써, 추가적인 표본을 추출하지 않고, 모집단의 분포에 대한 정보를 추정할 수 있다. 

 

 

 

Bootstrapping을 보는 다른 관점 

Jackknife 방법의 일반화 된 것이라고 보는 관점도 존재한다. 

일반적인 Sample Dataset이 있다고 했을 때, 통계 값을 계산할 수 있다. 이 통계값에 대한 신뢰구간을 얻기 위해서는 더 많은 sample dataset에서 계산된 통계치가 필요하다. 이때 Jackknife라는 방법을 사용할 수 있다. 

 

  • JK-1 
    추출한 표본에서 1개의 샘플들을 돌아가면서 삭제를 하고 그렇게 생성된 새로운 sample dataset에서 각각의 통계량을 계산한다. 이렇게 되면, Original sample dataset의 크기만큼의 통계량이 나오고, 이것을 가지고 신뢰 구간을 계산할 수 있다.
     
  • JK-n
    JK-1과 동일한 방식으로, n개의 샘플들을 제거하고, 남은 샘플들로 구성된 새로운 Sample dataset에서 통계량을 구하는 방식으로 통계값을 계산하고, 이렇게 모인 통계값들을 이용하여 신뢰구간이나 다른 추가적인 분석을 진행하는 방법이다. 

 

Bootstrap은 Jackknife의 일반화된 버전으로, 랜덤한 수의 Sample들을 삭제하고, 남은 샘플들을 중복하여 그 빈자리를 채워 생성된 sample dataset에서 통계량을 계산하는 방식이라고도 해석이 가능하다. 

 

 

 

 

 

 

ref.

https://taeguu.tistory.com/42

https://bkshin.tistory.com/entry/DATA-12

https://stats.stackexchange.com/questions/26088/explaining-to-laypeople-why-bootstrapping-works

Comments