통계
부트스트랩(Bootstrap)의 의미
hyenzzang
2023. 4. 7. 16:57
Q. 통계에서 사용되는 Bootstrap의 의미는 무엇인가요?
Bootstrap
- 통계학에서 Bootstrap은 Resampling 방법 중 하나로, 가설 검증을 하거나 통계량을 계산하기 전에 복원추출법을 적용하는 방법을 뜻한다.
- 즉, 모집단으로부터 새로운 표본을 추출할 수 없을 때 원래의 데이터셋으로부터 관측치를 무작위로 반복적으로 재추출함으로써 데이터셋을 얻는 기법을 뜻한다.
- 여기서 복원 추출법을 적용하므로 동일한 관측치가 Bootstrap 데이터셋에 두 번이상 포함될 수 있다.
- 이를 통해 정확도가 높은 통계량을 추론해낼 수 있으며 Bootstrap 기법은 신뢰성을 평가하는데 유용하게 쓰인다.
- 아래는 200개의 표본이 있을 때의 부트스트랩으로 신뢰구간을 구하는 절차이다.
- 200개의 표본 중 하나를 뽑아 기록하고 다시 제자리에 둔다.
- 이를 N 번 반복한다.
- N번 재표본추출한 값의 평균을 구한다.
- 1~3 단계를 R번 반복한다. (R: 부트스트랩 반복 횟수)
- 평균에 대한 결과 R개를 사용해서 신뢰구간을 구한다.
Summary
Bootstrap은 Resampling 방법 중 하나로, 모집단으로부터 새로운 표본을 추출할 수 없을 때 원래의 데이터셋에서 관측치를 무작위로 반복적으로 재추출함으로써 데이터셋을 얻는 기법을 뜻한다. 이를 통해 정확도가 높은 통계량을 추론해낼 수 있으며 신뢰성을 평가하는 데에 유용하게 쓰인다.