샘플링과 리샘플링에 대해
통계나 데이터 분석 등을 공부하다보면 샘플링이라는 말을 자주 접하게 된다. 단순히 전체에서 일부를 뽑는다는 의미를 넘어 샘플링의 목적이나 의의에 대해서 알아둔다면 좋을 것 같다.
위키피디아에서의 샘플의 사전적 의미는 다음과 같다.
- 2. (음식) 시식.
타동사
- 1. 견본, 표본을 내다, 뽑다.
- 2. 시식하다.
견본이나 표본이라고 하면 익숙해서 잘 알겠으나, 시식이라는 뜻도 있다는 사실은 생소하다. 시식이라함은 마트나 음식점 등에서 어떤 음식에 대해 한 입 정도 먹어 맛을 보게 하는 것을 말하는데, 그 음식의 1인분 전체를 먹어보지 않고 그냥 한 입으로 맛을 알게끔 한다는 것에 의미가 있다.
통계에서 말하는 표본도 의미적으로는 시식과 같다. 모집단이라 불리는 전체에서 뽑은 일부분을 표본 내지는 샘플이라 한다. 당연히 샘플링은 그 샘플을 뽑는 행위를 뜻한다.
음식을 시식하며 음식 전체를 먹어보지 않고 한 입만으로도 그 맛을 알 수 있듯이 샘플을 통해 모집단의 특징을 알 수 있을 것이라는 전제에서 샘플링을 한다. 모집단의 특징이라 함은 모집단의 평균, 분산 등과 같은 모수를 뜻하며, 일반적으로 모집단 전부를 조사할 경우 비용이 크기 때문에 샘플을 뽑아서 샘플의 통계량을 가지고 모집단의 모수를 추측한다.
그런데 문제는 그 샘플이 진짜 모집단을 대표한다는 보장이 없다. 음식을 시식할 때 먹은 그 한 입이 탄 고기일 수도 있고, 아니면 다른 이유로 그 부분만 맛이 이상할 수도 있다. 이런 경우 그 한 입은 해당 음식 전체를 대표하지 못한다. 샘플도 마찬가지이다. 샘플링을 한 샘플이 모집단의 특성을 대표하지 못하는 경우도 발생할 수 있다. 예를 들어 전국민을 대상으로 대선 후보자에 대한 지지도를 알기 위해 일부의 국민에게만 전화를 해서 설문조사를 한다고 할 때, 지역별로 균일하게 전화를 하지 않고 특정 지역에만 전화를 하게 된다면, 지역별 정치적 특성으로 인해 왜곡된 결과를 얻게될 수 있게 된다. 그래서 이러한 문제를 해결하기 위해 층화추출과 같은 방식을 도입하기도 한다.
그렇다면 추출한 샘플에 대해서 모집단을 대표한다는 것을 입증할 수 있는 방법은 무엇일까? 모집단과 비교하는 방법이 가장 쉬울 것이다. 하지만, 샘플링을 하는 이유 자체가 모집단의 큰 비용 때문이기 때문에 애초에 모집단을 획득할 수 있다면 샘플링을 할 이유 또한 없다.
우리는 샘플이 모집단을 대표한다는 것을 입증할 때 리샘플링이라는 방법을 사용한다.
리샘플링은 간단히 말해 추출한 샘플의 부분집합들을 뽑아서 각 부분집합들의 통계량을 확인하고, 이를 기반으로 통계량이 얼마나 변동하는지를 파악하면서 샘플의 대표성을 확인할 수 있다. 대표적인 방법으로 k-fold와 부트스트랩핑이 있다.
통계 면접에서 샘플링과 리샘플링에 대해 질문을 한다면,
"샘플링이란 모집단의 모수를 추측할 수 있는 통계량을 구하기 위해 모집단의 일부를 추출하는 행위이고, 리샘플링은 그 샘플이 모집단을 대표하는지를 검증하기 위한 방법입니다"
라고 답변하면 될 것 같다.