목록모집단 (5)
AIMS Study Blog
Bootstrapping 1. 표본에서 복원추출을 통해서 기존 sample dataset의 크기 만큼을 반복하여 새로운 sample dataset을 생성한다. 2. 새롭게 생성된 sample dataset에서 통계치들을 계산한다. 3. 1, 2의 과정을 n번 반복한다. 4. n개의 통계치들을 통해서 신뢰 구간을 계산한다. Bootstrap의 장점 표본 데이터의 분포에 대한 가정이 필요하지 않다. 신뢰 구간 추정에 사용되거나, 가설 검정하는 경우에 사용된다. 샘플의 크기를 줄이지 않고, 여러 sample dataset을 생성할 수 있다. 복원 추출을 통해서 모집단의 분포에 대한 추정으로 해석할 수 있다. 기존에 하나의 sample dataset만을 가지고 있다면, 하나의 통계치만을 구할 수 있고, 이렇게 ..
“모수적 방법(Parametric Method)” 우리는 통계적 방법을 사용하여 특정 사실을 검정하는 경우에, 표본을 뽑아 실험을 하게 된다. 이렇게 표본을 뽑아 실험을 하게 되는 이유는, 모집단 전체를 조사하기에는 시간과 비용 문제가 발생하게 된다. 우리가 가지고 있는 표본이 모집단을 잘 대표한다는 가정이 있다면, 우리는 시간과 비용을 덜 들이면서도 제대로 된 검정을 할 수 있다. 많은 경우에, 데이터의 분포는 정규 분포를 따른다. 따라서, 그동안 통계적 방법도, 애초에 데이터가 정규 분포를 따른다는 가정하에 여러가지를 검정할 수 있는 방법이 고안되었다. 데이터의 분포가 정규분포를 따른다는 것은, 표본들의 평균과 표준편차 등 몇가지 통계량만으로 해당 집단의 많은 정보를 알 수 있다는 의미를 내포하고 있..
중심 극한 정리 (central limit theorem) 모집단의 평균이 μ이고 표준편차가 σ인 분포에서 표본의 크기인 n이 충분히 크다면, 표본 평균들이 이루는 분포는 평균이 μ이고 표준편차가 σ/sqrt(n)인 정규분포에 수렴한다. (n이 충분히 크다는 것은 보통 n이 30보다 큰 것을 의미한다. ) 또한, 모집단의 분포와 상관 없이 n이 충분히 크다면 표본 평균들의 분포가 정규 분포로 수렴한다는 것을 의미한다. 중심 극한 정리의 정의를 정확하게 파악할 필요가 있다. 모집단에서 n의 크기를 가지는 표본들을 뽑고, 뽑혀진 표본들의 평균을 계산하는 과정을 여러번 반복했을 때, 계산된 평균들이 이루는 분포가 정규 분포에 수렴한다는 것이다. 간혹, n의 크기만 크면, 모집단의 평균과 뽑은 표본들의 평균이 ..
p-value를 고객에게는 뭐라고 설명하는 게 이해하기 편할까요? p-value는 귀무가설(Null Hypothesis)가 맞다는 전제 하에, 통계값이 실제 관측한 값 이상일 확률을 의미한다. 하지만, 이는 수학을 잘 아는 사람에게는 이해가 될 수 있을진 모르지만, 통계 관련 지식이 없는 사람에게 p-value를 어떻게 해야 잘 설명할 수 있을지 고민해보았다. 왜 모분포를 추정해야 하는가? p-value를 구하는 것은 전체 집단(모집단)에서 랜덤하게 표본(sample)을 뽑아서 모집단의 평균을 추정하기 위해서이다. 그러면, "처음부터 모집단을 전부 조사해서(전수 조사) 통계값(평균, 분산 등)을 구하면 되는 것이 아닌가?"라는 의문이 들 수 있다. 하지만, 현실에서는 여러 제약 조건(비용, 시간 문제 등..
Question. 샘플링과 리샘플링에 대해 설명해주세요. 리샘플링은 어떤 장점이 있을까요? Sampling 샘플링이란 표본 추출을 의미한다. 모집단을 전부 조사하는 것이 실질적으로 가능한 경우가 많이 존재하지 않기 때문에, 모집단 전체에 대한 추정치(estimate)을 얻기 위해 모집단에서 임의로 표본(Sample)들을 추출한다. 이렇게 추출한 표본들을 통해서 모집단에 대한 추론(inference)이 가능해진다. 데이터 샘플링 방식 확률적 샘플링과 비확률적 샘플링 2가지로 샘플링 방식을 크게 나눌 수 있다. 확률적 샘플링 : 무작위로 샘플링 하는 방법 단순 랜덤 샘플링(Simple Random Sampling) 층별 샘플링(Stratified Random Sampling) 군집/집락 샘플링(Cluster..