일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | ||||
4 | 5 | 6 | 7 | 8 | 9 | 10 |
11 | 12 | 13 | 14 | 15 | 16 | 17 |
18 | 19 | 20 | 21 | 22 | 23 | 24 |
25 | 26 | 27 | 28 | 29 | 30 | 31 |
- 데이터분석
- 확률변수
- 고유벡터
- 확률
- 확률분포
- 표본
- 누적분포함수
- 상관계수
- Self-attention
- 평균
- 조건부확률
- 신뢰구간
- 베타분포
- 데이터분석면접
- 선형대수
- 모평균
- 고유값
- 통계
- ViT
- 검정력
- Transformer
- 확률모형
- p-value
- 리샘플링
- 확률밀도함수
- 공분산
- 샘플링
- 통계면접
- 모집단
- 검정
- Today
- Total
목록표본 (6)
AIMS Study Blog
필요한 표본의 크기를 계산하는 것은 우리가 학생 때 통계 문제로 많이 다뤄본 신뢰 구간 구하기 문제를 역으로 푸는 것과 같다. 그렇다면 신뢰 구간을 푸는 문제는 어떤 식으로 풀어야 하는 지에 대해서 먼저 짚어보자. 신뢰 구간을 구하는 문제는 먼저 표본의 수와, 그것에 대한 평균과 표준 편차, 그리고 신뢰도가 문제 조건으로 주어지게 된다. 표본 수 : \(N\) 평균 , 표준 편차 : \(\mu\) ,\(\sigma\) 신뢰도 : \(\alpha\) 라고 하자. 이런식으로 문제 조건이 주어졌다면, $ [\mu - Z_{\alpha/2}\frac{\sigma}{\sqrt{n}}, \mu + Z_{\alpha/2}\frac{\sigma}{\sqrt{n}}] $ 으로 계산이 진행된다. 그렇다면 필요한 표본의 수..
Bootstrapping 1. 표본에서 복원추출을 통해서 기존 sample dataset의 크기 만큼을 반복하여 새로운 sample dataset을 생성한다. 2. 새롭게 생성된 sample dataset에서 통계치들을 계산한다. 3. 1, 2의 과정을 n번 반복한다. 4. n개의 통계치들을 통해서 신뢰 구간을 계산한다. Bootstrap의 장점 표본 데이터의 분포에 대한 가정이 필요하지 않다. 신뢰 구간 추정에 사용되거나, 가설 검정하는 경우에 사용된다. 샘플의 크기를 줄이지 않고, 여러 sample dataset을 생성할 수 있다. 복원 추출을 통해서 모집단의 분포에 대한 추정으로 해석할 수 있다. 기존에 하나의 sample dataset만을 가지고 있다면, 하나의 통계치만을 구할 수 있고, 이렇게 ..
“모수적 방법(Parametric Method)” 우리는 통계적 방법을 사용하여 특정 사실을 검정하는 경우에, 표본을 뽑아 실험을 하게 된다. 이렇게 표본을 뽑아 실험을 하게 되는 이유는, 모집단 전체를 조사하기에는 시간과 비용 문제가 발생하게 된다. 우리가 가지고 있는 표본이 모집단을 잘 대표한다는 가정이 있다면, 우리는 시간과 비용을 덜 들이면서도 제대로 된 검정을 할 수 있다. 많은 경우에, 데이터의 분포는 정규 분포를 따른다. 따라서, 그동안 통계적 방법도, 애초에 데이터가 정규 분포를 따른다는 가정하에 여러가지를 검정할 수 있는 방법이 고안되었다. 데이터의 분포가 정규분포를 따른다는 것은, 표본들의 평균과 표준편차 등 몇가지 통계량만으로 해당 집단의 많은 정보를 알 수 있다는 의미를 내포하고 있..
중심 극한 정리 (central limit theorem) 모집단의 평균이 μ이고 표준편차가 σ인 분포에서 표본의 크기인 n이 충분히 크다면, 표본 평균들이 이루는 분포는 평균이 μ이고 표준편차가 σ/sqrt(n)인 정규분포에 수렴한다. (n이 충분히 크다는 것은 보통 n이 30보다 큰 것을 의미한다. ) 또한, 모집단의 분포와 상관 없이 n이 충분히 크다면 표본 평균들의 분포가 정규 분포로 수렴한다는 것을 의미한다. 중심 극한 정리의 정의를 정확하게 파악할 필요가 있다. 모집단에서 n의 크기를 가지는 표본들을 뽑고, 뽑혀진 표본들의 평균을 계산하는 과정을 여러번 반복했을 때, 계산된 평균들이 이루는 분포가 정규 분포에 수렴한다는 것이다. 간혹, n의 크기만 크면, 모집단의 평균과 뽑은 표본들의 평균이 ..

신뢰구간이란 무엇인가요? 일반적으로, 우리가 모르는 정보에 대해서 통계를 통해 추론을 하는 경우, 모집단을 전부 조사할 수 없는 경우가 대부분이다. 이 경우에는 모집단에서 특정 표본들만을 랜덤으로 추출하여 이것을 통계적인 기법들을 통해서 모집단의 정보를 추론하게 되는데, 이 때, 사용되는 것이 신뢰구간에 대한 개념이다. 신뢰 구간(Confidence Interval, CI) 표본을 추출하게 되면, 표본에 대한 평균을 구할 수 있게 된다. 하지만, 표본의 평균이 모집단의 평균과 얼마나 비슷할지, 혹은 얼마나 떨어져있을 지에 대해서는 모집단의 평균을 알지 않는 이상은 알아낼 수가 없다. 대부분의 경우에서는 표본 평균은 모평균을 중심으로 정규분포의 형태를 띄고 있다(이것에 대한 이유는 중심극한정리를 통해서 알..
Question. 샘플링과 리샘플링에 대해 설명해주세요. 리샘플링은 어떤 장점이 있을까요? Sampling 샘플링이란 표본 추출을 의미한다. 모집단을 전부 조사하는 것이 실질적으로 가능한 경우가 많이 존재하지 않기 때문에, 모집단 전체에 대한 추정치(estimate)을 얻기 위해 모집단에서 임의로 표본(Sample)들을 추출한다. 이렇게 추출한 표본들을 통해서 모집단에 대한 추론(inference)이 가능해진다. 데이터 샘플링 방식 확률적 샘플링과 비확률적 샘플링 2가지로 샘플링 방식을 크게 나눌 수 있다. 확률적 샘플링 : 무작위로 샘플링 하는 방법 단순 랜덤 샘플링(Simple Random Sampling) 층별 샘플링(Stratified Random Sampling) 군집/집락 샘플링(Cluster..