일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | ||||
4 | 5 | 6 | 7 | 8 | 9 | 10 |
11 | 12 | 13 | 14 | 15 | 16 | 17 |
18 | 19 | 20 | 21 | 22 | 23 | 24 |
25 | 26 | 27 | 28 | 29 | 30 | 31 |
- 모집단
- 데이터분석면접
- 통계면접
- 확률
- 신뢰구간
- p-value
- 상관계수
- 확률분포
- 데이터분석
- 공분산
- 확률모형
- Self-attention
- Transformer
- ViT
- 모평균
- 리샘플링
- 베타분포
- 샘플링
- 고유벡터
- 누적분포함수
- 통계
- 표본
- 확률밀도함수
- 검정력
- 선형대수
- 평균
- 조건부확률
- 고유값
- 검정
- 확률변수
- Today
- Total
AIMS Study Blog
샘플링과 리샘플링 본문
Q. 샘플링과 리샘플링에 대해 설명해주세요. 리샘플링은 무슨 장점이 있을까요?
1. 샘플링이란?
샘플링이란 표본추출을 의미하는 것으로,
모집단 전체에 대한 추정치(estimate)을 얻기 위해 모집단에서 임의의 sample을 뽑아내는 것이다. 여기서 모집단 전체에 대한 조사는 사실상 불가능하기 때문에 일부를 뽑아내어 sample을 이용해 모집단에 대한 추론을 진행하며 이를 샘플링이라 한다. 그러나 샘플링을 아무리 잘 진행해도 모집단 그 자체일 수는 없고, 표본에는 반드시 원래의 패턴에서 놓치는 부분, noise가 존재할 수 밖에 없다. 이를 보정하기 위해서 리샘플링을 사용한다.
2. 리샘플링이란?
일부의 표본추출로는 모집단의 분포 형태를 정확하게 알 수 없을 때 사용하는 방법이다. 보유한 샘플들에서 다시 샘플 부분집합을 뽑아 통계량의 변동성(variablility of statistics)을 확인하게 되며, 이 방법을 리샘플링이라 한다. 즉, 같은 샘플을 여러 번 사용해서 성능을 측정하는 방식이다.
대표적인 예시로 k-fold 교차검증, bootstrapping 기법이 있다.
- K-Fold Cross Validation : Sampling한 데이터를 K개의 부분 집합으로 나누고, 그 중 하나를 validation set으로 사용하고 나머지를 train set으로 사용하는 방식
- Bootstraping : Sampling된 데이터셋에서 일부 데이터를 sampling하여 새로운 데이터셋을 만들고, 새로운 데이터셋의 크기가 원래의 데이터셋의 크기와 같아질 때 까지 원래의 데이터셋에서 새로운 데이터셋에 데이터 하나씩을 복사해서 넣는 과정을 반복. 이 때 중복은 허용하며, 원래 데이터셋의 데이터중 새로운 데이터셋에 포함되지않은 데이터들은 test set으로 활용.
3. 리샘플링의 장점
리샘플링은 표본을 추출하면서 원래 데이터 셋을 복원하기 때문에 이를 통해서 모집단의 분포에 어떤 가정도 필요 없이 표본만으로 추론이 가능하다는 장점이 있다.
Summary
샘플링은 표본추출을 뜻하는 것으로, 모집단 전체에 대한 추정치를 얻기 위해 모집단에서 임의의 sample을 뽑는 것을 뜻함
리샘플링은 보유한 샘플들에서 다시 샘플을 뽑아 통계량의 변동성을 확인하는 방법이다. 이는 통계적인 신뢰도를 높일 수 있고, 모집단의 분포에 어떠한 가정도 필요 없이 표본만으로 추론이 가능하다는 장점이 있다.
Referance
'통계' 카테고리의 다른 글
샘플링, 리샘플링의 개념 (0) | 2023.01.15 |
---|---|
고유값, 고유벡터의 개념 및 중요성 (0) | 2023.01.15 |
고유값(eigenvalue)과 고유벡터(eigenvector) (1) | 2023.01.14 |
고유값과 고유 벡터에 대한 설명과 중요성 (0) | 2023.01.14 |
고유값, 고유 벡터의 개념과 중요성 (1) | 2023.01.14 |