일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | ||||
4 | 5 | 6 | 7 | 8 | 9 | 10 |
11 | 12 | 13 | 14 | 15 | 16 | 17 |
18 | 19 | 20 | 21 | 22 | 23 | 24 |
25 | 26 | 27 | 28 | 29 | 30 | 31 |
- 검정
- 데이터분석면접
- ViT
- 데이터분석
- p-value
- Self-attention
- 리샘플링
- 고유벡터
- 공분산
- 확률
- 모집단
- Transformer
- 확률변수
- 통계면접
- 샘플링
- 검정력
- 평균
- 표본
- 신뢰구간
- 상관계수
- 선형대수
- 통계
- 조건부확률
- 베타분포
- 고유값
- 모평균
- 확률모형
- 누적분포함수
- 확률밀도함수
- 확률분포
- Today
- Total
AIMS Study Blog
샘플링, 리샘플링의 개념 본문
샘플링과 리샘플링에 대해 설명해주세요. 리샘플링은 무슨 장점이 있을까요?
샘플링(Sampling)이란?
데이터를 분석할 때, 우리는 모집단 전체에 대해 조사하는 것이 사실상 불가능하다. 그렇기 때문에 모집단에서 일부만 사용하여 모집단의 패턴을 최대한 나타낼 수 있어야 한다.
이를 위해 모집단의 일부인 표본만 추출하는데, 이를 샘플링(sampling)이라고 한다.
샘플링을 통해 얻은 표본으로 모집단 전체에 대한 추정치를 얻을 수 있으면 좋겠지만 현실적으로는 한계가 있다.
모집단의 일부만 사용하기 때문에 모집단의 경향을 온전하게 나타낼 수 없으며, 이러한 모집단과의 차이는 노이즈로써 작용한다.
이를 보완하기 위해 제안되는 방법이 리샘플링(resampling)이다.
그렇다면 리샘플링은 무엇일까?
리샘플링(Resampling)이란?
리샘플링(resampling)은 갖고 있는 샘플들에서 부분집합을 뽑아 통계량의 변동성(variability of statistics)를 확인하는 방법이다.
즉, 같은 샘플을 여러 번 사용해서 성능을 측정하는 방식으로, k-fold cross validation, bootstrapping 등이 있다.
리샘플링은 반복적으로 추출한 서로 다른 샘플 집합을 이용하여 분석을 가능하게 함으로써 모집단에 대한 추정치에 보다 엄밀하게 접근할 수 있다.
리샘플링을 통해 표본을 추출하면 데이터셋을 복원할 수 있기 때문에 모집단의 분포 형태를 알 수 없을 때 표본만으로 근사한 추론을 할 수 있다는 장점이 있다.
요악하자면,
샘플링과 리샘플링 모두 모집단을 대표하기 위한 표본을 추출하는 방법이다.
모집단의 일부만 사용하기 때문에 모집단 전체를 온전히 대표하다고 보기 어려운 샘플링(sampling)의 단점을 보완하여
리샘플링에서는 샘플들에서 부분집합을 추출하여 통계량의 변동성을 확인한다.
이를 통해 모집단 전체에 대한 추정치를 비교적 정확하게 구할 수 있다.
References
https://variety82p.tistory.com/entry/샘플링과-리샘플링?category=996031
https://kejdev.github.io/machinelearning/2021/01/25/sampling-resampling.html
'통계' 카테고리의 다른 글
확률 모형과 확률 변수의 개념 (0) | 2023.01.20 |
---|---|
확률변수와 확률모형 (0) | 2023.01.18 |
샘플링과 리샘플링에 대해 (0) | 2023.01.15 |
샘플링(Sampling)과 리샘플링(Resampling) (0) | 2023.01.15 |
고윳값(Eigenvalue), 고유벡터(Eigenvector에 대한 설명) (0) | 2023.01.15 |