Notice
Recent Posts
Recent Comments
Link
일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | ||||
4 | 5 | 6 | 7 | 8 | 9 | 10 |
11 | 12 | 13 | 14 | 15 | 16 | 17 |
18 | 19 | 20 | 21 | 22 | 23 | 24 |
25 | 26 | 27 | 28 | 29 | 30 | 31 |
Tags
- p-value
- 누적분포함수
- 모평균
- 상관계수
- 데이터분석
- 확률
- 확률모형
- 확률분포
- 평균
- 선형대수
- 통계면접
- 고유값
- 고유벡터
- 확률밀도함수
- 확률변수
- 모집단
- Transformer
- 표본
- 데이터분석면접
- 리샘플링
- 공분산
- Self-attention
- ViT
- 검정
- 신뢰구간
- 통계
- 조건부확률
- 샘플링
- 베타분포
- 검정력
Archives
- Today
- Total
AIMS Study Blog
빅데이터와 정규성 테스트 본문
Q. 요즘같은 빅데이터 시대에는 정규성 테스트가 의미 없다는 주장이 있습니다.
맞을까요?
정규성 테스트
- 정규성 검정이란, 데이터셋의 분포가 정규분포를 따르는지를 검정하는 것이다.
- t-test와 같은 여러 검정법들이 데이터의 정규분포를 가정하고 수행되기 때문에, 데이터의 정규성을 확인하는 과정이 필요하다.
- 정규성 검정의 종류
- Shaprio-Wilks test
- 표본수(N)가 2000 미만인 데이터셋에 적합한 정규성 검정이다.
- Kolmogorove-Smirnov test
- 표본수(N)가 2000 초과인 데이터셋에 적합한 정규성 검정이다.
- Quantile-Quantile plot
- 데이터셋이 정규분포를 따르는지 판단하는 시각적 분석 방법이다.
- Shaprio-Wilks test
빅데이터에서의 정규성 테스트
- 빅데이터의 경우 정규성 검정의 결과를 무조건적으로 신뢰해서는 안 되는데, 이는 샘플 수가 많을 수록 p-value가 작아져서 실제 데이터 분포와는 관계 없이 정규분포를 따르지 않는다는 결과를 얻을 수 있기 때문이다.
- p-value는 샘플 수가 늘어날 수록 작아지는 경향이 있다.
- 따라서 정규분포 형태의 데이터임에도 정규성 검정을 시행했을 때에 귀무가설을 기각할 수 있다.
Summary
- 정규성 검정이란 데이터셋의 분포가 정규분포를 따르는지 검증하는 방법이다. 빅데이터에서 정규성 검정을 하게 되면, p-value가 작아져서 분포와는 관계 없이 정규 분포를 따르지 않는다는 결과를 얻을 수 있기 때문에, 검정 결과를 무조건적으로 신뢰해서는 안 된다.
Reference
'통계' 카테고리의 다른 글
모수적 방법론과 비모수적 방법론 (0) | 2023.03.24 |
---|---|
빅데이터와 정규성 검정 (0) | 2023.03.18 |
Information Gain와 Entropy (1) | 2023.03.12 |
정보 엔트로피와 정보 이득(Information Gain) (0) | 2023.03.12 |
중심극한정리 (0) | 2023.02.27 |
Comments