통계
빅데이터와 정규성 테스트
hyenzzang
2023. 3. 15. 22:49
Q. 요즘같은 빅데이터 시대에는 정규성 테스트가 의미 없다는 주장이 있습니다.
맞을까요?
정규성 테스트
- 정규성 검정이란, 데이터셋의 분포가 정규분포를 따르는지를 검정하는 것이다.
- t-test와 같은 여러 검정법들이 데이터의 정규분포를 가정하고 수행되기 때문에, 데이터의 정규성을 확인하는 과정이 필요하다.
- 정규성 검정의 종류
- Shaprio-Wilks test
- 표본수(N)가 2000 미만인 데이터셋에 적합한 정규성 검정이다.
- Kolmogorove-Smirnov test
- 표본수(N)가 2000 초과인 데이터셋에 적합한 정규성 검정이다.
- Quantile-Quantile plot
- 데이터셋이 정규분포를 따르는지 판단하는 시각적 분석 방법이다.
- Shaprio-Wilks test
빅데이터에서의 정규성 테스트
- 빅데이터의 경우 정규성 검정의 결과를 무조건적으로 신뢰해서는 안 되는데, 이는 샘플 수가 많을 수록 p-value가 작아져서 실제 데이터 분포와는 관계 없이 정규분포를 따르지 않는다는 결과를 얻을 수 있기 때문이다.
- p-value는 샘플 수가 늘어날 수록 작아지는 경향이 있다.
- 따라서 정규분포 형태의 데이터임에도 정규성 검정을 시행했을 때에 귀무가설을 기각할 수 있다.
Summary
- 정규성 검정이란 데이터셋의 분포가 정규분포를 따르는지 검증하는 방법이다. 빅데이터에서 정규성 검정을 하게 되면, p-value가 작아져서 분포와는 관계 없이 정규 분포를 따르지 않는다는 결과를 얻을 수 있기 때문에, 검정 결과를 무조건적으로 신뢰해서는 안 된다.