AIMS Study Blog

빅데이터와 정규성 테스트 본문

통계

빅데이터와 정규성 테스트

hyenzzang 2023. 3. 15. 22:49
Q. 요즘같은 빅데이터 시대에는 정규성 테스트가 의미 없다는 주장이 있습니다.
맞을까요?

정규성 테스트

  • 정규성 검정이란, 데이터셋의 분포가 정규분포를 따르는지를 검정하는 것이다.
  • t-test와 같은 여러 검정법들이 데이터의 정규분포를 가정하고 수행되기 때문에,  데이터의 정규성을 확인하는 과정이 필요하다.
  • 정규성 검정의 종류
    • Shaprio-Wilks test
      • 표본수(N)가 2000 미만인 데이터셋에 적합한 정규성 검정이다.
    • Kolmogorove-Smirnov test
      • 표본수(N)가 2000 초과인 데이터셋에 적합한 정규성 검정이다.
    • Quantile-Quantile plot
      • 데이터셋이 정규분포를 따르는지 판단하는 시각적 분석 방법이다.

빅데이터에서의 정규성 테스트

  • 빅데이터의 경우 정규성 검정의 결과를 무조건적으로 신뢰해서는 안 되는데, 이는 샘플 수가 많을 수록 p-value가 작아져서 실제 데이터 분포와는 관계 없이 정규분포를 따르지 않는다는 결과를 얻을 수 있기 때문이다.
  • p-value는 샘플 수가 늘어날 수록 작아지는 경향이 있다.
  • 따라서 정규분포 형태의 데이터임에도 정규성 검정을 시행했을 때에 귀무가설을 기각할 수 있다.

Summary

  • 정규성 검정이란 데이터셋의 분포가 정규분포를 따르는지 검증하는 방법이다. 빅데이터에서 정규성 검정을 하게 되면, p-value가 작아져서 분포와는 관계 없이 정규 분포를 따르지 않는다는 결과를 얻을 수 있기 때문에, 검정 결과를 무조건적으로 신뢰해서는 안 된다.

Reference

https://bioinformaticsandme.tistory.com/37

https://esj205.oopy.io/5d8b9bd0-3b35-41c7-8597-9eacbfb0314b

'통계' 카테고리의 다른 글

모수적 방법론과 비모수적 방법론  (0) 2023.03.24
빅데이터와 정규성 검정  (0) 2023.03.18
Information Gain와 Entropy  (1) 2023.03.12
정보 엔트로피와 정보 이득(Information Gain)  (0) 2023.03.12
중심극한정리  (0) 2023.02.27
Comments