AIMS Study Blog

빅데이터와 정규성 검정 본문

통계

빅데이터와 정규성 검정

hannn 2023. 3. 18. 18:02

정규성 검정이란?

 

정규성 검정은, 말 그대로 분석을 위해 수집된 데이터(표본 자료) 분포가 정규 분포를 만족하는 지를 알아보기 위한 통계 검정기법이다.

 

  • 귀무 가설 : 정규분포의 모양과 표본 자료들의 분포가 동일한 분포를 가지고 있다.
  • 대립 가설 : 정규분포의 모양과 표본 자료들의 분포가 동일한 분포를 가지고 있지 않다.

이므로, 정규성 검정을 통해서 얻은 p-value는 유의 수준(통상적으로는 0.05)보다 커야한다.

일반적으로는 Kolmogorov-Smirnov와 Shapiro-Wilk test 두가지를 사용한다.

 

Kolmogorove-Smirnov test는 주로 표본수가 2000이 넘는 데이터에 대해서 적합한 정규성 검정이고

Shapiro-Wilk test는 표본수가 2000이 넘지 않는 데이터에 대해서 적합한 정규성 검정이다.

 

 

그렇다면 실제로 빅데이터 시대에는 정규성 테스트가 의미를 가지고 있지 않은가?

 

정규성 테스트가 의미가 없다고 볼 수는 없을 것 같다. 왜냐하면, 여러가지 통계 기법, 머신러닝, 딥러닝 기법들 중에서 데이터의 분포를 정규 분포라고 가정하고 진행이 되는 것들이 많이 존재하기 떄문이다. 하지만, 반대로, 정규성 검증만을 맹신할 수는 없다. 가장 일반적으로 사용하는 Kolmogorov-Smirnov와 Shapiro-Wilk test는 엄격한 기준을 가지고 있다.

 

결과가 귀무가설을 기각하더라도 아예 분석 자체를 진행할수 없는 상황은 아니다. 대부분의 연구에서 정규성 검정을 통해서 실질적으로 알아보기 위한 것은 데이터 분포가 정규 분포를 따른다는 것보다는 해당 데이터의 평균이 실제로 이 데이터들을 대표하여 사용하기에 적절한지를 판단하는 것으로써 더 많이 사용된다. 위에서 언급한 두 테스트는 평균쪽에 데이터가 몰려있는지, 좌우 대칭이 맞는지, 이상치가 없는지 등에 대해서도 통계적으로 확인을 한다. 즉, 우리가 실질적으로 여러 통계 기법들이 적용되고 연구가 진행될 수 있는 조건에 있는지를 알아보는 기준보다 엄격한 테스트인 것이다.

 

그렇다면, 우리는 정규성 테스트와 함께 다른 방법들을 통해서, 표본 데이터가 정규 분포를 따르는지에 대해서 확인을 해야한다. 그 방법으로는

 

  1. 정규성 검정
  2. 히스토그램 분포를 확인
  3. 왜도, 첨도 등을 통한 판단

이 있다.

 

 

 

Ref

https://blog.naver.com/PostView.naver?blogId=egoism2002&logNo=222348179768

https://bioinformaticsandme.tistory.com/37

Comments