AIMS Study Blog

p-value 쉽게 설명하기 본문

통계

p-value 쉽게 설명하기

hannn 2023. 2. 8. 13:34

 

p-value를 고객에게는 뭐라고 설명하는 게 이해하기 편할까요?

 

 

p-value는 귀무가설(Null Hypothesis)가 맞다는 전제 하에, 통계값이 실제 관측한 값 이상일 확률을 의미한다. 

 

하지만, 이는 수학을 잘 아는 사람에게는 이해가 될 수 있을진 모르지만, 통계 관련 지식이 없는 사람에게 p-value를 어떻게 해야 잘 설명할 수 있을지 고민해보았다. 

 

 

왜 모분포를 추정해야 하는가?

p-value를 구하는 것은 전체 집단(모집단)에서 랜덤하게 표본(sample)을 뽑아서 모집단의 평균을 추정하기 위해서이다. 그러면, "처음부터 모집단을 전부 조사해서(전수 조사) 통계값(평균, 분산 등)을 구하면 되는 것이 아닌가?"라는 의문이 들 수 있다. 하지만, 현실에서는 여러 제약 조건(비용, 시간 문제 등)들이 존재하고, 그러한 제약 조건들로 인해서 전부 조사를 할 수 없는 경우가 많다. 

 

랜덤하게 표본들을 뽑아서 표본의 평균을 구할 수 있다. 하지만, 실질적으로 사람들이 알고 싶어 하는 것은 모집단의 평균이다. 따라서, 우리가 실질적으로 구할 수 있는 표본들의 평균을 이용하여 모집단의 평균을 추정하고, 이 때, 추정한 모집단의 평균이 얼마나 타당한지를 판단하는 척도로 p-value를 사용하게 된다. 

 

 

 

 

모집단 평균 추정 

모집단의 평균은 가설로 먼저 설정한다. 예를 들어, "전국 수험생들의 수리 영역 점수의 평균은 80점이다." 라는 가설(통계적으로는 귀무 가설, Null Hypothesis)을 먼저 설정하게 된다. 그리고, 표본들의 평균과 비교를 하는데, 이 때 가설로 설정한 모집단의 평균과 표본들의 평균이 크게 차이가 난다면, 가능성은 2가지가 존재한다. 

 

1. 설정한 가설이 맞지 않는다.(가설 기각)

2. 표본들이 대부분 극단적인 값들로 이루어져 있다.

 

 

2번 경우 보다는 1번의 경우가 가능성이 더 큰 것을 어렵지 않게 이해할 수 있다. 따라서, 표본의 평균이 우리가 설정한 가설에서의 평균과 차이가 많이 날수록 우리가 설정한 가설이 틀렸을 확률이 커진다고 보게 되는 것이다. 

 

 

p-value에서는 일단 우리가 세운 가설이 맞다고 가정을 한다. 이후에, 우리가 계산한 표본 평균이 얼마나 극단적인 값(실제로는 계산된 표본 평균 혹은 표본 평균보다 더 극단적인 값이 나올 확률)인지 계산을 한다. 만약, 현재 가지고 있는 표본 평균보다 극단적인 값이 나올 확률이 일정 기준(유의 수준, 통상적으로는 이 기준을 0.05, 0.01로 둔다.)보다 낮다면 이미 우리가 가지고 있는 표본 평균이 전제된 가정하에서 극단적인 값이라는 것을 의미하게 된다. 그렇다면 아까 1의 경우를 생각해서 설정한 가설이 맞지 않음을 보이고, 우리가 세웠던 가설을 기각하게 되는 것이다. 

 

따라서 p-value는 귀무가설(Null Hypothesis)가 맞다는 전제 하에, 통계값이 실제 관측한 값 이상일 확률을 의미한다.

 

 

 

ref. 

https://adnoctum.tistory.com/332

'통계' 카테고리의 다른 글

p-value 고객에게 설명하기  (0) 2023.02.11
p-value가 여전히 유효할까?  (0) 2023.02.09
p-value란?  (0) 2023.02.08
신뢰 구간(Confidence Interval;CI)란?  (1) 2023.02.05
신뢰구간이란  (0) 2023.02.05
Comments