일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | 5 | ||
6 | 7 | 8 | 9 | 10 | 11 | 12 |
13 | 14 | 15 | 16 | 17 | 18 | 19 |
20 | 21 | 22 | 23 | 24 | 25 | 26 |
27 | 28 | 29 | 30 | 31 |
- Self-attention
- 통계
- 확률
- 공분산
- 고유값
- 데이터분석면접
- 상관계수
- 통계면접
- 확률모형
- 모집단
- 조건부확률
- 표본
- 검정력
- 검정
- 평균
- 리샘플링
- 모평균
- 확률밀도함수
- 고유벡터
- 데이터분석
- 누적분포함수
- 신뢰구간
- 베타분포
- 샘플링
- p-value
- 확률변수
- 확률분포
- 선형대수
- Transformer
- ViT
- Today
- Total
AIMS Study Blog
p-value에 대해서 본문
통계 면접 질문 두 가지를 가지고 왔습니다.
- p-value를 고객에게는 뭐라고 설명하는 게 이해하기 편할까요?
- p-value는 요즘 시대에도 여전히 유효할까요? 언제 p-value가 실제를 호도하는 경향이 있을까요?
이 두 질문은 p-value에 관한 질문입니다. 두 질문 모두 p-value에 대한 통계적인 자세한 내용보다는, 실용적인 측면에서의 질문 느낌이 납니다. 그래도 p-value에 대해서 정확히 알아야 위 두 질문에 대답할 수 있을 것입니다. 따라서 우선적으로 p-value에 대해서 알아보겠습니다.
p-value의 p는 다름이 아닌 probability의 p입니다. 즉, 확률 값이 p-value입니다. 무엇의 확률 값인지가 중요합니다. 이 무엇을 알기 위해서는 통계적 가설 검정을 짚고 넘어가야 합니다. 통계학에서 빼먹을 수 없는 것이 바로 표본을 통해 모집단을 추정하는 것입니다. 그런데 표본만으로 모집단의 정확한 모수를 알아내는 것은 어렵기 때문에 여러가지 통계적 추정 기법들이 존재합니다. 우리는 모집단에 대한 추정을 위해 모집단에 대한 가설을 세웁니다. 예컨대, "A라는 모집단의 평균은 5이다"라는 가정처럼 말입니다. 그런데 그 가설이 맞는지 틀린지 진위 여부가 애매합니다. 단순히 표본의 평균이 5정도 나왔기 때문에 해당 가설은 맞다라고 판단할 수 있을까요? 그래서 통계적으로 해당 가설을 "검정"할 수 있는 방법을 만듭니다.
위에서 든 가설의 예시로 확장시켜 보겠습니다. 우리가 알고 있는 것은 모집단에서 추출한 표본의 평균, 표본의 크기, 표본의 표준편차입니다. 당연히 모집단의 평균을 모르기 때문에 가설을 세웁니다. "모집단의 평균은 5일 것이다." 라는 가설을 다음과 같이 수식으로 표현하겠습니다.
N은 표본의 크기,x_bar는 표본의 평균, S는 표본위 표준 편차입니다. H0는 귀무가설이라고 합니다. 즉, 검정하고자 하는 가설을 말합니다. 그 반대의 가설인 H1이 대립가설입니다. 우리는 귀무설이 통계적으로 유의한지 검정합니다. 즉, 귀무가설이 채택되면 모집단의 평균이 5일 것이라는 가설이 맞을 가능성이 높아지는 것입니다. 반대로 귀무가설이 기각이 된다면, 모집단의 평균이 5라는 가설은 틀린 가설이 되어버립니다.
이때 나오는 개념이 p-value입니다.
p-value는 쉽게 말해 귀무가설이 참일 확률이라고 할 수 있겠습니다. 조금 자세히 말하자면 귀무가설이 참이라는 가정 하에 얻는 검정통계량이 귀무가설을 얼마나 지지하는지를 나타내는 확률입니다.
해당 예시에서 검정통계량은 다름아닌 표본평균에서 가설의 파라미터인 5를 뺀 값에 비례하는 값입니다. 즉, 위에서는 7-5로 2가 되겠습니다.
우리는 직관적으로 검정통계량이 작을수록 가설이 지지된다는 것을 느낄 수 있습니다. 검정통계량의 수식은 다음과 같습니다.
두 평균과의 차이에 S와 N이 포함된 것을 나눠줍니다. 간단히 해석하자면, 표본의 표준편차가 클수록 패널티의 역할, 표본의 크기는 클수록 좋습니다.
여기서 드는 질문은 그렇다면 T값이 얼마나 커야 귀무가설을 기각하고, 얼마나 작아야 귀무가설이 참인지가 애매합니다. 이때 검정통계량이 얼마나 큰지를 보여주는 통계적인 수치가 바로 p-value가 되겠습니다.
이 검정통계량 T가 어떤 분포를 따르는지만 알면 됩니다. 케이스별 분포는 통계학자들이 다 밝혀놨습니다. 위의 예시의 경우 단일 집단의 모평균에 대한 가설검정으로, T분포를 따른다고 알려져 있습니다.
결국 검정통계량이 따르는 T분포상에서 확률 분포의 확률변수가 T보다 클 확률이 p-value이고, 일반적으로 0.05 또는 0.01보다 작을 경우 기각합니다. 그만큼 가설의 평균과 표본의 평균의 차이가 크다는 뜻이기 때문입니다.
위에서 p-value에 대해 알아보았습니다. 이제 앞에서 언급한 면접 질문 두 가지에 대해 답해보겠습니다.
1. p-value를 고객에게는 뭐라고 설명하는 게 이해하기 편할까요?
아마 고객이라 함은, 통계를 잘 모르는 일반인이라고 생각이 됩니다. 그에 맞게 설명을 하자면,
"어떤 집단의 통계적 특징을 알아보고 싶은데, 전체에 대한 데이터 확보가 어려운 경우, 전체 중 일부만을 뽑아서 측정한 통계적 특징을 가지고 전체 집단의 특징을 추정할 때 세운 가설을 지지하는 확률이다" 정도로 설명하면 될 듯 합니다.
2. p-value는 요즘 시대에도 여전히 유효할까요? 언제 p-value가 실제를 호도하는 경향이 있을까요?
일부 한계점은 있겠지만, 논문 작성 시 통계적 유의성을 나타내고자 할 때 유효한 것으로 알고 있습니다.
참고:
https://www.youtube.com/watch?v=tpow70KGTYY&t=1238s
'통계' 카테고리의 다른 글
P-value의 유효성 (0) | 2023.02.13 |
---|---|
p-value는 정말로 유효할까? (0) | 2023.02.12 |
p-value 고객에게 설명하기 (0) | 2023.02.11 |
p-value가 여전히 유효할까? (0) | 2023.02.09 |
p-value 쉽게 설명하기 (0) | 2023.02.08 |