목록통계 (101)
AIMS Study Blog
Q.R square 의 의미는 무엇일까요? 결정계수 (R square)는 회귀모델에서 독립변수가 종속변수를 얼마나 잘 설명하는지를 나타내는 성능 평가 척도 중 하나이다. 결정계수는 클 수록 좋으며, 1에 가까울 수록 독립변수가 종속변수를 잘 설명할 수 있다는 뜻이다. 결정계수는 아래와 같은 식으로 표현할 수 있다. SST (Total Sum of Squares) 먼저 SST는 관측값 y_i에서 관측값의 평균을 뺀 값의 제곱합이다. SSE (Explained Sum of Squares) SSE는 예측값 y_hat_i 에서 관측값 평균을 뺀 값의 제곱의 총합이다. SSR (Residual Sum of Squares) SSR은 관측값 y_i에서 예측값 y_hat_i를 뺀 값의 제곱합, 즉 잔차제곱합이다. 추가..
P-value는 항상 유효한가? 유효하지 않을 때는 언제인가? P-value를 사용할 때에는 적절한 표본의 개수가 필요합니다. 데이터가 많아질수록 P-value가 작아지는 경향을 보이기 때문에, 이를 고려해야 합니다. 또한, 여러 항목들을 비교하게 되면, 낮은 P-value 값이 나올 확률이 높고, 표본들의 구성이 한쪽으로 치우쳐져 있다면, P-value를 구하더라도, 변수들간의 관계를 정확하게 반영하지 못할수도 있습니다. 교란 변수, 즉 두 변수에 모두 영향을 미치지만, 우리가 알고 싶어하는 정보와 상관이 없는 요소가 존재하는 경우에는 이 교란변수의 영향을 통제하는 작업을 해야 하는데, 만약 하지 않았다면, P-value의 결과가 교란 변수의 영향인 것인지, 아니면 오직 두 변수의 관계를 통해서 나온 ..
p-value는 요즘 시대에도 여전히 유효할까요? 언제 p-value가 실제를 호도하는 경향이 있을까요? 앞선 포스팅에 설명했듯이, 가설검정을 하기 위해 통계학에서 p-value를 계산한다. 또한 이 값을 이용해 가설의 채택유무를 정한다. 통상적으로 0.05값보다 작으면 유의하다고 간주한다. p-value의 한계와 악용 p값에는 한계가 여럿 존재하는데, 흔히 알려진 p-value의 한계점은 다음과 같이 두가지가 있다. 첫째, 관측치가 많을수록 p값이 작아진다는 것이다. 표본의 크기가 매우 크면 p값은 작게 나올 수 있다. 임계값에 도달하기 위해서 일부러 관측치를 증가시켜, 억지로 유의하게 만드는 방법이 있다. 이로써 빅데이터 분석에서는 p값이 제 역할을 할 수 없다. 둘째, 선택적으로 p-value와 통..

통계 면접 질문 두 가지를 가지고 왔습니다. - p-value를 고객에게는 뭐라고 설명하는 게 이해하기 편할까요? - p-value는 요즘 시대에도 여전히 유효할까요? 언제 p-value가 실제를 호도하는 경향이 있을까요? 이 두 질문은 p-value에 관한 질문입니다. 두 질문 모두 p-value에 대한 통계적인 자세한 내용보다는, 실용적인 측면에서의 질문 느낌이 납니다. 그래도 p-value에 대해서 정확히 알아야 위 두 질문에 대답할 수 있을 것입니다. 따라서 우선적으로 p-value에 대해서 알아보겠습니다. p-value의 p는 다름이 아닌 probability의 p입니다. 즉, 확률 값이 p-value입니다. 무엇의 확률 값인지가 중요합니다. 이 무엇을 알기 위해서는 통계적 가설 검정을 짚고 넘..
Q. p-value를 고객에게는 뭐라고 설명하는 게 이해하기 편할까요? 1. p-value의 의미 간단하게 설명하자면, Probability-value의 줄임말로 확률 값을 뜻하며 어떤 사건이 우연히 발생할 확률을 말한다. 예를 들어 p값이 0.05보다 작다는 것은 어떤 사건이 우연히 일어날 확률이 5%보다 작다는 의미이다. 두 표본 집단의 특징값의 평균이 통계적으로 유의한 차이가 있는지 검증할 때, 이 두 표본 집단으로부터 검정 통계량(t-value 등)을 계산해 낼 수 있다. p-value는 여기서 검정 통계량에 대한 확률인데, 위의 검정 통계량보다 크거나 같은 값을 얻을 수 있는 확률을 의미한다. 데이터에 있는 두 표본 집단이 같은 모집단에서 나왔을 때, 이 검정 통계량이 얼마나 말이 되는지 판단하..
Q. p-value는 요즘 시대에도 여전히 유효할까요? 언제 p-value가 실제를 호도하는 경향이 있을까요? p-value는 귀무가설이 맞다고 가정할 때 얻은 결과보다 극단적인 결과가 실제로 관측될 확률이다. 귀무가설: 통계분석에서 검증하는 가설 대립가설: 새로운 주장 p-value가 작을 수록 관찰된 데이터가 귀무가설과 양립하는 정도가 약하다고 볼 수 있으며 0.05 보다 작을 경우 귀무가설을 관례이다. 그러나 p-value는 몇 가지 한계를 가지고 있다. 관측치가 많아질 수록 p-value 가 작아진다. 관측치를 일부러 많이 증가시켜 유의하게 만드는 경우가 있다. 따라서 빅데이터 분석이 많이 이루어지고 있는 요즘 시대에서의 통계적 유의성을 판단하기 위해 p-value를 사용하는 것은 좋지 않다. 신..
p-value를 고객에게는 뭐라고 설명하는 게 이해하기 편할까요? p-value는 귀무가설(Null Hypothesis)가 맞다는 전제 하에, 통계값이 실제 관측한 값 이상일 확률을 의미한다. 하지만, 이는 수학을 잘 아는 사람에게는 이해가 될 수 있을진 모르지만, 통계 관련 지식이 없는 사람에게 p-value를 어떻게 해야 잘 설명할 수 있을지 고민해보았다. 왜 모분포를 추정해야 하는가? p-value를 구하는 것은 전체 집단(모집단)에서 랜덤하게 표본(sample)을 뽑아서 모집단의 평균을 추정하기 위해서이다. 그러면, "처음부터 모집단을 전부 조사해서(전수 조사) 통계값(평균, 분산 등)을 구하면 되는 것이 아닌가?"라는 의문이 들 수 있다. 하지만, 현실에서는 여러 제약 조건(비용, 시간 문제 등..
p-value를 고객에게는 뭐라고 설명하는 게 이해하기 편할까요? p-value는 어떤 사건이 우연히 발생할 확률을 뜻한다. 예를 들어, p-value가 0.05보다 작다는 것은, 어떤 사건이 우연히 일어날 확률이 5%보다 낮다는 의미이다. 반대로 p-value가 0.05보다 크면 우연히 발생한 사건이라고 볼 수 있다. A라는 주머니 안에 1이 19개가 있고, 2가 1개 있다고 가정해보자. 또한 B라는 주머니에는 1이 1개 있고 2는 19개 있다고 가정하자. 어떤 숫자를 뽑았을 때 그 숫자가 2라면, 과연 A에서 나온 것일까, B에서 나온 것일까? 답은 알 수 없지만 확률은 측정할 수 있다. 2가 A에서 나왔을 확률은 1/20이고, B에서 나왔을 확률은 19/20이다. 따라서, A보다는 B에서 나왔을 것..

- 신뢰구간이란? 모수가 실제로 포함될 것으로 예측되는 범위이며, 표본들을 추출했을 때 그 표본들을 기반으로 모수의 범위를 추정하기 위해 사용된다. 신뢰구간의 수식은 아래와 같다. 수식에 따르면 n이 커질 수록(표본의 크기가 커질 수록), 신뢰구간은 더 좁아짐을 알 수 있다. => 신뢰도 높은 추정 값 제공 집단 전체의 샘플을 추출하는 것은 불가능하므로, 표본을 기반으로 모수의 범위를 추정할 수 있다.

우리는 통계적인 방법으로 표본을 통해 모집단을 추정합니다. 주로 모집단 전체를 확보하기에 어려움이 따른다는 것이 이유입니다. 모집단을 추정한다는 것은 모집단의 평균과 같은 모수를 추정한다는 것과 같은 말이 되겠습니다. 그런데 그 모수의 정확한 값을 알아내는 것은 쉬운 일이 결코 아닙니다. 다만 추정 시 모수가 대충 어디쯤 있겠다 정도의 정보 정도는 통계적 방법으로 얻을 수 있습니다. 이것이 신뢰구간입니다. 신뢰구간은 모수가 포함되어 있을 것이라 예측되는 범위입니다. 그리고 신뢰구간의 신뢰수준이라는 것이 있습니다. 이것은 몇 퍼센트로 해당 구간 안에 모수가 있는지를 나타냅니다. 예컨대 95%의 신뢰수준을 갖는다면 95%의 확률로 신뢰구간 안에 모수가 존재할 것입니다. 일반적으로 95%나 99%의 신뢰수준을..