AIMS Study Blog

신뢰 구간 (Confidence Interval) 본문

통계

신뢰 구간 (Confidence Interval)

hannn 2023. 2. 2. 15:04
신뢰구간이란 무엇인가요?

일반적으로, 우리가 모르는 정보에 대해서 통계를 통해 추론을 하는 경우, 모집단을 전부 조사할 수 없는 경우가 대부분이다. 이 경우에는 모집단에서 특정 표본들만을 랜덤으로 추출하여 이것을 통계적인 기법들을 통해서 모집단의 정보를 추론하게 되는데, 이 때, 사용되는 것이 신뢰구간에 대한 개념이다.

 

 

신뢰 구간(Confidence Interval, CI)

 

표본을 추출하게 되면, 표본에 대한 평균을 구할 수 있게 된다. 하지만, 표본의 평균이 모집단의 평균과 얼마나 비슷할지, 혹은 얼마나 떨어져있을 지에 대해서는 모집단의 평균을 알지 않는 이상은 알아낼 수가 없다.

대부분의 경우에서는 표본 평균은 모평균을 중심으로 정규분포의 형태를 띄고 있다(이것에 대한 이유는 중심극한정리를 통해서 알 수 있다.). 정규분포에서는 평균 -2 * 표준편차 ~ 평균 + 2 * 표준오차의 범위가 95%에 달한다는 것을 계산을 통해서 알 수 있다.

 

이 말은 표본을 뽑아서 표본들의 평균을 계산했을 때, 그것이 모평균과의 오차가 (2 * 표준 오차) 보다 작을 확률이 95%이라는 것이다. 하지만, 우리가 모집단의 평균을 알 지 못하는 이상 이 정보는 무의미해 보인다. 여기에서 관점을 바꾸어서 중심을 모집단의 평균이 아닌 우리가 방금 계산한 표본들의 평균이라고 보면, 이 표본 평균에서 모평균이 (2 * 표준오차) 이내에 존재할 확률이 95%라고 말할 수 있게 된다.

 

 

그렇게 되면, 우리가 랜덤하게 뽑은 표본들의 평균을 통해서 모집단의 평균이 95%의 확률로 어느 구간내에 있다고 말 할 수 있게 된다. 여기에서 어느 구간이라고 하는 것은 (표본 평균 - 2표준오차 ~ 표본 평균 + 2표준오차)를 의미한다.

 

 

 

표준 오차 (Standard Error of Mean, SEM)

 

그렇다면, 표본의 개수와 상관없이 표본 평균에서 항상 특정 범위 이내에 모평균이 분포할 확률이 동일할까? 생각을 해보면 알겠지만, 표본의 개수가 모집단의 크기와 비슷해질수록 표본 평균이 모집단의 평균과 점점 더 가까워질 확률이 커진다는 것을 알 수 있다. 이를 반영하여 계산을 하게되는데, 이 역할을 해주는 것이 위에서 언급한 표준오차(SEM)이다. 표준 오차는 다음의 식으로 계산된다.

 

 

sigma는 모집단의 표준편차를 의미하며, n은 표본의 크기를 의미한다. 모집단의 표준편차를 n의 제곱근으로 나누면 표본 평균의 표준오차가 된다. 모집단의 표준편차는 변하지 않는 값이므로, n이 커질수록 분모의 값이 커지게 되면서 표준오차의 값은 작아진다. 그렇게 되면 95% 신뢰 구간의 총 길이인 (4 * 표준오차)가 n이 커질수록 구간은 좁아진다고 볼 수 있다. (신뢰도가 95%가 아닌 90%, 99% 등에 대해서도 동일하게 적용된다.)

 

 

 

Answer

신뢰 구간은 모집단의 평균을 알 수 없는 상황에서 표본들을 추출하여, 표본 평균으로부터 특정 확률로 일정 구간 내에 모집단의 평균이 존재하고 있음을 알려준다. 또한, 이 길이는 신뢰도 95% 기준으로 했을 때 4 * 표준 오차인데, 표준 오차는 모표준편차에서 표본 크기의 제곱근으로 나눠준 값이므로, 표본들의 개수가 증가할 수록 신뢰 구간은 작아진다.

 

 

 

 

ref

https://angeloyeo.github.io/2021/01/05/confidence_interval.html

https://www.datadata.link/qa47/

'통계' 카테고리의 다른 글

신뢰 구간 (Confidence Interval)  (0) 2023.02.05
공분산(Covariance)과 상관계수(Correlation coefficient)  (0) 2023.02.04
공분산과 상관계수  (0) 2023.02.01
공분산과 상관계수  (0) 2023.02.01
신뢰구간이란?  (0) 2023.01.31
Comments