목록통계 (101)
AIMS Study Blog

검정력( Statistical Power)이란, 대립가설이 참인 경우에, 귀무가설을 기각하고 대립가설을 채택할 확률로 \(1 - \beta\)라고 표현한다. 검정력을 이야기할 때, \(\alpha\)와 \(\beta\)가 많이 사용된다. 먼저 이 두 기호가 사용되는 상황을 정리를 해보면, \(\alpha\)를 사용하는 경우 : 귀무가설이 참인 경우를 가정한다. \(\alpha\) : 귀무가설이 참일 때, 대립가설을 채택할 확률을 의미한다. 즉, Type 1 Error(False Positive)의 확률을 의미한다. \(1 - \alpha\) : 귀무가설이 참일 때. 귀무가설을 채택할 확률을 의미한다. (True Negative) \(\beta\)를 사용하는 경우 : 대립가설이 참인 경우를 가정한다. \(..
Q. missing value가 있을 경우 채워야 할까요? 그 이유는 무엇인가요? 결측치 (missing value)는 아래의 두 가지 과정을 거쳐 처리할 수 있습니다. 1. 결측치 종류 파악 완전 무작위 결측 (MCAR: Missing Completely At Random) 결측값이 변수의 성격과 전혀 무관하게 발생한 경우 자료 관측값과 결측값 모두 결측의 발생과 독립 즉, 결측치 발생에 그 어떠한 의도도 없는 상태이기에 결측치의 존재가 전혀 문제되지 않는다. 무작위 결측 (MAR: Missing At Random) 결측의 발생은 오로지 관측 값에 의해서만 설명되며 결측치 자체와는 독립일 거라고 가정한 상태 관측된 값으로부터 결측치를 추정하는 것이 가능하다. 결측값이 어떤 인과구조에 의해 발생한 것은 ..
검정력(statistical power)은 무엇일까요? 검정력 (Statistical power) 검정력은 대립가설이 참일 때, 올바르게 사실로 채택할 확률이다. 만약 검정력이 95%라면, 대립가설이 참임에도 귀무가설을 채택할 확률, 즉 2종 오류 (β)는 5%가 된다. 검정력이 좋아진다는 뜻은 2종 오류를 범할 확률이 낮아진다는 뜻이기도 하다. 따라서 검정력의 수치는 (1-β)로 나타낼 수 있다. 참고로, β(2종 오류)는 귀무가설이 거짓일 때 이를 채택하는 오류를 뜻한다. p(do not reject H0 | H0 is false) = β α (1종 오류)는 귀무가설이 참일 때 이를 채택하지 않는 오류를 뜻한다. p(reject H0 | H0 is true) = α 실험에서 유의하다고 결론내기 위해서..
베이지안과 프리퀀티스트의 차이는 무엇일까요? 프리퀀티스트 프리퀀티스트(Frequentist)는 확률을 빈도로써 정의하는 전통적인 확률론을 의미한다. 우리가 실험을 했을 때 우리가 모르는 확률 값에 의해서 결과가 나온다고 여겨지게 되는 것이다. 참된 확률 값은 정해져 있고, 우리는 이것을 가설 검정을 통해서 실질적으로 맞는지에 대해서만 검증을 한다. 베이지안 베이즈(Bayes) 이론은 새로운 증거나 정보가 주어졌을 때, 새로운 정보와 사전 확률(Prior)을 이용하여 사후 확률(Posterior) 계산을 통해서 이 정보를 토대로 원래의 확률을 수정한다. 일상생활에서 확률을 구하는 경우에는 명확한 확률 값을 계산할 수 있는 경우보다, 정보가 불완전하거나, 모호한 경우가 많다. 베이지안은 이런 부분을 고려하여..
베이지안과 프리퀀티스트간의 입장차이를 설명해주실 수 있나요? 베이지안 (bayesian)1이 나올 확률은 0과 1 사이의 임의의 값으로, 임의로 1/10이라 간주한다. (사전확률)실제로 주사위를 6,000번 던졌더니 그 중 992번이 1의 결과를 나타냈다. (데이터)새로운 데이터를 이용해서 사전확률을 수정한다. 새로운 확률은 992/6000이다. (사후확률)베이지안은 데이터를 얻기 전에 분포에 대한 사전 확률을 갖고 있으며 데이터를 얻게 되면 이를 통해 과거의 확률을 갱신하는 과정을 거쳐 참된 분포에 근접시킨다.베이지안은 과거의 사건이 현재의 사건에 영향을 미친다. 프리퀀티스트 (frequentist)주사위가 있을 때, 이 주사위를 던져서 1의 눈이 나올 확률은 1/6로 동일하다고 판단한다.이때, 프리퀀..
Q. 데이터가 적은 케이스의 경우 어떤 방식으로 예측 모델을 수립할 수 있을까요? 데이터가 매우 적은 케이스에서 모델을 수립하기 위해 아래의 방법을 고려할 수 있다. 1. 간단한 모델 선택 모델을 잘 학습하기 위해서는 대략적으로 모델의 매개변수 수보다 약 10배 많은 샘플이 필요하다. 관측치가 적을 경우 모델이 과적합 될 가능성이 높다. 따라서 데이터가 매우 적은 케이스에서는 작은 모델을 선택하는 것이 좋다. 데이터가 적은 경우 회귀, 랜덤 포레스트, SVM과 같은 간단한 기계학습 모델이 딥러닝보다 뛰어난 성능을 보여주게 된다. 2. 전처리 적은 데이터셋으로 학습 시, 이상치는 모델에 큰 영향을 미칠 수 있기 때문에 제거하는 것이 좋다. 또한 데이터를 정규화 하거나 스케일링함으로써 모델을 보다 단순하게 ..
실제로, 예측 모델을 수립해야 하는 경우에는 우리가 필요한 데이터와 딱 맞는 데이터를 사용하는 경우가 드뭅니다. 데이터가 없거나, 원하는 형식으로 되어 있지 않은 경우가 많은데, 이런 경우에는 어떤 방식을 통해서 조금 더 나은 예측 모델이 수립될 수 있도록 할 수 있을까요?? 이에 대한 해결책은 크게 데이터 측면과 모델 측면 2가지에서 고려해볼 수 있습니다. 데이터 데이터 확장 (Augmentation) : 데이터가 적은 경우에는 데이터를 확장하는 방법이 있습니다. 예를 들어, 데이터를 합성하는 기술을 사용하여 새로운 데이터를 생성하거나, 적은 데이터를 다양한 방법으로 활용하여 데이터를 증강시킬 수도 있습니다. 하나의 데이터를 다른 방식으로 가공하여, 하나의 데이터로부터 여러개의 데이터 샘플들을 만들어 ..
Bootstrapping 1. 표본에서 복원추출을 통해서 기존 sample dataset의 크기 만큼을 반복하여 새로운 sample dataset을 생성한다. 2. 새롭게 생성된 sample dataset에서 통계치들을 계산한다. 3. 1, 2의 과정을 n번 반복한다. 4. n개의 통계치들을 통해서 신뢰 구간을 계산한다. Bootstrap의 장점 표본 데이터의 분포에 대한 가정이 필요하지 않다. 신뢰 구간 추정에 사용되거나, 가설 검정하는 경우에 사용된다. 샘플의 크기를 줄이지 않고, 여러 sample dataset을 생성할 수 있다. 복원 추출을 통해서 모집단의 분포에 대한 추정으로 해석할 수 있다. 기존에 하나의 sample dataset만을 가지고 있다면, 하나의 통계치만을 구할 수 있고, 이렇게 ..
Q. 통계에서 사용되는 Bootstrap의 의미는 무엇인가요? Bootstrap 통계학에서 Bootstrap은 Resampling 방법 중 하나로, 가설 검증을 하거나 통계량을 계산하기 전에 복원추출법을 적용하는 방법을 뜻한다. 즉, 모집단으로부터 새로운 표본을 추출할 수 없을 때 원래의 데이터셋으로부터 관측치를 무작위로 반복적으로 재추출함으로써 데이터셋을 얻는 기법을 뜻한다. 여기서 복원 추출법을 적용하므로 동일한 관측치가 Bootstrap 데이터셋에 두 번이상 포함될 수 있다. 이를 통해 정확도가 높은 통계량을 추론해낼 수 있으며 Bootstrap 기법은 신뢰성을 평가하는데 유용하게 쓰인다. 아래는 200개의 표본이 있을 때의 부트스트랩으로 신뢰구간을 구하는 절차이다. 200개의 표본 중 하나를 뽑아..
Probability 우리가 일반적으로 많이 사용하는 개념으로, 사건이 일어날 가능성을 수치적으로 표현하는 것을 의미합니다. 사건이 일어날 가능성을 0~1 사이의 값으로 표현하는데, 사건이 일어날 확률이 없다면 0의 값을, 사건이 무조건 일어난다면 1의 값을 가집니다. 확률은 일반적으로, 우리가 어떤 사건이 놓여져 있는 확률 분포를 안다고 가정할 때, 그 확률 분포 안에서 특정한 사건이 일어날 가능성을 측정하는 데에 사용합니다. 예를 들어, 1~6까지 숫자가 나올 확률이 동일한 주사위를 던졌을 때, 2가 나올 확률은 1/6입니다. Likelihood 확률(Probability)은 사건이 놓여져 있는 확률 분포를 알아야 한다는 전제를 하고 있습니다. 하지만, 종종, 확률 분포는 모르지만, 관측 값 몇가지만..