목록전체 글 (113)
AIMS Study Blog
필요한 표본의 크기를 계산하는 것은 우리가 학생 때 통계 문제로 많이 다뤄본 신뢰 구간 구하기 문제를 역으로 푸는 것과 같다. 그렇다면 신뢰 구간을 푸는 문제는 어떤 식으로 풀어야 하는 지에 대해서 먼저 짚어보자. 신뢰 구간을 구하는 문제는 먼저 표본의 수와, 그것에 대한 평균과 표준 편차, 그리고 신뢰도가 문제 조건으로 주어지게 된다. 표본 수 : \(N\) 평균 , 표준 편차 : \(\mu\) ,\(\sigma\) 신뢰도 : \(\alpha\) 라고 하자. 이런식으로 문제 조건이 주어졌다면, $ [\mu - Z_{\alpha/2}\frac{\sigma}{\sqrt{n}}, \mu + Z_{\alpha/2}\frac{\sigma}{\sqrt{n}}] $ 으로 계산이 진행된다. 그렇다면 필요한 표본의 수..
Q. 필요한 표본의 크기를 어떻게 계산합니까? 표본의 크기 표본은 모집단의 부분 집합으로, 전체 집단에서 일부를 무작위로 뽑아 표본으로 설정할 수 있다. 표본 크기는 정확하고 통계적으로 의미 있는 결과를 얻기 위해 매우 중요한 요소이다. 표본이 너무 작으면 예외 케이스를 불균형적으로 포함할 수도 있다. 결과가 왜곡 되고 전체 집단을 제대로 대표하지 못 하게 될 수 있다. 반대로 표본이 너무 크다면 연구가 복잡해지고 비용이 높아진다. 결과가 정확해질지라도 얻을 수 있는 이익보다 비용이 더 커질 수 있다. 표본 크기 (n)를 정할 때는 최대한으로 허용하는 오차인 허용 오차 (E)를 활용한다. 허용오차는 신뢰구간의 한쪽 구간과 동일하며, 아래와 같이 표본 크기를 결정하는 공식을 유도할 수 있다. 예를 들어..

Outlier란? 관측된 데이터의 범위에서 많이 벗어난 아주 작은 값이나 큰 값 변수의 분포상 비정상적으로 극단적인 값을 가져 일반적으로 생각할 수 있는 범위를 벗어난 관측치 통계 기법이나, 데이터 분석 혹은 모델링에 있어서 Outlier(이상치)로 인해서 잘못된 결과들이 나타나는 경우들이 있다. 예를 들어, 흔한 대푯값 중 하나인 평균 값을 계산하는 경우에도, Outlier로 인해서 평균 값이 데이터들을 잘 표현하지 못하는 경우가 발생한다. 이런 잘못된 결과를 피하기 위해서는 Outlier를 제거하는 과정이 필요하다. Outlier가 발생되는 원인 데이터 수집 중 오류 측정 과정에서의 오류 실험조건 차이의 오류 데이터 처리 오류 Outlier를 선정하는 기준 Outlier는 데이터가 표준 편차(stan..

Q. 아웃라이어를 판단하는 기준은 무엇인가요? 이상치 (Outlier) 이상치 (아웃라이어, Outlier) 란, 관측 데이터의 범위에서 많이 벗어난 아주 작은 값이나 큰 값을 뜻한다. 이상치를 판단하기위해, Standard Deviation, IQR, Isolation Forest, DBScan 의 방법을 사용할 수 있다. Standard Deviation 데이터의 분포가 정규 분포를 이룰 때, 데이터의 표준편차를 이용해 이상치를 탐지할 수 있다. 이는 1 표준편차 (68%), 2 표준 편차 (95%), 3 표준편차 (99.7%)를 사용하여 해당 범위를 벗어나는 데이터를 이상치로 간주하는 방법이다. IQR (Interquartile Range) with Box plots 데이터 분포가 정규 분포를 이루..
결측치를 처리하는 것은 중요한 문제이다. 왜냐하면, 결측치가 데이터에 존재하는 경우에, 모델링 자체가 불가능한 경우가 많다. 따라서, 결측치를 그대로 유지하기보다는 처리 과정을 통해서 특정한 값들로 채워야 한다. 하지만, missing vlaue를 채울 때에는 주의해야 한다. 적절한 방법으로 채우지 않으면 결과가 왜곡될 수 있고, 잘못된 결론을 도출하게 될 수도 있다. 결측치 유형 파악 완전 무작위 결측(MCAR : Missing Completely At Random) 결측값이 데이터의 다른 부분들과 전혀 관련이 없이 독립적으로 발생한 경우를 의미한다. 자료의 관측 값과 결측 값 모두 결측의 발생과 독립적이다. 무작위 결측(MAR : Missing At Random) 관측값으로부터 결측값을 추정하는 것이..