AIMS Study Blog

Outlier를 판단하는 기준 본문

통계

Outlier를 판단하는 기준

hannn 2023. 5. 12. 11:29

 

Outlier란?

  • 관측된 데이터의 범위에서 많이 벗어난 아주 작은 값이나 큰 값
  • 변수의 분포상 비정상적으로 극단적인 값을 가져 일반적으로 생각할 수 있는 범위를 벗어난 관측치

통계 기법이나, 데이터 분석 혹은 모델링에 있어서 Outlier(이상치)로 인해서 잘못된 결과들이 나타나는 경우들이 있다. 예를 들어, 흔한 대푯값 중 하나인 평균 값을 계산하는 경우에도, Outlier로 인해서 평균 값이 데이터들을 잘 표현하지 못하는 경우가 발생한다. 이런 잘못된 결과를 피하기 위해서는 Outlier를 제거하는 과정이 필요하다.

 

 

 

Outlier가 발생되는 원인

  • 데이터 수집 중 오류
  • 측정 과정에서의 오류
  • 실험조건 차이의 오류
  • 데이터 처리 오류

 

Outlier를 선정하는 기준

Outlier는 데이터가 표준 편차(standard deviation, \(\sigma\))을 사용하는 경우와 IQR(Inter-quratile Range)를 사용하는 경우가 있다.

 

 

표준편차 (sigma)를 이용하는 경우

 

이 경우는 데이터가 정규 분포를 이루고 있을 경우에 사용하는 방법이다. 데이터가 정규 분포를 이루고 있을 때, 평균으로 부터 사용자가 설정한 sigma의 배수보다 더 떨어져 있는 것을 Outlier로 선정하는 방법이다.

  • \(1 \sigma\)인 경우에는 전체 데이터의 평균으로부터 68%의 값 이외의 데이터들을 Outlier로 지정한다.
  • \(2 \sigma\)인 경우에는 전체 데이터의 평균으로부터 95%의 값 이외의 데이터들을 Outlier로 지정한다.
  • \(3 \sigma\)인 경우에는 전체 데이터의 평균으로부터 99.7%의 값 이외의 데이터들을 Outlier로 지정한다.

 

IQR을 사용하는 경우

 

이는 데이터의 분포들이 정규분포를 이루고 있지 않더라도 사용할 수 있는 방법이다. 데이터의 사분위 값(Q1, Q2, Q3)를 계산한 이후에,

 

$ IQR = Q3 - Q1 $ 

 

\(Q1 - 1.5 * IQR\)과 \(Q3 + 1.5 * IQR\) 범위 밖에 있는 데이터 샘플들을 Outlier로 지정하는 방법이다.

 

 

Isolation Forest 

 

Isolation Forest는 비지도 학습 시, 즉, target 값이 없는 경우에 이상치를 탐지할 때 많이 사용된다. Decision Tree를 이용하여 데이터 샘플들을 분류하였을 때, 초기에 적은 샘플 수만 가지는 Leaf Node가 생성이 되면, 해당 Leaf Node에 포함되어 있는 샘플들은 이상치라는 것이다.

 

$ s(x, n) = 2^{-\frac{E(h(x))}{c(n)}}$

 

  • \(h(x)\) : 해당 샘플의 경로 길이 
  • \(E(h(x))\) : 트리 내의 모든 샘플에 대한 평균 경로 길이 
  • \(c(n)\) : \(h(x)\)를 normalize하기 위한 값으로 Tree의 평균 경로 길이이다. 

 

\(E(h(x)\)에 따라서 위의 식의 결과 값이 어떻게 변화하는 지 살펴보자. 

 

  • 샘플 x가 전체 경로 길이의 평균과 유사한 경우 
    $ E(h(x)) → c(n), s → 0.5$
  • 샘플 x가 Outlier인 경우 
    $ E(h(x)) → 0, s → 1 $ 

이 값들을 확인했을 때, Score는 0~1 사이의 값을 가지게 되고, 1에 가까울 수록 Outlier에 해당하는 값이라고 간주할 수 있으며, 0.5와 비슷하거나 그보다 작은 값을 가지게 되는 것은 정상 데이터라고 간주할 수 있다. 

 

 

DBSCAN(Density Based Spatial Clustering of Applications with Noise)

 

이 방식 또한 비지도 학습에서 Outlier를 선정해야 하는 경우에 사용이 된다. 밀도 기반의 클러스터링 알고리즘으로, 데이터 샘플들 간의 거리를 통해서 클러스터링을 진행하고, 어떠한 클러스터 내에도 포함되지 않는 데이터 샘플들을 Outlier로 지정하는 것이다. 

 

DBSCAN은 2가지 하이퍼 파라미터를 설정해주어야 하는데, 

 

  • eps : 같은 클러스터로 묶을 수 있는 거리에 대한 기준이다. eps보다 샘플들 간 거리가 좁다면, 같은 클러스터로 포함이 되고, eps보다 거리가 멀다면, 같은 클러스터로 포함될 수 없다. 
  • MinPts : 한 클러스터 내에 존재해야 하는 최소 데이터 샘플의 수를 의미한다. 3 이상으 값을 가져야 하며, 보통은 데이터 차원에 1을 더한 값 이상으로 설정한다. 

위의 하이퍼 파라미터들을 통해서 클러스터링을 진행했을 때, 그림에서 보면 2개의 클러스터가 형성되어 있는 것을 확인할 수 있다. 파란색과 초록색의 클러스터 이외의 데이터 샘플들을 Outlier로 선정할 수 있다. 

 

 

 

 

이상치 처리 주의사항

이상치 처리에 대한 정해진 규칙은 없다. 따라서, 데이터의 상황과, 데이터를 분석하는 사람의 주관이 들어가게 된다. 하지만, outlier의 선정 기준, 제거한 outlier의 개수 등을 언급하지 않는 경우에는, 해당 자료를 보는 사람들에게 왜곡된 결과를 제공하는 격이 될 수 있다. 따라서, Outlier를 처리해주는 경우에, 어떻게 Outlier를 지정했는지, 선정된 Outlier는 어떻게 처리가 되었는 지에 대해서 명확하게 언급을 할 필요가 있다.

 

 

 

 

 

reference

https://dacon.io/forum/405933

https://gannigoing.medium.com/데이터-이상치-outlier-의-기준은-무엇일까-f11f60bf901a

https://spreadthegrowth.com/entry/이상치outlier-판별-기준

'통계' 카테고리의 다른 글

필요한 표본의 크기를 계산하는 방법  (0) 2023.05.19
필요한 표본 크기 계산  (0) 2023.05.19
아웃라이어를 판단하는 기준  (0) 2023.05.09
결측치 처리  (0) 2023.05.08
검정력  (0) 2023.05.07
Comments