AIMS Study Blog

아웃라이어를 판단하는 기준 본문

통계

아웃라이어를 판단하는 기준

hyenzzang 2023. 5. 9. 14:51
Q. 아웃라이어를 판단하는 기준은 무엇인가요?

이상치 (Outlier)

  • 이상치 (아웃라이어, Outlier) 란, 관측 데이터의 범위에서 많이 벗어난 아주 작은 값이나 큰 값을 뜻한다.
  • 이상치를 판단하기위해, Standard Deviation, IQR, Isolation Forest, DBScan 의 방법을 사용할 수 있다.

Standard Deviation

  • 데이터의 분포가 정규 분포를 이룰 때, 데이터의 표준편차를 이용해 이상치를 탐지할 수 있다.
  • 이는 1 표준편차 (68%), 2 표준 편차 (95%), 3 표준편차 (99.7%)를 사용하여 해당 범위를 벗어나는 데이터를 이상치로 간주하는 방법이다.

https://en.wikipedia.org/wiki/Standard_deviation

IQR (Interquartile Range) with Box plots

https://en.wikipedia.org/wiki/Interquartile_range

  • 데이터 분포가 정규 분포를 이루지 않거나 한쪽으로 치우친 경우, IQR 값을 이용하여 이상치를 탐지하는 방법이다.
  • IQR 값은 Q3에서 Q1을 뺀 값이다.
  • (Q1 - 1.5 * IQR)보다 작거나 (Q3 + 1.5 * IQR)보다 큰 데이터를 이상치로 처리한다.

Isolation Forest

https://en.wikipedia.org/wiki/Isolation_forest

  • 비지도 학습 알고리즘으로 고차원 데이터셋에서 이상치 탐지할 때 효과적인 방법이다.
  • 특정 데이터를 데이터셋에서 분리하기 위해서는 트리에서 몇 번을 분리해야 하는지, 즉, 데이터까지의 경로 길이를 기준으로 데이터가 이상치인지 판단한다.
  • 이상치는 다른 관측치에 비해 짧은 경로 길이를 가진 데이터이다.

DBSCAN (Density Based Spatial Clustering of Applications with Noise)

https://en.wikipedia.org/wiki/DBSCAN

  • 밀도 기반의 클러스터링 알고리즘으로 어떠한 클러스터에도 포함되지 않는 데이터를 이상치로 탐지하는 방법이다.
  • DBScan는 K-means 알고리즘과 달리 클러스터의 개수를 미리 정하지 않아도 되고 클러스터가 선형적으로 나누어지지 않아서 다양한 모양을 가질 수 있다.

 

Reference

https://gannigoing.medium.com/%EB%8D%B0%EC%9D%B4%ED%84%B0-%EC%9D%B4%EC%83%81%EC%B9%98-outlier-%EC%9D%98-%EA%B8%B0%EC%A4%80%EC%9D%80-%EB%AC%B4%EC%97%87%EC%9D%BC%EA%B9%8C-f11f60bf901a

'통계' 카테고리의 다른 글

필요한 표본 크기 계산  (0) 2023.05.19
Outlier를 판단하는 기준  (1) 2023.05.12
결측치 처리  (0) 2023.05.08
검정력  (0) 2023.05.07
결측치 처리 (missing value)  (0) 2023.05.04
Comments