Notice
Recent Posts
Recent Comments
Link
일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | ||||
4 | 5 | 6 | 7 | 8 | 9 | 10 |
11 | 12 | 13 | 14 | 15 | 16 | 17 |
18 | 19 | 20 | 21 | 22 | 23 | 24 |
25 | 26 | 27 | 28 | 29 | 30 | 31 |
Tags
- ViT
- 통계
- p-value
- 고유값
- 검정
- 확률밀도함수
- 리샘플링
- 통계면접
- 모평균
- 상관계수
- 고유벡터
- 평균
- 신뢰구간
- 누적분포함수
- 데이터분석
- 확률변수
- Transformer
- 조건부확률
- 확률모형
- 베타분포
- 표본
- 확률분포
- 선형대수
- 확률
- 공분산
- Self-attention
- 데이터분석면접
- 샘플링
- 검정력
- 모집단
Archives
- Today
- Total
AIMS Study Blog
아웃라이어를 판단하는 기준 본문
Q. 아웃라이어를 판단하는 기준은 무엇인가요?
이상치 (Outlier)
- 이상치 (아웃라이어, Outlier) 란, 관측 데이터의 범위에서 많이 벗어난 아주 작은 값이나 큰 값을 뜻한다.
- 이상치를 판단하기위해, Standard Deviation, IQR, Isolation Forest, DBScan 의 방법을 사용할 수 있다.
Standard Deviation
- 데이터의 분포가 정규 분포를 이룰 때, 데이터의 표준편차를 이용해 이상치를 탐지할 수 있다.
- 이는 1 표준편차 (68%), 2 표준 편차 (95%), 3 표준편차 (99.7%)를 사용하여 해당 범위를 벗어나는 데이터를 이상치로 간주하는 방법이다.
IQR (Interquartile Range) with Box plots
- 데이터 분포가 정규 분포를 이루지 않거나 한쪽으로 치우친 경우, IQR 값을 이용하여 이상치를 탐지하는 방법이다.
- IQR 값은 Q3에서 Q1을 뺀 값이다.
- (Q1 - 1.5 * IQR)보다 작거나 (Q3 + 1.5 * IQR)보다 큰 데이터를 이상치로 처리한다.
Isolation Forest
- 비지도 학습 알고리즘으로 고차원 데이터셋에서 이상치 탐지할 때 효과적인 방법이다.
- 특정 데이터를 데이터셋에서 분리하기 위해서는 트리에서 몇 번을 분리해야 하는지, 즉, 데이터까지의 경로 길이를 기준으로 데이터가 이상치인지 판단한다.
- 이상치는 다른 관측치에 비해 짧은 경로 길이를 가진 데이터이다.
DBSCAN (Density Based Spatial Clustering of Applications with Noise)
- 밀도 기반의 클러스터링 알고리즘으로 어떠한 클러스터에도 포함되지 않는 데이터를 이상치로 탐지하는 방법이다.
- DBScan는 K-means 알고리즘과 달리 클러스터의 개수를 미리 정하지 않아도 되고 클러스터가 선형적으로 나누어지지 않아서 다양한 모양을 가질 수 있다.
Reference
'통계' 카테고리의 다른 글
필요한 표본 크기 계산 (0) | 2023.05.19 |
---|---|
Outlier를 판단하는 기준 (1) | 2023.05.12 |
결측치 처리 (0) | 2023.05.08 |
검정력 (0) | 2023.05.07 |
결측치 처리 (missing value) (0) | 2023.05.04 |
Comments