Notice
Recent Posts
Recent Comments
Link
일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | ||||
4 | 5 | 6 | 7 | 8 | 9 | 10 |
11 | 12 | 13 | 14 | 15 | 16 | 17 |
18 | 19 | 20 | 21 | 22 | 23 | 24 |
25 | 26 | 27 | 28 | 29 | 30 | 31 |
Tags
- 리샘플링
- 신뢰구간
- Self-attention
- 누적분포함수
- 표본
- 확률밀도함수
- 데이터분석
- 통계
- 확률변수
- 조건부확률
- 확률
- 상관계수
- Transformer
- 확률모형
- 고유값
- p-value
- 확률분포
- 샘플링
- 모집단
- 공분산
- ViT
- 선형대수
- 검정력
- 모평균
- 데이터분석면접
- 베타분포
- 통계면접
- 고유벡터
- 평균
- 검정
Archives
- Today
- Total
AIMS Study Blog
결측치 처리 본문
결측치를 처리하는 것은 중요한 문제이다. 왜냐하면, 결측치가 데이터에 존재하는 경우에, 모델링 자체가 불가능한 경우가 많다. 따라서, 결측치를 그대로 유지하기보다는 처리 과정을 통해서 특정한 값들로 채워야 한다.
하지만, missing vlaue를 채울 때에는 주의해야 한다. 적절한 방법으로 채우지 않으면 결과가 왜곡될 수 있고, 잘못된 결론을 도출하게 될 수도 있다.
결측치 유형 파악
- 완전 무작위 결측(MCAR : Missing Completely At Random)
결측값이 데이터의 다른 부분들과 전혀 관련이 없이 독립적으로 발생한 경우를 의미한다.
자료의 관측 값과 결측 값 모두 결측의 발생과 독립적이다. - 무작위 결측(MAR : Missing At Random)
관측값으로부터 결측값을 추정하는 것이 가능하다는 것을 가정하여, 이 조건에 해당하는 결측치를 데이터가 가지고 있다면, 통상적으로 사용하는 다양한 결측치 처리 방법을 적용할 수 있다. - 비무작위 결측(NMAR: Not Missing At Random)
위의 두가지 유형이 아닌 경우에는 비무작위 결측이라고 한다. 결측값이 데이터의 다른 부분에 의해서 영향을 받는 상태이다. 이 경우에는 결측값과 데이터의 상관관계를 조사하고, 이를 통해 얻어낸 정보로 결측치를 대체해야 한다.
결측치의 유형이 파악이 되었으면, 데이터에 결측치가 얼만큼의 비율을 차지하고 있는지에 따라서 어떻게 결측치를 처리해야 할 지에 대해서 결정할 수 있다. 비무작위 결측이 아닌 무작위(혹은 완전 무작위) 결측인 경우를 가정한다.
결측치 유형에 따른 처리 방법 선택
결측치가 데이터에 얼마나 포함되어 있느냐에 따라서 결측치를 처리하는 방식도 달라질 수 있다.
대부분 결측치의 비율이 낮은 경우와 높은 경우로 나눈다. 이 때, 기준은 중간의 범위를 통상적으로 5~20% 혹은 10~20% 정도로 잡는다.
- 결측치 비율이 낮은 경우 (5% 이하)
결측치가 포함되어 있는 행 혹은 열을 삭제할 수 있다.
또한, 평균값이나 중앙값 등의 값을 정해서 결측치를 대체할 수 있다. - 결측치의 비율이 높은 경우(5% 초과)
결측치의 비율이 높은 경우에는 기존의 방법들에서 문제가 생기게 된다. 결측치를 제거하는 경우, 표본의 수가 많이 감소하게 되어, 검정력이 떨어지는 현상이 발생한다. 결측치를 다른 값으로 대체하는 경우에는 분석 결과에 편향을 초래할 수 있다.
결측치의 비율이 높은 경우에는 기존 데이터를 통해 별도의 모델을 학습하여, 결측치에 들어갈 값을 결정하는 방법을 선택할 수 있다. KNN, PolyRegression의 방법들이 존재하고, R 프로그램 패키지에서 유명한 Mice 도 있다.
Reference
'통계' 카테고리의 다른 글
Outlier를 판단하는 기준 (1) | 2023.05.12 |
---|---|
아웃라이어를 판단하는 기준 (0) | 2023.05.09 |
검정력 (0) | 2023.05.07 |
결측치 처리 (missing value) (0) | 2023.05.04 |
검정력(statistical power) (0) | 2023.04.28 |
Comments