Notice
Recent Posts
Recent Comments
Link
일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | ||||
4 | 5 | 6 | 7 | 8 | 9 | 10 |
11 | 12 | 13 | 14 | 15 | 16 | 17 |
18 | 19 | 20 | 21 | 22 | 23 | 24 |
25 | 26 | 27 | 28 | 29 | 30 | 31 |
Tags
- 확률변수
- 조건부확률
- 고유벡터
- 검정력
- 표본
- 데이터분석면접
- 상관계수
- 검정
- 샘플링
- 모평균
- 데이터분석
- 확률
- 평균
- 신뢰구간
- 베타분포
- 확률분포
- 고유값
- 확률모형
- 공분산
- 모집단
- 확률밀도함수
- 선형대수
- 통계
- Transformer
- Self-attention
- p-value
- ViT
- 리샘플링
- 누적분포함수
- 통계면접
Archives
- Today
- Total
AIMS Study Blog
결측치 처리 (missing value) 본문
Q. missing value가 있을 경우 채워야 할까요?
그 이유는 무엇인가요?
- 결측치 (missing value)는 아래의 두 가지 과정을 거쳐 처리할 수 있습니다.
1. 결측치 종류 파악
- 완전 무작위 결측 (MCAR: Missing Completely At Random)
- 결측값이 변수의 성격과 전혀 무관하게 발생한 경우
- 자료 관측값과 결측값 모두 결측의 발생과 독립
- 즉, 결측치 발생에 그 어떠한 의도도 없는 상태이기에 결측치의 존재가 전혀 문제되지 않는다.
- 무작위 결측 (MAR: Missing At Random)
- 결측의 발생은 오로지 관측 값에 의해서만 설명되며 결측치 자체와는 독립일 거라고 가정한 상태
- 관측된 값으로부터 결측치를 추정하는 것이 가능하다.
- 결측값이 어떤 인과구조에 의해 발생한 것은 아니지만 측정값들로 추정할 수 있는 상태라는 것
- 비무작위 결측 (NMAR: Not Missing At Random)
- 결측값이 전혀 임의적으로 발생한 것이 아니며, 관측 값과 결측값 모두에 영향을 받는 상태
- 결측값 발생에 어떤 원인이 있는 경우
2. 결측치 유형에 따른 처리 방법 선택
- 결측치 종류를 파악한 뒤, 결측치의 비율 및 특정 변수의 집중 정도를 알아볼 수 있다.
- 해당 값을 삭제할 것인지 치환할 것인지를 판단해야 한다.
- 제거
- 결측치 비율이 10% 이하일 때 제거 방식을 고려할 수 있다.
- 결측치가 발생한 행 또는 열을 삭제하는 단순한 처리 방식이다.
- MCAR의 경우에는 행을 지워도 데이터 분포에 영향이 없어서 이 방식을 사용할 수 있다.
- 데이터의 손실로 이어질 수 있다는 단점이 있다.
- 치환
- 결측치 비율이 10% 이하일 때 치환 방식을 고려할 수 있다.
- 결측치를 적당한 방법으로 대체하는 방식이다.
- 결측치 때문에 행 또는 열을 삭제하게 되면 데이터 샘플 개수가 충분하지 않게 되거나 Feature가 갖고 있는 중요한 정보를 잃어버리게 될 수도 있기 때문에, 치환을 고려할 수 있다.
- 데이터의 특성에 맞게 평균, 중간값, 최빈값 등으로 채울 수 있으며 다른 특성과 상관관계가 있는 경우에 고려할 수 있다.
- 예를 들어, 월급 특성에 결측치가 있으나 연봉 특성에는 값이 있는 경우 월급 결측치를 채우는 방법 채택할 수 있다.
- 모델 기반 처리
- 결측치 비율이 10% 이상으로 높을 때는 모델 기반 처리 방식을 고려할 수 있다.
- 결측치를 예측하는 새로운 모델 구성 및 이를 기반으로 결측치 채워나가는 방식이다.
Summary
- 결측치는 종류 및 비율에 따라 처리할 수 있는 방법이 다양하다.
- 먼저 결측치 비율이 10% 미만일 때는 제거 또는 치환을 고려할 수 있다. 완전 무작위 결측에 대해서는 단순히 결측치가 존재하는 행을 지워도 데이터 분포에 영향이 없다. 그러나 결측치 때문에 행 또는 열을 삭제하게 되면 중요한 정보를 잃게 될 수도 있으므로 데이터 특성에 맞게 평균, 중앙값, 최빈값 등으로 채우는 치환 방법을 고려할 수 있다.
- 결측치 비율이 10%이상일 때는 모델 기반 처리 방식을 사용할 수 있다.
Reference
'통계' 카테고리의 다른 글
결측치 처리 (0) | 2023.05.08 |
---|---|
검정력 (0) | 2023.05.07 |
검정력(statistical power) (0) | 2023.04.28 |
프리퀀티스트 & 베이지안 (0) | 2023.04.23 |
베이지안과 프리퀀티스트간의 입장차이 (0) | 2023.04.22 |
Comments