AIMS Study Blog

결측치 처리 (missing value) 본문

통계

결측치 처리 (missing value)

hyenzzang 2023. 5. 4. 22:14
Q. missing value가 있을 경우 채워야 할까요?
그 이유는 무엇인가요?

 

  • 결측치 (missing value)는 아래의 두 가지 과정을 거쳐 처리할 수 있습니다.

 

1. 결측치 종류 파악

  • 완전 무작위 결측 (MCAR: Missing Completely At Random)
    • 결측값이 변수의 성격과 전혀 무관하게 발생한 경우
    • 자료 관측값과 결측값 모두 결측의 발생과 독립
    • 즉, 결측치 발생에 그 어떠한 의도도 없는 상태이기에 결측치의 존재가 전혀 문제되지 않는다.
  • 무작위 결측 (MAR: Missing At Random)
    • 결측의 발생은 오로지 관측 값에 의해서만 설명되며 결측치 자체와는 독립일 거라고 가정한 상태
    • 관측된 값으로부터 결측치를 추정하는 것이 가능하다.
    • 결측값이 어떤 인과구조에 의해 발생한 것은 아니지만 측정값들로 추정할 수 있는 상태라는 것
  • 비무작위 결측 (NMAR: Not Missing At Random)
    • 결측값이 전혀 임의적으로 발생한 것이 아니며, 관측 값과 결측값 모두에 영향을 받는 상태
    • 결측값 발생에 어떤 원인이 있는 경우

 

2. 결측치 유형에 따른 처리 방법 선택

  • 결측치 종류를 파악한 뒤, 결측치의 비율 및 특정 변수의 집중 정도를 알아볼 수 있다.
  • 해당 값을 삭제할 것인지 치환할 것인지를 판단해야 한다.
  • 제거
    • 결측치 비율이 10% 이하일 때 제거 방식을 고려할 수 있다.
    • 결측치가 발생한 행 또는 열을 삭제하는 단순한 처리 방식이다. 
    • MCAR의 경우에는 행을 지워도 데이터 분포에 영향이 없어서 이 방식을 사용할 수 있다.
    • 데이터의 손실로 이어질 수 있다는 단점이 있다.
  • 치환
    • 결측치 비율이 10% 이하일 때 치환 방식을 고려할 수 있다.
    • 결측치를 적당한 방법으로 대체하는 방식이다.
    • 결측치 때문에 행 또는 열을 삭제하게 되면 데이터 샘플 개수가 충분하지 않게 되거나 Feature가 갖고 있는 중요한 정보를 잃어버리게 될 수도 있기 때문에, 치환을 고려할 수 있다.
    • 데이터의 특성에 맞게 평균, 중간값, 최빈값 등으로 채울 수 있으며 다른 특성과 상관관계가 있는 경우에 고려할 수 있다.
    • 예를 들어, 월급 특성에 결측치가 있으나 연봉 특성에는 값이 있는 경우 월급 결측치를 채우는 방법 채택할 수 있다.
  • 모델 기반 처리
    • 결측치 비율이 10% 이상으로 높을 때는 모델 기반 처리 방식을 고려할 수 있다.
    • 결측치를 예측하는 새로운 모델 구성 및 이를 기반으로 결측치 채워나가는 방식이다.

 

Summary

  • 결측치는 종류 및 비율에 따라 처리할 수 있는 방법이 다양하다.
  • 먼저 결측치 비율이 10% 미만일 때는 제거 또는 치환을 고려할 수 있다. 완전 무작위 결측에 대해서는 단순히 결측치가 존재하는 행을 지워도 데이터 분포에 영향이 없다. 그러나 결측치 때문에 행 또는 열을 삭제하게 되면 중요한 정보를 잃게 될 수도 있으므로 데이터 특성에 맞게 평균, 중앙값, 최빈값 등으로 채우는 치환 방법을 고려할 수 있다.
  • 결측치 비율이 10%이상일 때는 모델 기반 처리 방식을 사용할 수 있다.

 

 

Reference

https://junklee.tistory.com/4

https://gooopy.tistory.com/43

https://normal-engineer.tistory.com/135

'통계' 카테고리의 다른 글

결측치 처리  (0) 2023.05.08
검정력  (0) 2023.05.07
검정력(statistical power)  (0) 2023.04.28
프리퀀티스트 & 베이지안  (0) 2023.04.23
베이지안과 프리퀀티스트간의 입장차이  (0) 2023.04.22
Comments