AIMS Study Blog

Information Gain와 Entropy 본문

통계

Information Gain와 Entropy

hyenzzang 2023. 3. 12. 16:20
Q. 엔트로피(entropy)와 Information Gain에 대해서 설명해주세요.

Information Gain

  • 어떤 분류를 통해서 얼마나 정보에 대한 Gain이 생겼는지를 나타내는 개념이다.
  • 이 개념은 엔트로피를 통해 계산할 수 있으며, Information gain 이 클 수록 변별력이 좋다고 표현할 수 있다.

엔트로피 (Entropy)

  • 정보 이론에서의 엔트로피는 불확실성을 뜻하며, 엔트로피가 높다는 것은 정보가 많고 확률이 낮다는 것을 뜻한다.
  • 어떤 그룹에 여러 속성이 골고루 섞여있으면, 상황이 무질서 하다고 보며 엔트로피가 높다.
  • 반대로 하나의 속성을 가진 것으로만 이루어져있으며, 이는 엔트로피가 낮다고 본다.
  • 엔트로피는 아래와 같은 수식으로 정의된다.

  • 아래의 두 가지 상황이 있다고 가정하자.
    • 동전 던지기: 앞/뒷면이 나올 확률은 각각 1/2이다.
    • 주사위 던지기: 어떤 숫자가 나올 확률은 1/6이다.
  • 두 상황 중, 직관적으로 주사위 던지기의 불확실성이 더 크다고 생각 할 수 있다.

동전 던지기의 엔트로피
주사위 던지기의 엔트로피

  • 동전 던지기의 엔트로피값은 약 0.693 이고, 주사위 던지기의 엔트로피값은 1.79 로, 주사위의 엔트로피가 더 높은 것을 알 수 있다.

Summary

  • Information Gain은 어떤 분류를 통해 정보에 대한 이익이 얼마나 생겼는지를 나타내는 개념으로, Entropy를 통해 이를 표현할 수 있다. 엔트로피는 불확실성을 나타내며, 어떤 그룹에 하나의 속성을 가진 것으로만 이루어질 수록 엔트로피가 낮아진다. 반대로 여러 속성이 골고루 섞여있으면 엔트로피가 높아진다.

Reference 

https://melonicedlatte.com/machinelearning/2019/12/20/204900.html

https://code13.tistory.com/253

'통계' 카테고리의 다른 글

빅데이터와 정규성 검정  (0) 2023.03.18
빅데이터와 정규성 테스트  (0) 2023.03.15
정보 엔트로피와 정보 이득(Information Gain)  (0) 2023.03.12
중심극한정리  (0) 2023.02.27
평균(Mean)과 중앙값(Median)  (0) 2023.02.26
Comments