AIMS Study Blog

정보 엔트로피와 정보 이득(Information Gain) 본문

통계

정보 엔트로피와 정보 이득(Information Gain)

hannn 2023. 3. 12. 16:04

엔트로피는 대부분 물리학에서 에너지의 흐름을 설명하기 위한 용어로 많이 사용이 된다. 이 포스팅에서 다루려는 정보 엔트로피 또한, Gibb’s Entropy와 수식적인 측면에서 유사한 면이 있기는 하지만, 굳이 물리학에서의 엔트로피와 개념을 엮어서 생각을 할 필요는 없다.

 

 

정보 엔트로피에서 정보량은 확률이 클수록 정보량이 적은 것을 의미하며, 확률이 작을수록 정보량이 큰것을 의미한다. 

 

 

 

정보량에 대한 수식을 보면 원래 가장 앞에 있는 마이너스 부호는 로그 내부로 들어가서 p(x_j)의 역수를 의미하는 것이다. 그렇다면, 로그를 취해주는 이유는 무엇일까?  

 

 

로그를 취하는 이유에 있어서는 결과에 있어서 산술적인 증가가 일어나게 되면, 경우의 수는 거듭제곱으 형태로 증가하게 되기 때문에, 이를 선형적인 관계로 만들어주기 위해서, 로그를 사용하는 것이다. 예를 들어 동전을 던지는 실험을 3번 반복을 하는 경우에는 2^3 = 8가지 경우의 수가 있다. 여기에서 동전을 4번 던지는 실험으로 변경하게 되면, 결과는 3 → 4개로 하나만 증가를 하게 되지만, 총 경우의 수는 이전 경우의 수인 8에서 2가 곱해져 16으로 증가하게 되는 것이다. 이런 관계를 선형적으로 변경하기 위해서 로그를 취해준다.

 

이 수식에 대한 그래프는 다음과 같다.

 

정보 엔트로피

데이터를 분석함에 있어서 데이터의 복잡도를 아는 것은 매우 중요하다. 정보 엔트로피는 데이터와 패턴의 복잡도를 정량화 하여 평가할 수 있는 하나의 수단으로써 사용할 수 있다. 정보 엔트로피라는 것은 정보량의 기댓값을 의미한다. 정보 엔트로피에는 두가지 통계적인 개념이 들어있는데,

 

  1. 정보량
  2. 기댓값

 

첫번째 통계적 개념인 정보량은 방금 위에서 다루었고, 수식또한 알고 있다.

기댓값 또한, 통계를 공부해보면 어렵지 않게 알 수 있다. 바로, 해당 값이 일어날 확률을 곱해서 모든 경우에 대해서 더해주는 것이다. 이를 수식으로 표현하면,

 

이 된다.

여러가지 다른 일이 많이 생겨날 수 있는 경우는 엔트로피 값이 높아지며, 추가적인 정보들로 인해서, 한가지 결과가 발생할 확률이 크게 될수록, 더 낮은 엔트로피 값을 가지게 된다.

 

 

 

 

 

정보 이득

 

정보 이득은, 특정 속성 A를 선택을 했을 때, 선택하기 이전과 이후의 엔트로피 차이를 통해서, 얼마나 엔트로피가 낮아졌는지를 정량적으로 측정한다. Decision Tree에서 데이터에 포함되어 있는 속성(Feature)들 중에서, 어떤 속성을 기준으로 데이터를 분류해야 할지에 대해서 결정을 하는 경우에, 정보 이득이 가장 큰 속성을 이용하여 데이터를 분류하기도 한다. 

 

 

 

 

ref.

https://news.samsungdisplay.com/20076

https://bskyvision.com/entry/정보이론-정보량과-엔트로피의-의미

https://horizon.kias.re.kr/12415/

https://aims-lab.tistory.com/manage/newpost/?type=post&returnURL=%2Fmanage%2Fposts%2F

https://horizon.kias.re.kr/12415/

'통계' 카테고리의 다른 글

빅데이터와 정규성 테스트  (0) 2023.03.15
Information Gain와 Entropy  (1) 2023.03.12
중심극한정리  (0) 2023.02.27
평균(Mean)과 중앙값(Median)  (0) 2023.02.26
중심 극한 정리  (0) 2023.02.26
Comments