AIMS Study Blog

Bias 통제 방법 본문

통계

Bias 통제 방법

hyenzzang 2023. 5. 25. 17:02
Q. Bias를 통제하는 방법은 무엇입니까?

 

Bias

  • Bias는 모델을 통해 얻은 예측값과 실제 정답값의 차이의 평균을 뜻한다.
  • Bias가 높다는 것은 예측값과 정답값 사이의 차이가 크다는 것을 의미한다.
  • Bias 문제는 기본적으로 모델이 매우 간단할 때, 즉, underfitting이 발생한 경우에 일어난다.

Variance

  • 추가적으로 Variance는 다양한 데이터셋에 대해 예측값이 얼마나 변화할 수 있는지를 뜻한다.
  • 즉, 모델이 얼만큼의 Flexibility를 가지는 지에 대한 의미로 사용된다.
  • Variance 문제는 데이터 분포에 비해 모델의 복잡도가 커서 overfitting이 발생한 경우에 일어난다.

Bias 통제

  • Bias를 통제하는 방법으로는 아래의 방법을 사용할 수 있다.
    • Feature 개수를 증가시킨다.
    • Polynomial feature 를 추가하여 복잡한 모델을 사용한다.
    • Regularization parameter \(\lambda\)의 크기를 줄인다.
      • Regularization은 weight가 너무 큰 값을 가지지 않도록 하여 모델의 복잡도를 낮추는 방법이다.
      • \(\lambda\) 가 매우 큰 값을 가지게 되면, 수평선 그래프가 그려지게 된다.
      • 반대로, \(\lambda\) 가 0이 되면, Overfitting 문제가 일어난다.
    • Nueral Network 에서는 layer 개수가 parameter 개수에 비례하므로, layer 개수가 작으면 layer를 추가한다.
  • 하지만, 모델이 복잡해질 수록 Bias는 작아지고 Variance는 반대로 커지기 때문에, 둘을 같이 줄일 수는 없다.
  • 오류를 최소화하기 위해 Bias와 Variance의 합이 최소가 되는 적절한 값을 찾아야 한다.

 

Reference

https://gaussian37.github.io/machine-learning-concept-bias_and_variance/

'통계' 카테고리의 다른 글

Log 함수를 사용하는 이유  (0) 2023.06.04
Bias를 통제하는 방법  (0) 2023.05.27
필요한 표본의 크기를 계산하는 방법  (0) 2023.05.19
필요한 표본 크기 계산  (0) 2023.05.19
Outlier를 판단하는 기준  (1) 2023.05.12
Comments