AIMS Study Blog

Notice

Recent Posts

Recent Comments

Link

« 2025/07 »
일	월	화	수	목	금	토
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31

Tags more

Archives

Today

Total

관리 메뉴

목록전체 글 (113)

AIMS Study Blog

Cross Validation

Q. Cross Validation은 무엇이고 어떻게 해야하나요? Cross Validation 데이터를 Train set과 Test set으로만 나누어 학습 및 평가를 할 경우 내가 만든 모델이 Test set에 대해서만 잘 작동할 수 있다. 이렇듯 모델 과적합이 일어나면 다른 데이터를 사용했을 때 예측을 잘 수행할 수 없게 된다. 고정된 Train 및 Test set으로부터 발생할 수 있는 문제를 해결하고자 하는 것이 바로 교차검증 (cross validation)이다. 아래 그림처럼 전체 데이터를 k개의 subset으로 나누고 Test set을 중복없이 바꾸어가면서 k번의 평가를 진행할 수 있다. 이를 K-fold cross validation이라 한다. k개의 평가 값에 대해 평균을 내어서 최종적..

통계 2023. 6. 8. 11:11

로그함수 (log)

Q. 로그함수는 어떤 경우 유용합니까? 사례를 들어 설명해주세요. 로그(log) 데이터 분석 시 로그 함수를 취하는 이유는 정규성을 높이고 회귀 분석에서의 정확한 값을 얻기 위함이다. 데이터 간의 편차를 줄여 왜도 (skewness, 데이터가 한 쪽으로 치우친 정도)와 첨도 (Kurtosis, 분포의 뾰족한 정도)를 줄일 수 있기 때문에 정규성을 높일 수 있다. 예를 들어 연령은 숫자의 범위가 0세~120세처럼 특정한 범위 내에 있지만 재산 보유액 같은 경우는 0원에서 몇 조의 단위까지 올라갈 수 있다. 따라서 log를 통해 큰 수를 작게 만들고 복잡한 계산을 간편하게 만듦과 동시에 왜도와 첨도를 줄여 데이터 분석 시 의미 있는 결과를 도출할 수 있다. 또한 일반적으로 자연 로그를 취하게 될 경우 비선..

통계 2023. 6. 4. 21:28

Log 함수를 사용하는 이유

로그함수는 어떤 경우에 유용하게 사용할 수 있을까? 로그 함수(Log) 로그는 지수(Exponential)의 역함수 개념으로, 기본적으로 큰 수를 쉽게 다루기 위해서 사용되는 개념이다. 언제 사용되는가? 숫자의 범위가 큰 경우 기본적으로 우리의 일상생활에서 다른 수들보다 범위가 큰 수를 가진 항목들이 존재한다. 예를 들어 가격 혹은 재산 보유액 등과 같은 항목들은 사람이 단번에 숫자를 파악하기 어려운 경우가 많다. 이런 경우에 각 값들에 Log를 취한 값을 사용하여 데이터를 파악하면, 조금 더 쉽게 파악하는 것이 가능하다. 데이터가 편향되어 있는 경우 데이터 분석을 배우다보면, 대부분 로그함수를 취하는 경우에는 왼쪽이든 오른쪽이든 데이터의 분포가 편향(Skewed)되어 있는 경우에 사용한다고 설명이 되어..

통계 2023. 6. 4. 10:00

Bias를 통제하는 방법

Bias란 모델이 정답값을 예측함에 있어서 발생하는 편향으로, 데이터의 분포를 정확하게 학습하지 못하여, 잘못된 분포를 보이고 있는 것을 의미한다. Bias가 존재한다면, 예측값과 실제값이 일정한 차이를 보이게 된다. Bias를 통제하는 방법 Bias가 발생하는 원인은 결국 모델이 데이터의 분포를 정확하게 학습하지 못하기 때문이다. 그렇다면, Bias를 통제하기 위해서는 모델이 데이터의 분포를 정확하게 학습을 시키면 된다. 아직까지 모델이 데이터의 분포를 정확하게 학습을 하지 못했다는 것은, 다음의 원인 중 하나이다. 모델의 구조가 너무 간단하여 모델이 데이터의 분포를 표현하기에 부족하다. 모델이 아직까지 학습이 덜 되었다. (특히 Deep Learning Model의 경우) 이를 해결하기 위한 방법으로..

통계 2023. 5. 27. 16:50

Bias 통제 방법

Q. Bias를 통제하는 방법은 무엇입니까? Bias Bias는 모델을 통해 얻은 예측값과 실제 정답값의 차이의 평균을 뜻한다. Bias가 높다는 것은 예측값과 정답값 사이의 차이가 크다는 것을 의미한다. Bias 문제는 기본적으로 모델이 매우 간단할 때, 즉, underfitting이 발생한 경우에 일어난다. Variance 추가적으로 Variance는 다양한 데이터셋에 대해 예측값이 얼마나 변화할 수 있는지를 뜻한다. 즉, 모델이 얼만큼의 Flexibility를 가지는 지에 대한 의미로 사용된다. Variance 문제는 데이터 분포에 비해 모델의 복잡도가 커서 overfitting이 발생한 경우에 일어난다. Bias 통제 Bias를 통제하는 방법으로는 아래의 방법을 사용할 수 있다. Feature 개..

통계 2023. 5. 25. 17:02

이전 Prev 1 2 3 4 5 ··· 23 Next 다음

목록전체 글 (113)

AIMS Study Blog

티스토리툴바