일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | ||||
4 | 5 | 6 | 7 | 8 | 9 | 10 |
11 | 12 | 13 | 14 | 15 | 16 | 17 |
18 | 19 | 20 | 21 | 22 | 23 | 24 |
25 | 26 | 27 | 28 | 29 | 30 | 31 |
- 확률
- 확률모형
- 상관계수
- 확률분포
- 모집단
- 리샘플링
- 선형대수
- 누적분포함수
- 통계면접
- Self-attention
- 검정
- 고유벡터
- 통계
- 확률변수
- 검정력
- p-value
- 조건부확률
- Transformer
- ViT
- 데이터분석면접
- 확률밀도함수
- 베타분포
- 고유값
- 평균
- 샘플링
- 공분산
- 데이터분석
- 표본
- 신뢰구간
- 모평균
- Today
- Total
목록통계 (101)
AIMS Study Blog

Q. Cross Validation은 무엇이고 어떻게 해야하나요? Cross Validation 데이터를 Train set과 Test set으로만 나누어 학습 및 평가를 할 경우 내가 만든 모델이 Test set에 대해서만 잘 작동할 수 있다. 이렇듯 모델 과적합이 일어나면 다른 데이터를 사용했을 때 예측을 잘 수행할 수 없게 된다. 고정된 Train 및 Test set으로부터 발생할 수 있는 문제를 해결하고자 하는 것이 바로 교차검증 (cross validation)이다. 아래 그림처럼 전체 데이터를 k개의 subset으로 나누고 Test set을 중복없이 바꾸어가면서 k번의 평가를 진행할 수 있다. 이를 K-fold cross validation이라 한다. k개의 평가 값에 대해 평균을 내어서 최종적..
Q. 로그함수는 어떤 경우 유용합니까? 사례를 들어 설명해주세요. 로그(log) 데이터 분석 시 로그 함수를 취하는 이유는 정규성을 높이고 회귀 분석에서의 정확한 값을 얻기 위함이다. 데이터 간의 편차를 줄여 왜도 (skewness, 데이터가 한 쪽으로 치우친 정도)와 첨도 (Kurtosis, 분포의 뾰족한 정도)를 줄일 수 있기 때문에 정규성을 높일 수 있다. 예를 들어 연령은 숫자의 범위가 0세~120세처럼 특정한 범위 내에 있지만 재산 보유액 같은 경우는 0원에서 몇 조의 단위까지 올라갈 수 있다. 따라서 log를 통해 큰 수를 작게 만들고 복잡한 계산을 간편하게 만듦과 동시에 왜도와 첨도를 줄여 데이터 분석 시 의미 있는 결과를 도출할 수 있다. 또한 일반적으로 자연 로그를 취하게 될 경우 비선..
로그함수는 어떤 경우에 유용하게 사용할 수 있을까? 로그 함수(Log) 로그는 지수(Exponential)의 역함수 개념으로, 기본적으로 큰 수를 쉽게 다루기 위해서 사용되는 개념이다. 언제 사용되는가? 숫자의 범위가 큰 경우 기본적으로 우리의 일상생활에서 다른 수들보다 범위가 큰 수를 가진 항목들이 존재한다. 예를 들어 가격 혹은 재산 보유액 등과 같은 항목들은 사람이 단번에 숫자를 파악하기 어려운 경우가 많다. 이런 경우에 각 값들에 Log를 취한 값을 사용하여 데이터를 파악하면, 조금 더 쉽게 파악하는 것이 가능하다. 데이터가 편향되어 있는 경우 데이터 분석을 배우다보면, 대부분 로그함수를 취하는 경우에는 왼쪽이든 오른쪽이든 데이터의 분포가 편향(Skewed)되어 있는 경우에 사용한다고 설명이 되어..
Bias란 모델이 정답값을 예측함에 있어서 발생하는 편향으로, 데이터의 분포를 정확하게 학습하지 못하여, 잘못된 분포를 보이고 있는 것을 의미한다. Bias가 존재한다면, 예측값과 실제값이 일정한 차이를 보이게 된다. Bias를 통제하는 방법 Bias가 발생하는 원인은 결국 모델이 데이터의 분포를 정확하게 학습하지 못하기 때문이다. 그렇다면, Bias를 통제하기 위해서는 모델이 데이터의 분포를 정확하게 학습을 시키면 된다. 아직까지 모델이 데이터의 분포를 정확하게 학습을 하지 못했다는 것은, 다음의 원인 중 하나이다. 모델의 구조가 너무 간단하여 모델이 데이터의 분포를 표현하기에 부족하다. 모델이 아직까지 학습이 덜 되었다. (특히 Deep Learning Model의 경우) 이를 해결하기 위한 방법으로..
Q. Bias를 통제하는 방법은 무엇입니까? Bias Bias는 모델을 통해 얻은 예측값과 실제 정답값의 차이의 평균을 뜻한다. Bias가 높다는 것은 예측값과 정답값 사이의 차이가 크다는 것을 의미한다. Bias 문제는 기본적으로 모델이 매우 간단할 때, 즉, underfitting이 발생한 경우에 일어난다. Variance 추가적으로 Variance는 다양한 데이터셋에 대해 예측값이 얼마나 변화할 수 있는지를 뜻한다. 즉, 모델이 얼만큼의 Flexibility를 가지는 지에 대한 의미로 사용된다. Variance 문제는 데이터 분포에 비해 모델의 복잡도가 커서 overfitting이 발생한 경우에 일어난다. Bias 통제 Bias를 통제하는 방법으로는 아래의 방법을 사용할 수 있다. Feature 개..
필요한 표본의 크기를 계산하는 것은 우리가 학생 때 통계 문제로 많이 다뤄본 신뢰 구간 구하기 문제를 역으로 푸는 것과 같다. 그렇다면 신뢰 구간을 푸는 문제는 어떤 식으로 풀어야 하는 지에 대해서 먼저 짚어보자. 신뢰 구간을 구하는 문제는 먼저 표본의 수와, 그것에 대한 평균과 표준 편차, 그리고 신뢰도가 문제 조건으로 주어지게 된다. 표본 수 : \(N\) 평균 , 표준 편차 : \(\mu\) ,\(\sigma\) 신뢰도 : \(\alpha\) 라고 하자. 이런식으로 문제 조건이 주어졌다면, $ [\mu - Z_{\alpha/2}\frac{\sigma}{\sqrt{n}}, \mu + Z_{\alpha/2}\frac{\sigma}{\sqrt{n}}] $ 으로 계산이 진행된다. 그렇다면 필요한 표본의 수..
Q. 필요한 표본의 크기를 어떻게 계산합니까? 표본의 크기 표본은 모집단의 부분 집합으로, 전체 집단에서 일부를 무작위로 뽑아 표본으로 설정할 수 있다. 표본 크기는 정확하고 통계적으로 의미 있는 결과를 얻기 위해 매우 중요한 요소이다. 표본이 너무 작으면 예외 케이스를 불균형적으로 포함할 수도 있다. 결과가 왜곡 되고 전체 집단을 제대로 대표하지 못 하게 될 수 있다. 반대로 표본이 너무 크다면 연구가 복잡해지고 비용이 높아진다. 결과가 정확해질지라도 얻을 수 있는 이익보다 비용이 더 커질 수 있다. 표본 크기 (n)를 정할 때는 최대한으로 허용하는 오차인 허용 오차 (E)를 활용한다. 허용오차는 신뢰구간의 한쪽 구간과 동일하며, 아래와 같이 표본 크기를 결정하는 공식을 유도할 수 있다. 예를 들어..

Outlier란? 관측된 데이터의 범위에서 많이 벗어난 아주 작은 값이나 큰 값 변수의 분포상 비정상적으로 극단적인 값을 가져 일반적으로 생각할 수 있는 범위를 벗어난 관측치 통계 기법이나, 데이터 분석 혹은 모델링에 있어서 Outlier(이상치)로 인해서 잘못된 결과들이 나타나는 경우들이 있다. 예를 들어, 흔한 대푯값 중 하나인 평균 값을 계산하는 경우에도, Outlier로 인해서 평균 값이 데이터들을 잘 표현하지 못하는 경우가 발생한다. 이런 잘못된 결과를 피하기 위해서는 Outlier를 제거하는 과정이 필요하다. Outlier가 발생되는 원인 데이터 수집 중 오류 측정 과정에서의 오류 실험조건 차이의 오류 데이터 처리 오류 Outlier를 선정하는 기준 Outlier는 데이터가 표준 편차(stan..

Q. 아웃라이어를 판단하는 기준은 무엇인가요? 이상치 (Outlier) 이상치 (아웃라이어, Outlier) 란, 관측 데이터의 범위에서 많이 벗어난 아주 작은 값이나 큰 값을 뜻한다. 이상치를 판단하기위해, Standard Deviation, IQR, Isolation Forest, DBScan 의 방법을 사용할 수 있다. Standard Deviation 데이터의 분포가 정규 분포를 이룰 때, 데이터의 표준편차를 이용해 이상치를 탐지할 수 있다. 이는 1 표준편차 (68%), 2 표준 편차 (95%), 3 표준편차 (99.7%)를 사용하여 해당 범위를 벗어나는 데이터를 이상치로 간주하는 방법이다. IQR (Interquartile Range) with Box plots 데이터 분포가 정규 분포를 이루..
결측치를 처리하는 것은 중요한 문제이다. 왜냐하면, 결측치가 데이터에 존재하는 경우에, 모델링 자체가 불가능한 경우가 많다. 따라서, 결측치를 그대로 유지하기보다는 처리 과정을 통해서 특정한 값들로 채워야 한다. 하지만, missing vlaue를 채울 때에는 주의해야 한다. 적절한 방법으로 채우지 않으면 결과가 왜곡될 수 있고, 잘못된 결론을 도출하게 될 수도 있다. 결측치 유형 파악 완전 무작위 결측(MCAR : Missing Completely At Random) 결측값이 데이터의 다른 부분들과 전혀 관련이 없이 독립적으로 발생한 경우를 의미한다. 자료의 관측 값과 결측 값 모두 결측의 발생과 독립적이다. 무작위 결측(MAR : Missing At Random) 관측값으로부터 결측값을 추정하는 것이..