일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | 5 | ||
6 | 7 | 8 | 9 | 10 | 11 | 12 |
13 | 14 | 15 | 16 | 17 | 18 | 19 |
20 | 21 | 22 | 23 | 24 | 25 | 26 |
27 | 28 | 29 | 30 | 31 |
- 표본
- 확률변수
- 누적분포함수
- 모집단
- Self-attention
- 고유벡터
- Transformer
- 검정력
- 모평균
- 확률모형
- 공분산
- 상관계수
- 데이터분석면접
- 평균
- 고유값
- ViT
- p-value
- 리샘플링
- 선형대수
- 확률분포
- 신뢰구간
- 샘플링
- 데이터분석
- 통계면접
- 베타분포
- 검정
- 통계
- 확률밀도함수
- 조건부확률
- 확률
- Today
- Total
목록통계 (101)
AIMS Study Blog

Q. Likelihood와 Probability의 차이는 무엇일까요? 확률 Probability는 연속적인 분포에서 내가 임의로 뽑은 관측값이 특정 범위에 존재할 확률을 나타내는 값이다. 평균 32, 표준편차 2.5를 갖는 정규분포에서 쥐의 무게가 32-34 사이로 관측될 확률을 구할 수 있다. Probability = P(관측값 X | 확률분포 D) 우도 (가능도) Likelihood는 어떤 값이 관측 되었을 때, 이것이 어떤 특정한 확률 분포에서 왔을 지에 대한 확률이다. 이는 연속 확률 밀도 함수에서의 y 값과 동일하다. 예를 들어, 쥐를 하나 골라 무게를 달았는데 34g이 나왔을 때, 이 관측결과가 정규분포 (m = 32, std = 2.5)에서 나왔을 확률을 구할 수 있고, 이것을 가능도라 한다..
“모수적 방법(Parametric Method)” 우리는 통계적 방법을 사용하여 특정 사실을 검정하는 경우에, 표본을 뽑아 실험을 하게 된다. 이렇게 표본을 뽑아 실험을 하게 되는 이유는, 모집단 전체를 조사하기에는 시간과 비용 문제가 발생하게 된다. 우리가 가지고 있는 표본이 모집단을 잘 대표한다는 가정이 있다면, 우리는 시간과 비용을 덜 들이면서도 제대로 된 검정을 할 수 있다. 많은 경우에, 데이터의 분포는 정규 분포를 따른다. 따라서, 그동안 통계적 방법도, 애초에 데이터가 정규 분포를 따른다는 가정하에 여러가지를 검정할 수 있는 방법이 고안되었다. 데이터의 분포가 정규분포를 따른다는 것은, 표본들의 평균과 표준편차 등 몇가지 통계량만으로 해당 집단의 많은 정보를 알 수 있다는 의미를 내포하고 있..
Q. 어떤 때 모수적 방법론을 쓸 수 있고, 어떨 때 비모수적 방법론을 쓸 수 있나요? 모수적 방법 모수적 방법은 관측값이 특정한 확률 분포 (ex. 정규분포)를 따른다고 전제한 후, 그 분포의 모수에 대한 검정을 실시하는 방법이다. 우리는 대부분의 경우 모집단의 정보를 알기 힘들기 때문에 통계량을 통해 모수를 추정하며, 이때 중심극한 정리를 사용한다. 비모수적 방법 비모수적 방법은 관측값이 특정한 확률분포를 따른다고 전제할 수 없거나, 정보가 없는 경우 실시하는 검정 방법이다. 확률분포를 전제할 수 없는 경우는 아래와 같다. 모집단이 정규성을 나타내지 않는다는 증명이 있거나 정규성을 가정하기 힘든 경우 표본 집단의 크기가 작은 경우 (N
정규성 검정이란? 정규성 검정은, 말 그대로 분석을 위해 수집된 데이터(표본 자료) 분포가 정규 분포를 만족하는 지를 알아보기 위한 통계 검정기법이다. 귀무 가설 : 정규분포의 모양과 표본 자료들의 분포가 동일한 분포를 가지고 있다. 대립 가설 : 정규분포의 모양과 표본 자료들의 분포가 동일한 분포를 가지고 있지 않다. 이므로, 정규성 검정을 통해서 얻은 p-value는 유의 수준(통상적으로는 0.05)보다 커야한다. 일반적으로는 Kolmogorov-Smirnov와 Shapiro-Wilk test 두가지를 사용한다. Kolmogorove-Smirnov test는 주로 표본수가 2000이 넘는 데이터에 대해서 적합한 정규성 검정이고 Shapiro-Wilk test는 표본수가 2000이 넘지 않는 데이터에 ..
Q. 요즘같은 빅데이터 시대에는 정규성 테스트가 의미 없다는 주장이 있습니다. 맞을까요? 정규성 테스트 정규성 검정이란, 데이터셋의 분포가 정규분포를 따르는지를 검정하는 것이다. t-test와 같은 여러 검정법들이 데이터의 정규분포를 가정하고 수행되기 때문에, 데이터의 정규성을 확인하는 과정이 필요하다. 정규성 검정의 종류 Shaprio-Wilks test 표본수(N)가 2000 미만인 데이터셋에 적합한 정규성 검정이다. Kolmogorove-Smirnov test 표본수(N)가 2000 초과인 데이터셋에 적합한 정규성 검정이다. Quantile-Quantile plot 데이터셋이 정규분포를 따르는지 판단하는 시각적 분석 방법이다. 빅데이터에서의 정규성 테스트 빅데이터의 경우 정규성 검정의 결과를 무조건..

Q. 엔트로피(entropy)와 Information Gain에 대해서 설명해주세요. Information Gain 어떤 분류를 통해서 얼마나 정보에 대한 Gain이 생겼는지를 나타내는 개념이다. 이 개념은 엔트로피를 통해 계산할 수 있으며, Information gain 이 클 수록 변별력이 좋다고 표현할 수 있다. 엔트로피 (Entropy) 정보 이론에서의 엔트로피는 불확실성을 뜻하며, 엔트로피가 높다는 것은 정보가 많고 확률이 낮다는 것을 뜻한다. 어떤 그룹에 여러 속성이 골고루 섞여있으면, 상황이 무질서 하다고 보며 엔트로피가 높다. 반대로 하나의 속성을 가진 것으로만 이루어져있으며, 이는 엔트로피가 낮다고 본다. 엔트로피는 아래와 같은 수식으로 정의된다. 아래의 두 가지 상황이 있다고 가정하자...

엔트로피는 대부분 물리학에서 에너지의 흐름을 설명하기 위한 용어로 많이 사용이 된다. 이 포스팅에서 다루려는 정보 엔트로피 또한, Gibb’s Entropy와 수식적인 측면에서 유사한 면이 있기는 하지만, 굳이 물리학에서의 엔트로피와 개념을 엮어서 생각을 할 필요는 없다. 정보 엔트로피에서 정보량은 확률이 클수록 정보량이 적은 것을 의미하며, 확률이 작을수록 정보량이 큰것을 의미한다. 정보량에 대한 수식을 보면 원래 가장 앞에 있는 마이너스 부호는 로그 내부로 들어가서 p(x_j)의 역수를 의미하는 것이다. 그렇다면, 로그를 취해주는 이유는 무엇일까? 로그를 취하는 이유에 있어서는 결과에 있어서 산술적인 증가가 일어나게 되면, 경우의 수는 거듭제곱으 형태로 증가하게 되기 때문에, 이를 선형적인 관계로 만..
√중심극한정리의 정의는 다음과 같다. 확률론과 통계학에서 중심 극한 정리(中心 極限 定理, 영어: central limit theorem, 약자 CLT)는 동일한 확률분포를 가진 독립 확률 변수 n개의 평균의 분포는 n이 적당히 크다면 정규분포에 가까워진다는 정리이다. 정규분포인 모집단에서 여러 번 추출한 여러 표본들의 평균들을 가지고 만든 확률분포가 표본평균분포라고 하는데, 이 각 표본들의 크기가 커질수록 모집단인 정규분포에 가까워진다는 정리이다. 더 자세히 설명하자면, 모집단이 평균이 µ, 표준편차가 σ인 정규분포를 따를 때, 표본의 크기가 충분히 큰 n일 경우 표본 평균들이 이루는 분포는 평균이 µ, 표준편차가 σ/√n인 정규분포에 근접하게 된다. 중심극한정리가 중요한 이유는, 정의에서 유추할 수 ..

평균(Mean)과 중앙값(Median) 중에 어떤 케이스에서 뭐를 써야 할까요? 평균(Mean) 모든 관측값의 합을 개수로 나눈 것, 평균 근처에 표본이 있다면 경향성을 파악하기 좋다. 다만 outlier에 영향을 크게 받기 때문에 잘못된 결과가 나올 수도 있다. 중앙값(Median) 전체 관측값을 크기 순서로 배열했을 때 중앙에 위치한 값으로 가운데에 위치하는 값 이외에 다른 값들의 영향을 받지 않습니다. 따라서 outlier에 민감하지 않고, 왜곡이 심한 데이터에 유용합니다. 위 사진처럼 a의 경우에는 데이터의 분포가 정규분포와 가깝기 때문에 평균, 중앙값이 동일하지만, b, c와 같이 분포의 모양이 비대칭인 경우에는 중앙값을 사용하는 것이 유용합니다.
중심 극한 정리 (central limit theorem) 모집단의 평균이 μ이고 표준편차가 σ인 분포에서 표본의 크기인 n이 충분히 크다면, 표본 평균들이 이루는 분포는 평균이 μ이고 표준편차가 σ/sqrt(n)인 정규분포에 수렴한다. (n이 충분히 크다는 것은 보통 n이 30보다 큰 것을 의미한다. ) 또한, 모집단의 분포와 상관 없이 n이 충분히 크다면 표본 평균들의 분포가 정규 분포로 수렴한다는 것을 의미한다. 중심 극한 정리의 정의를 정확하게 파악할 필요가 있다. 모집단에서 n의 크기를 가지는 표본들을 뽑고, 뽑혀진 표본들의 평균을 계산하는 과정을 여러번 반복했을 때, 계산된 평균들이 이루는 분포가 정규 분포에 수렴한다는 것이다. 간혹, n의 크기만 크면, 모집단의 평균과 뽑은 표본들의 평균이 ..