일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | ||||
4 | 5 | 6 | 7 | 8 | 9 | 10 |
11 | 12 | 13 | 14 | 15 | 16 | 17 |
18 | 19 | 20 | 21 | 22 | 23 | 24 |
25 | 26 | 27 | 28 | 29 | 30 | 31 |
- 리샘플링
- 데이터분석
- ViT
- p-value
- 검정력
- 공분산
- 확률
- 선형대수
- 고유값
- 확률밀도함수
- 데이터분석면접
- 모평균
- 평균
- Self-attention
- 신뢰구간
- 확률분포
- Transformer
- 조건부확률
- 샘플링
- 확률변수
- 통계
- 표본
- 모집단
- 통계면접
- 상관계수
- 베타분포
- 검정
- 고유벡터
- 확률모형
- 누적분포함수
- Today
- Total
목록통계면접 (11)
AIMS Study Blog
√중심극한정리의 정의는 다음과 같다. 확률론과 통계학에서 중심 극한 정리(中心 極限 定理, 영어: central limit theorem, 약자 CLT)는 동일한 확률분포를 가진 독립 확률 변수 n개의 평균의 분포는 n이 적당히 크다면 정규분포에 가까워진다는 정리이다. 정규분포인 모집단에서 여러 번 추출한 여러 표본들의 평균들을 가지고 만든 확률분포가 표본평균분포라고 하는데, 이 각 표본들의 크기가 커질수록 모집단인 정규분포에 가까워진다는 정리이다. 더 자세히 설명하자면, 모집단이 평균이 µ, 표준편차가 σ인 정규분포를 따를 때, 표본의 크기가 충분히 큰 n일 경우 표본 평균들이 이루는 분포는 평균이 µ, 표준편차가 σ/√n인 정규분포에 근접하게 된다. 중심극한정리가 중요한 이유는, 정의에서 유추할 수 ..
기술 통계학을 공부할 때 빼놓을 수 없는 것이 평균이다. 가지고 있는 데이터의 크기가 작다면 표로 정리해서 전체 데이터를 보여주면 된다. 그러나, 데이터가 크다면 데이터를 나열한 것만 보고는 데이터의 특성을 알기 쉽지 않다. 그래서 데이터의 특징을 한눈에 보여주기 위해 가장 많이 쓰는 대표값이 평균이다. 데이터의 평균을 구해서 데이터가 대충 어느 지점에 분포가 되어 있는지 파악할 수 있기 때문이다. 그런데 평균의 문제가 있다. 예건대 특정 기업의 평균 월급을 공개했다고 하자. 그 평균 월급이 800만원인 것을 보고 사람들은 해당 기업의 월급이 굉장히 높다고 생각한다. 하지만 함정이 있다. 평균을 구한 그 월급 데이터에는 회사의 임원부터 시작해서 회장까지 있다는 것이다. 평사원과는 굉장히 차이가 나는 고위..

선형 회귀 분석을 할 때 종속변수의 분산 중에서 독립변수로 설명되는 비율이 R제곱입니다. 즉, 설명된 분산을 종속변수의 전체 분산으로 나누어준 것인데, R제곱이 높을수록 모델(독립변수)이 종속변수를 많이 설명한 것입니다. 이때 설명을 잘한다는 것, 즉 설명력이 높다는 것은 회귀 분석 시 데이터들이 회귀직선에 많이 밀집되어 있는 경우를 말합니다. 결국 R제곱이라는 것이 의미하는 것은, 회귀 직선에 데이터가 얼마나 밀접하게 분포가 되는지를 의미합니다. 일반적으로 R제곱 값(0~1)이 클수록 예측되는 값의 정밀도가 높아집니다. 그런데 R제곱은 독립변수가 많을수록 늘어나는 성질이 있어서 설명력의 정확한 척도가 되지 않을수도 있습니다. 그래서 adjusted R제곱을 사용하기도 합니다. R제곱의 수식은 다음과 같..
질문: A/B Test 등 현상 분석 및 실험 설계 상 통계적으로 유의미함의 여부를 결정하기 위한 방법에는 어떤 것이 있을까요? 통계적 유의미함 여부를 결정하는 방법은 여러가지가 있범다. - 1 sample z-test for the mean- 1 sample t-test for the mean 위의 두 가지 방법은 일반적으로 연속형 변수가 주어졌을 때, 표본의 평균을 가지고 가설로 세운 모수인 평균과의 통계적 유의미함을 통해 모수를 추정하는 방식이다. - 1 sample z-test for proportion- 1 sample t-test for proportion 위의 두 가지 방법은 일반적으로 범주형 변수가 주어졌을 때, 표본의 특정 범주의 비율을 가지고 가설로 세운 모집단의 특정 범주의 비율과의 ..

통계 면접 질문 두 가지를 가지고 왔습니다. - p-value를 고객에게는 뭐라고 설명하는 게 이해하기 편할까요? - p-value는 요즘 시대에도 여전히 유효할까요? 언제 p-value가 실제를 호도하는 경향이 있을까요? 이 두 질문은 p-value에 관한 질문입니다. 두 질문 모두 p-value에 대한 통계적인 자세한 내용보다는, 실용적인 측면에서의 질문 느낌이 납니다. 그래도 p-value에 대해서 정확히 알아야 위 두 질문에 대답할 수 있을 것입니다. 따라서 우선적으로 p-value에 대해서 알아보겠습니다. p-value의 p는 다름이 아닌 probability의 p입니다. 즉, 확률 값이 p-value입니다. 무엇의 확률 값인지가 중요합니다. 이 무엇을 알기 위해서는 통계적 가설 검정을 짚고 넘..

우리는 통계적인 방법으로 표본을 통해 모집단을 추정합니다. 주로 모집단 전체를 확보하기에 어려움이 따른다는 것이 이유입니다. 모집단을 추정한다는 것은 모집단의 평균과 같은 모수를 추정한다는 것과 같은 말이 되겠습니다. 그런데 그 모수의 정확한 값을 알아내는 것은 쉬운 일이 결코 아닙니다. 다만 추정 시 모수가 대충 어디쯤 있겠다 정도의 정보 정도는 통계적 방법으로 얻을 수 있습니다. 이것이 신뢰구간입니다. 신뢰구간은 모수가 포함되어 있을 것이라 예측되는 범위입니다. 그리고 신뢰구간의 신뢰수준이라는 것이 있습니다. 이것은 몇 퍼센트로 해당 구간 안에 모수가 있는지를 나타냅니다. 예컨대 95%의 신뢰수준을 갖는다면 95%의 확률로 신뢰구간 안에 모수가 존재할 것입니다. 일반적으로 95%나 99%의 신뢰수준을..

데이터를 분석할 때, 특히 EDA를 할 때 feature 간의 상관관계를 파악하는 경우가 많이 있습니다. 이런 경우 주로 상관계수를 분석한다고 합니다. 이 상관관계수가 무엇인지, 그리고 공분산이 무엇인지 알아보겠습니다. 간단히 말하자면, 상관계수는 공분산을 단위화시킨 것입니다. 데이터마다 다른 스케일을 가지고 있기 때문에, 상관관계의 절대적인 값으로 표현하기 위해 단위화 시키는 것입니다. 따라서 우리는 공분산의 개념을 먼저 알아야 합니다. 어느정도 데이터 분석 경험이 있거나 통계 분석이 있는 분들은 공분산의 정의를 모르더라도 상관관계와 연관을 지어 어떤 역할을 하는 것인지는 추론이 가능할 것입니다. 위키피디아의 공분산의 정의는 다음과 같습니다. 공분산(共分散, 영어: covariance)은 2개의 확률변..

확률 밀도함수는 연속형 확률 변수에 대한 확률 값을 나타내는 확률 분포함수입니다. 가장 유명한 확률 변수에 대한 예시인 주사위 눈금에 대한 확률 분포를 나타낸다고 할 때, 확률 변수는 {1, 2, 3, 4, 5, 6}으로 이산형 변수입니다. 이런 경우 6개의 원소 각각에 대한 확률 값을 나타낸 확률 분포 함수는 확률 질량 함수라고 합니다. 반면 다른 예시로 국민들의 키에 대한 분포를 나타낸다고 할 때, 확률분포는 키로, 연속형 변수가 됩니다. 그리고 각 키에 해당하는 확률을 맵핑 시킨 확률 분포 함수는 확률 밀도 함수가 됩니다. 그렇다면 누적 분포 함수는 무엇일까요? 위키피디아에 나와 있는 설명은 다음과 같습니다. 확률론에서 누적분포함수(累積分布函數, 영어: cumulative distribution f..
확률 변수와 확률 모형에 대해 다뤄보겠습니다. 위키피디아에는 확률의 뜻이 다음과 같이 나와있습니다. "확률(確率, probability)은 어떤 일이 일어날 가능성을 측량하는 단위로 비율이나 빈도로 나타낸다." 어떤 일이 일어날 가능성이 확률이라면 "어떤 일"을 확률 변수라 생각하면 됩니다. 그리고 그 확률 변수에 해당하는 확률로 나타내는 함수가 확률 분포 함수입니다. 물론 확률 변수가 이산형인지, 연속형인지에 따라 확률 질량 함수, 확률 밀도 함수로 다른 종류의 함수이긴 합니다만, 핵심은 "어떤 일"에 해당하는 확률 변수에 대해 각각의 확률 변수를 확률로 사상시키는 함수를 확률 함수라고 합니다. 그렇다면 확률 모형은 무엇일까요? 쉽게 말해 가지고 있는 데이터가 어떤 분포를 가지고 있는지, 확률 분포 함..
통계나 데이터 분석 등을 공부하다보면 샘플링이라는 말을 자주 접하게 된다. 단순히 전체에서 일부를 뽑는다는 의미를 넘어 샘플링의 목적이나 의의에 대해서 알아둔다면 좋을 것 같다. 위키피디아에서의 샘플의 사전적 의미는 다음과 같다. 1. 견본, (통계) 표본. 2. (음식) 시식. 타동사 1. 견본, 표본을 내다, 뽑다. 2. 시식하다. 견본이나 표본이라고 하면 익숙해서 잘 알겠으나, 시식이라는 뜻도 있다는 사실은 생소하다. 시식이라함은 마트나 음식점 등에서 어떤 음식에 대해 한 입 정도 먹어 맛을 보게 하는 것을 말하는데, 그 음식의 1인분 전체를 먹어보지 않고 그냥 한 입으로 맛을 알게끔 한다는 것에 의미가 있다. 통계에서 말하는 표본도 의미적으로는 시식과 같다. 모집단이라 불리는 전체에서 뽑은 일부분..