일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | ||||
4 | 5 | 6 | 7 | 8 | 9 | 10 |
11 | 12 | 13 | 14 | 15 | 16 | 17 |
18 | 19 | 20 | 21 | 22 | 23 | 24 |
25 | 26 | 27 | 28 | 29 | 30 | 31 |
- 확률
- 평균
- 확률밀도함수
- 샘플링
- 검정력
- 베타분포
- Transformer
- p-value
- 공분산
- 확률모형
- 통계
- 확률변수
- 신뢰구간
- 모평균
- 조건부확률
- 확률분포
- 검정
- ViT
- 통계면접
- 고유값
- 선형대수
- 상관계수
- 고유벡터
- 모집단
- 데이터분석면접
- 데이터분석
- 누적분포함수
- Self-attention
- 표본
- 리샘플링
- Today
- Total
목록데이터분석면접 (8)
AIMS Study Blog
√중심극한정리의 정의는 다음과 같다. 확률론과 통계학에서 중심 극한 정리(中心 極限 定理, 영어: central limit theorem, 약자 CLT)는 동일한 확률분포를 가진 독립 확률 변수 n개의 평균의 분포는 n이 적당히 크다면 정규분포에 가까워진다는 정리이다. 정규분포인 모집단에서 여러 번 추출한 여러 표본들의 평균들을 가지고 만든 확률분포가 표본평균분포라고 하는데, 이 각 표본들의 크기가 커질수록 모집단인 정규분포에 가까워진다는 정리이다. 더 자세히 설명하자면, 모집단이 평균이 µ, 표준편차가 σ인 정규분포를 따를 때, 표본의 크기가 충분히 큰 n일 경우 표본 평균들이 이루는 분포는 평균이 µ, 표준편차가 σ/√n인 정규분포에 근접하게 된다. 중심극한정리가 중요한 이유는, 정의에서 유추할 수 ..
기술 통계학을 공부할 때 빼놓을 수 없는 것이 평균이다. 가지고 있는 데이터의 크기가 작다면 표로 정리해서 전체 데이터를 보여주면 된다. 그러나, 데이터가 크다면 데이터를 나열한 것만 보고는 데이터의 특성을 알기 쉽지 않다. 그래서 데이터의 특징을 한눈에 보여주기 위해 가장 많이 쓰는 대표값이 평균이다. 데이터의 평균을 구해서 데이터가 대충 어느 지점에 분포가 되어 있는지 파악할 수 있기 때문이다. 그런데 평균의 문제가 있다. 예건대 특정 기업의 평균 월급을 공개했다고 하자. 그 평균 월급이 800만원인 것을 보고 사람들은 해당 기업의 월급이 굉장히 높다고 생각한다. 하지만 함정이 있다. 평균을 구한 그 월급 데이터에는 회사의 임원부터 시작해서 회장까지 있다는 것이다. 평사원과는 굉장히 차이가 나는 고위..
질문: A/B Test 등 현상 분석 및 실험 설계 상 통계적으로 유의미함의 여부를 결정하기 위한 방법에는 어떤 것이 있을까요? 통계적 유의미함 여부를 결정하는 방법은 여러가지가 있범다. - 1 sample z-test for the mean- 1 sample t-test for the mean 위의 두 가지 방법은 일반적으로 연속형 변수가 주어졌을 때, 표본의 평균을 가지고 가설로 세운 모수인 평균과의 통계적 유의미함을 통해 모수를 추정하는 방식이다. - 1 sample z-test for proportion- 1 sample t-test for proportion 위의 두 가지 방법은 일반적으로 범주형 변수가 주어졌을 때, 표본의 특정 범주의 비율을 가지고 가설로 세운 모집단의 특정 범주의 비율과의 ..

통계 면접 질문 두 가지를 가지고 왔습니다. - p-value를 고객에게는 뭐라고 설명하는 게 이해하기 편할까요? - p-value는 요즘 시대에도 여전히 유효할까요? 언제 p-value가 실제를 호도하는 경향이 있을까요? 이 두 질문은 p-value에 관한 질문입니다. 두 질문 모두 p-value에 대한 통계적인 자세한 내용보다는, 실용적인 측면에서의 질문 느낌이 납니다. 그래도 p-value에 대해서 정확히 알아야 위 두 질문에 대답할 수 있을 것입니다. 따라서 우선적으로 p-value에 대해서 알아보겠습니다. p-value의 p는 다름이 아닌 probability의 p입니다. 즉, 확률 값이 p-value입니다. 무엇의 확률 값인지가 중요합니다. 이 무엇을 알기 위해서는 통계적 가설 검정을 짚고 넘..

우리는 통계적인 방법으로 표본을 통해 모집단을 추정합니다. 주로 모집단 전체를 확보하기에 어려움이 따른다는 것이 이유입니다. 모집단을 추정한다는 것은 모집단의 평균과 같은 모수를 추정한다는 것과 같은 말이 되겠습니다. 그런데 그 모수의 정확한 값을 알아내는 것은 쉬운 일이 결코 아닙니다. 다만 추정 시 모수가 대충 어디쯤 있겠다 정도의 정보 정도는 통계적 방법으로 얻을 수 있습니다. 이것이 신뢰구간입니다. 신뢰구간은 모수가 포함되어 있을 것이라 예측되는 범위입니다. 그리고 신뢰구간의 신뢰수준이라는 것이 있습니다. 이것은 몇 퍼센트로 해당 구간 안에 모수가 있는지를 나타냅니다. 예컨대 95%의 신뢰수준을 갖는다면 95%의 확률로 신뢰구간 안에 모수가 존재할 것입니다. 일반적으로 95%나 99%의 신뢰수준을..

데이터를 분석할 때, 특히 EDA를 할 때 feature 간의 상관관계를 파악하는 경우가 많이 있습니다. 이런 경우 주로 상관계수를 분석한다고 합니다. 이 상관관계수가 무엇인지, 그리고 공분산이 무엇인지 알아보겠습니다. 간단히 말하자면, 상관계수는 공분산을 단위화시킨 것입니다. 데이터마다 다른 스케일을 가지고 있기 때문에, 상관관계의 절대적인 값으로 표현하기 위해 단위화 시키는 것입니다. 따라서 우리는 공분산의 개념을 먼저 알아야 합니다. 어느정도 데이터 분석 경험이 있거나 통계 분석이 있는 분들은 공분산의 정의를 모르더라도 상관관계와 연관을 지어 어떤 역할을 하는 것인지는 추론이 가능할 것입니다. 위키피디아의 공분산의 정의는 다음과 같습니다. 공분산(共分散, 영어: covariance)은 2개의 확률변..
확률 변수와 확률 모형에 대해 다뤄보겠습니다. 위키피디아에는 확률의 뜻이 다음과 같이 나와있습니다. "확률(確率, probability)은 어떤 일이 일어날 가능성을 측량하는 단위로 비율이나 빈도로 나타낸다." 어떤 일이 일어날 가능성이 확률이라면 "어떤 일"을 확률 변수라 생각하면 됩니다. 그리고 그 확률 변수에 해당하는 확률로 나타내는 함수가 확률 분포 함수입니다. 물론 확률 변수가 이산형인지, 연속형인지에 따라 확률 질량 함수, 확률 밀도 함수로 다른 종류의 함수이긴 합니다만, 핵심은 "어떤 일"에 해당하는 확률 변수에 대해 각각의 확률 변수를 확률로 사상시키는 함수를 확률 함수라고 합니다. 그렇다면 확률 모형은 무엇일까요? 쉽게 말해 가지고 있는 데이터가 어떤 분포를 가지고 있는지, 확률 분포 함..
통계나 데이터 분석 등을 공부하다보면 샘플링이라는 말을 자주 접하게 된다. 단순히 전체에서 일부를 뽑는다는 의미를 넘어 샘플링의 목적이나 의의에 대해서 알아둔다면 좋을 것 같다. 위키피디아에서의 샘플의 사전적 의미는 다음과 같다. 1. 견본, (통계) 표본. 2. (음식) 시식. 타동사 1. 견본, 표본을 내다, 뽑다. 2. 시식하다. 견본이나 표본이라고 하면 익숙해서 잘 알겠으나, 시식이라는 뜻도 있다는 사실은 생소하다. 시식이라함은 마트나 음식점 등에서 어떤 음식에 대해 한 입 정도 먹어 맛을 보게 하는 것을 말하는데, 그 음식의 1인분 전체를 먹어보지 않고 그냥 한 입으로 맛을 알게끔 한다는 것에 의미가 있다. 통계에서 말하는 표본도 의미적으로는 시식과 같다. 모집단이라 불리는 전체에서 뽑은 일부분..