일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | 5 | ||
6 | 7 | 8 | 9 | 10 | 11 | 12 |
13 | 14 | 15 | 16 | 17 | 18 | 19 |
20 | 21 | 22 | 23 | 24 | 25 | 26 |
27 | 28 | 29 | 30 | 31 |
- 확률모형
- 확률분포
- p-value
- 공분산
- 검정력
- 리샘플링
- 통계
- 데이터분석면접
- 샘플링
- 표본
- 평균
- 데이터분석
- 베타분포
- 상관계수
- Transformer
- 신뢰구간
- 조건부확률
- 누적분포함수
- 모집단
- 선형대수
- 통계면접
- 확률밀도함수
- 고유값
- 모평균
- 확률변수
- 검정
- 확률
- Self-attention
- ViT
- 고유벡터
- Today
- Total
목록통계 (101)
AIMS Study Blog

데이터를 분석할 때, 특히 EDA를 할 때 feature 간의 상관관계를 파악하는 경우가 많이 있습니다. 이런 경우 주로 상관계수를 분석한다고 합니다. 이 상관관계수가 무엇인지, 그리고 공분산이 무엇인지 알아보겠습니다. 간단히 말하자면, 상관계수는 공분산을 단위화시킨 것입니다. 데이터마다 다른 스케일을 가지고 있기 때문에, 상관관계의 절대적인 값으로 표현하기 위해 단위화 시키는 것입니다. 따라서 우리는 공분산의 개념을 먼저 알아야 합니다. 어느정도 데이터 분석 경험이 있거나 통계 분석이 있는 분들은 공분산의 정의를 모르더라도 상관관계와 연관을 지어 어떤 역할을 하는 것인지는 추론이 가능할 것입니다. 위키피디아의 공분산의 정의는 다음과 같습니다. 공분산(共分散, 영어: covariance)은 2개의 확률변..
Q. 신뢰 구간의 정의는 무엇인가요? 신뢰 구간이란? 실생활에서는 모집단 전체에 대한 분석이 어렵기 때문에 우리는 일반적으로 샘플링된 표본 데이터를 기반으로 분석한다. 신뢰 구간(Confidence Interval)은 샘플링된 데이터를 기반으로 모수의 범위를 추정하기 위해 사용되는 방법이다. 신뢰 구간에 모집단 실제 평균값이 포함될 확률을 '신뢰 구간의 신뢰 수준(Confidence level)'이라고 하며, 신뢰 구간 관련 문제를 풀 때 나오는 95%, 99% 같은 수치가 이 신뢰 수준에 해당한다. 신뢰 수준이 낮을수록 신뢰 구간의 범위는 넓어진다. 신뢰 구간은 다음의 수식으로 표현된다. $$\bar{X}\pm Z\frac{s}{\sqrt{n}}$$ 이때 $\bar{X}$는 평균, $Z$는 신뢰 수준에..
Q. 공분산과 상관계수는 무엇일까요? 수식과 함께 표현해주세요. 공분산이란? 공분산(Covariance)은 2개의 확률 변수의 상관 관계를 나타내는 값이다. 두 확률 변수 X, Y에 대해 공분산은 다음과 같이 계산된다. $E(X) = \mu_X , E(Y) = \mu_Y$이면 $$ Cov(X,Y)= E((X-\mu_X)(Y-\mu_Y))$$ 두 확률 변수의 관계에 따라 공분산의 값의 범위가 나뉘는데, X, Y가 독립이면 $Cov(X, Y) = 0$, 상관 없음 X가 증가할 때 Y도 같이 증가하면 $Cov(X, Y) > 0$, 양의 상관관계 X가 증가할 때 Y는 감소하면 $Cov(X, Y) < 0$, 음의 상관관계 공분산의 문제점 공분산은 두 확률 변수의 상관관계가 어떤 방향인지(양의 방향, 음의 방향, ..

- 공분산(Covariance)이란? 공분산은 2개의 확률변수의 상관정도를 나타내는 값이다. 확률 변수 X, Y가 있다고 가정할 때, 확률변수의 값에 따른 상관정도의 그래프를 아래와 같이 그릴 수 있다. 제일 왼쪽에 있는 그래프는 X값이 증가할 수 록 Y의 값도 증가하는 Positive(+) Relationship, 가운데에 있는 그래프는 X값이 증가할 수록 Y값은 감소하는 Negative(-) Relationship이라고 할 수 있다. 맨 오른쪽의 그래프는 X와 Y는 관계가 없는, No Relationship을 나타내는 그래프라고 할 수 있다(비상관 확률변수). 공분산의 수식은 아래와 같다. - 상관계수(correlation coefficient)란? 하지만 공분산은 상관관계의 방향만을 알려주며, 정도..

신뢰구간이란 무엇인가요? 1. 신뢰 구간(Confidence Interval) 통계학에서 신뢰 구간 (Confidence Interval)은 모수가 어느 범위 안에 있는지를 확률적으로 보여주는 방법이다. 집단 전체를 연구하는 것은 불가능하므로 샘플링된 데이터를 기반으로 모수의 범위를 추정하기 위해 사용된다. 신뢰 구간은 샘플링된 표본이 연구중인 모집단을 얼마나 잘 대표하는지 측정하는 방법이고, 신뢰구간(CI)에 따라 모집단 실제 평균값이 포함될 확률을 'CI의 신뢰수준(Confidence Level)'이라 한다. 일반적으로 95%의 신뢰수준이 사용된다. 표본 평균 분포 모양을 잘 보면 정규분포 모양을 하고 있는데, 정규분포에서 평균값을 중심으로 2 * 표준편차의 범위는 약 95%의 면적을 차지한다. 구하..

공분산과 상관계수는 무엇일까요? 수식과 함께 표현해주세요 1. 공분산(Covariance, Cov) 공분산은 2개의 확률변수의 선형 관계를 나타내는 값이다. 2개의 변수 중 하나의 값이 상승하는 경향을 보일 때 다른 값도 상승하는 선형 상관성이 있다면 양의 공분산 값을 가진다(a). 반대로 하강하는 선형 상관성이라면 음의 공분산 값을 가진다.(b) 정리하자면, (a) Cov(X, Y) > 0 X가 증가 할 때 Y도 증가한다. (b) Cov(X, Y) < 0 X가 증가 할 때 Y는 감소한다. (c) Cov(X, Y) = 0 공분산이 0이라면 두 변수간에는 아무런 선형관계가 없으며 두 변수는 서로 독립적인 관계에 있음을 알 수 있다. 공분산의 정의는 다음과 같다. 공분산의 성질 만약 X, Y가 실수값인 확률..

신뢰구간이란 무엇인가요? 일반적으로, 우리가 모르는 정보에 대해서 통계를 통해 추론을 하는 경우, 모집단을 전부 조사할 수 없는 경우가 대부분이다. 이 경우에는 모집단에서 특정 표본들만을 랜덤으로 추출하여 이것을 통계적인 기법들을 통해서 모집단의 정보를 추론하게 되는데, 이 때, 사용되는 것이 신뢰구간에 대한 개념이다. 신뢰 구간(Confidence Interval, CI) 표본을 추출하게 되면, 표본에 대한 평균을 구할 수 있게 된다. 하지만, 표본의 평균이 모집단의 평균과 얼마나 비슷할지, 혹은 얼마나 떨어져있을 지에 대해서는 모집단의 평균을 알지 않는 이상은 알아낼 수가 없다. 대부분의 경우에서는 표본 평균은 모평균을 중심으로 정규분포의 형태를 띄고 있다(이것에 대한 이유는 중심극한정리를 통해서 알..

Question. 공분산과 상관계수는 무엇일까요? 수식과 함께 표현해주세요 공분산 (Covariance) 공분산이란 2개의 확률변수의 상관관계의 정도를 나타내는 값이다. 공분산의 값이 양수라면, 두 확률변수는 양의 선형 관계가 있고, 공분산의 값이 음수라면 두 확률변수는 음의 선형관계가 있다. 또, 공분산은 아래와 같은 성질을 가진다. 같은 확률변수에 대한 공분산은 확률변수의 분산과 같으며, Cov(X,Y) = Cov(Y,X)로 동일하다. 또한, Cov(aX, bY)의 경우 ab Cov(X, Y)와 같다. 피어슨 상관계수에 사용되는 표본 공분산은 다음과 같다. 상관계수 (Correlation Coefficient) 상관계수는 두 변수 사이의 통계적 관계를 표현하기 위해 특정한 상관관계의 정도를 수치적으로..

공분산과 상관계수 공분산과 상관계수를 계산하는 목적 공분산과 상관계수는 두 변수 간 어떤 선형적 관계를 가지고 있는지 알아보기 위한 상관분석에서 사용되는 개념들이다. 공분산(Covariance) 공분산은 2개의 확률변수 X, Y가 있다고 가정했을 때, X에서 X의 평균을 뺀 값과, Y에서 Y의 평균을 뺀 값의 곱에 대한 기댓값을 의미한다. 수식은 다음과 같다. 이 식은 계산을 통해서 다음과 같이 나타낼 수 있다. 공분산의 값을 통해서 두 확률변수 X, Y가 서로 어떤 선형적 상관관계를 가지고 있는지에 대해서 알아볼 수 있다. 공분산이 양의 값을 가지면, X가 증가할 때 Y가 증가하는 양의 선형 관계에 있다. 공분산이 음의 값을 가지면, X가 증가할 때 Y는 감소하는 음의 선형 관계에 있다. 두 확률변수 ..

Q. 신뢰 구간의 정의는 무엇인가요? 신뢰구간 (Confidence Interval, CI) 신뢰구간은 실제 모수가 포함될 것으로 예측되는 범위를 뜻한다. 이를 통해 샘플링된 표본이 연구중인 모집단을 얼마나 잘 대표하는지 측정할 수 있다. 신뢰구간이 좁을 수록 모평균의 추정치가 정확해진다. 또한 일반적으로 샘플 크기가 클 수록 신뢰 구간이 좁아진다. 신뢰수준은 어떤 값이 알맞은 추정값이라고 믿을 수 있는 정도를 나타내며, 일반적으로 95% 신뢰 수준이 사용된다. 95% 신뢰수준이라하면, 샘플을 랜덤하게 추출해 신뢰구간을 구하는 일을 20번 반복할 때, 그 중 한번은 신뢰구간 안에 모집단의 평균이 없을 수도 있음을 뜻한다. 신뢰구간의 계산은 아래와 같은 방식으로 할 수 있다. 관측 개수 (n), 평균 (X..