일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | ||||
4 | 5 | 6 | 7 | 8 | 9 | 10 |
11 | 12 | 13 | 14 | 15 | 16 | 17 |
18 | 19 | 20 | 21 | 22 | 23 | 24 |
25 | 26 | 27 | 28 | 29 | 30 | 31 |
- 상관계수
- Transformer
- 통계면접
- 조건부확률
- 신뢰구간
- 검정
- 확률
- 베타분포
- 공분산
- Self-attention
- 리샘플링
- 확률분포
- 검정력
- 고유벡터
- 표본
- 확률밀도함수
- 데이터분석
- 데이터분석면접
- 선형대수
- 확률모형
- 고유값
- 평균
- 확률변수
- p-value
- 누적분포함수
- ViT
- 통계
- 모집단
- 샘플링
- 모평균
- Today
- Total
목록통계 (101)
AIMS Study Blog

확률 밀도함수는 연속형 확률 변수에 대한 확률 값을 나타내는 확률 분포함수입니다. 가장 유명한 확률 변수에 대한 예시인 주사위 눈금에 대한 확률 분포를 나타낸다고 할 때, 확률 변수는 {1, 2, 3, 4, 5, 6}으로 이산형 변수입니다. 이런 경우 6개의 원소 각각에 대한 확률 값을 나타낸 확률 분포 함수는 확률 질량 함수라고 합니다. 반면 다른 예시로 국민들의 키에 대한 분포를 나타낸다고 할 때, 확률분포는 키로, 연속형 변수가 됩니다. 그리고 각 키에 해당하는 확률을 맵핑 시킨 확률 분포 함수는 확률 밀도 함수가 됩니다. 그렇다면 누적 분포 함수는 무엇일까요? 위키피디아에 나와 있는 설명은 다음과 같습니다. 확률론에서 누적분포함수(累積分布函數, 영어: cumulative distribution f..
확률 변수와 확률 모형이란? 확률 변수 확률 변수라는 것은, 우리가 임의로 사건들을 실험을 할 때 거기에서 나오는 결과들을 특정 값으로 대응(Mapping) 시키는 변수를 의미한다. 예를 들어, 동전 2개를 던져서 나오는 그림의 개수를 확률 변수 X 라고 한다면, 동전 2개가 모두 숫자가 나오는 경우 : X = 0 하나는 그림, 하나는 숫자가 나오는 경우 : X = 1 동전 2개가 모두 그림이 나오는 경우 : X = 2 이런식으로 값을 대응시킬 수 있다는 것이다. 필자는 확률 변수와 확률 값의 관계가 정확하게 정리되지 않고 애매했었는데, 다시 한번 정리를 하자면, 확률 변수는 임의의 확률 실험을 했을 때 나올 수 있는 결과 상태를 정해진 값으로 대입하는 것을 의미한다. (위의 예시에서 X=2이 동전 2개..

확률변수와 확률모형은 무엇인가요? 확률변수는 random variable, 확률모형은 probabilistic model이다. 1. 확률 변수 확률변수는 일반적으로 X로 표기하며 확률로 표기하기 위한 event를 정의하는 것이다. 이 때 확률변수를 다양하게 정의할 수 있으므로 변수라는 용어를 사용한다. sample space S ={1, 2, 3, 4, 5, 6} 일 때 확률변수 X = {1, 2} / {1, 3, 5} / {4, 6} 등 확률변수는 보통 수학에서 다루는 미지수 X로 생각하면 되고, 확률이 정의된 Sample space 내에서 이러한 확률변수를 0과 1 사이로 mapping하는 함수를 확률 함수(확률 분포 함수)라고 한다. 이산 확률 변수 확률변수가 취할 수 있는 값이 이산적, 즉 정수인..
확률 변수와 확률 모형에 대해 다뤄보겠습니다. 위키피디아에는 확률의 뜻이 다음과 같이 나와있습니다. "확률(確率, probability)은 어떤 일이 일어날 가능성을 측량하는 단위로 비율이나 빈도로 나타낸다." 어떤 일이 일어날 가능성이 확률이라면 "어떤 일"을 확률 변수라 생각하면 됩니다. 그리고 그 확률 변수에 해당하는 확률로 나타내는 함수가 확률 분포 함수입니다. 물론 확률 변수가 이산형인지, 연속형인지에 따라 확률 질량 함수, 확률 밀도 함수로 다른 종류의 함수이긴 합니다만, 핵심은 "어떤 일"에 해당하는 확률 변수에 대해 각각의 확률 변수를 확률로 사상시키는 함수를 확률 함수라고 합니다. 그렇다면 확률 모형은 무엇일까요? 쉽게 말해 가지고 있는 데이터가 어떤 분포를 가지고 있는지, 확률 분포 함..
Q. 누적 분포 함수와 확률 밀도 함수는 무엇일까요? 수식과 함께 표현해주세요 누적 분포 함수 누적 분포 함수 (Cumulative Distribution Function, cdf) 는 확률 변수 X가 특정값 a보다 작거나 같을 확률을 뜻한다. 누적 분포 함수 F(x)는 아래와 같이 표시할 수 있다. 누적 분포 함수의 성질은 아래와 같다. 누적 분포 함수는 말 그대로 누적된 확률을 나타내므로, 입력값이 커질 수록 출력값은 크거나 같다. a < b 이면 Pr (X < a) ≤ Pr (X < b)이다. 입력값이 작을 수록 누적된 확률은 0에 가까워지고, 입력값이 커질 수록 cdf 값은 1에 가까워 진다. (또는 1이 된다.) 모든 입력값에 대해 치역은 0 이상 1 이하이다. 이산 확률 변수처럼 값들이 끊어져..
Q. 확률 모형과 확률 변수는 무엇일까요? 확률 모형 확률 모형은 데이터의 분포를 수학적으로 정의하는 방법을 뜻한다. 확률 분포 함수라고 불리는 미리 정해진 함수의 수식을 사용하며 이때 함수들의 계수를 모수(parameter)라고 부른다. 가장 널리 쓰이는 확률 모형 중 하나인 가우시안 정규 분포는 아래와 같은 수식으로 확률 분포 함수를 정의한다. 우리는 어떤 데이터의 분포를 묘사하기 위해 히스토그램을 통해 각 데이터를 일일이 표시하지 않아도, 아래의 문장을 통해 데이터 분포에 대한 정보를 전달할 수 있다. 이 데이터는 평균 mu, 표준편차 sigma인 가우시안 정규 분포를 따른다. 이러한 확률 모형론을 사용하는 것은 가상의 주사위가 있다고 가정하는 것이다. 주사위를 통해서 기존에 확보한 데이터가 없어지..
Question 확률 모형과 확률 변수는 무엇일까요? 확률변수 (random variable)란? 변수란 특정 조건에 따라 변하는 값을 의미한다. 확률변수는 확률에 따라 변하는 값을 의미한다. 확률변수의 다양한 정의 - 확률변수의 정의는 무작위 실험을 했을 때, 특정 확률로 발생하는 각각의 결과를 수치로 표현한 변수이다. - 확률변수는 일반적으로 X로 표기하며 확률로 표기하기 위한 event를 정의하는 것이다. - 확률변수(random variable)란, 확률현상에 기인해 결과값이 확률적으로 정해지는 변수를 의미한다. 이 때 확률변수의 값을 셀 수 있는지 없는지에 따라 이산확률변수, 연속확률변수로 나눈다. 이산확률변수란, 확률변수가 취할 수 있는 모든 값들이 하나씩 셀 수 있는 경우이다. 주사위나 동전..
샘플링과 리샘플링에 대해 설명해주세요. 리샘플링은 무슨 장점이 있을까요? 샘플링(Sampling)이란? 데이터를 분석할 때, 우리는 모집단 전체에 대해 조사하는 것이 사실상 불가능하다. 그렇기 때문에 모집단에서 일부만 사용하여 모집단의 패턴을 최대한 나타낼 수 있어야 한다. 이를 위해 모집단의 일부인 표본만 추출하는데, 이를 샘플링(sampling)이라고 한다. 샘플링을 통해 얻은 표본으로 모집단 전체에 대한 추정치를 얻을 수 있으면 좋겠지만 현실적으로는 한계가 있다. 모집단의 일부만 사용하기 때문에 모집단의 경향을 온전하게 나타낼 수 없으며, 이러한 모집단과의 차이는 노이즈로써 작용한다. 이를 보완하기 위해 제안되는 방법이 리샘플링(resampling)이다. 그렇다면 리샘플링은 무엇일까? 리샘플링(Re..
통계나 데이터 분석 등을 공부하다보면 샘플링이라는 말을 자주 접하게 된다. 단순히 전체에서 일부를 뽑는다는 의미를 넘어 샘플링의 목적이나 의의에 대해서 알아둔다면 좋을 것 같다. 위키피디아에서의 샘플의 사전적 의미는 다음과 같다. 1. 견본, (통계) 표본. 2. (음식) 시식. 타동사 1. 견본, 표본을 내다, 뽑다. 2. 시식하다. 견본이나 표본이라고 하면 익숙해서 잘 알겠으나, 시식이라는 뜻도 있다는 사실은 생소하다. 시식이라함은 마트나 음식점 등에서 어떤 음식에 대해 한 입 정도 먹어 맛을 보게 하는 것을 말하는데, 그 음식의 1인분 전체를 먹어보지 않고 그냥 한 입으로 맛을 알게끔 한다는 것에 의미가 있다. 통계에서 말하는 표본도 의미적으로는 시식과 같다. 모집단이라 불리는 전체에서 뽑은 일부분..
샘플링 (Sampling) 표본추출을 의미하며, 모집단으로부터 무작위(임의의) Sample을 뽑는 것을 의미한다. 예를들어 우리나라 사람들의 IQ 분포(모집단)가 있다고 하자. 이때 모든 사람의 IQ를 알기란 어렵기 때문에, 샘플링을 통해 어느정도의 모집단을 추론(Inference) 할 수 있다. 하지만 이렇게 샘플링 된 데이터는 모집단 그 자체는 아니기 때문에, 모집단과 유사하지만 노이즈가 존재한다. 우리나라 사람들의 IQ분포를 샘플링을 통해 100명을 뽑아 구성했는데, 이 100명의 데이터의 추세가 모집단과 비슷할 수는 있지만 동일하지 않기 때문이다. 원래의 모집단의 패턴과 다를 수 있음을 뜻한다. 따라서 이를 보완하기 위해 리샘플링을 해볼 수 있다. 리샘플링 (Resampling) 리샘플링은 아까 ..