안녕하세요. 본수학 저자입니다.
오늘은 연속확률변수에 대해 알아보도록 하겠습니다.
지금까지 배운 확률변수는 특정값을 가질 때 확률이 어땠는지 알 수 있습니다.
우리는 이것을 이산확률변수라 합니다.
하지만 연속확률변수는 특정값을 가질 때 확률을 구하기가 매우 어렵습니다.
예를 들어 학생들 키를 확률변수라 하면 173cm와 같이 1의 자리로 키를 구하면
몇 명이 있는지 확인 할 수 있습니다만 정확히 173.323423\(\cdots\)와 같이 구하고자 하면 구할 수가 없죠.
따라서 범위를 지정해주면 연속확률변수도 확률을 구할 수 있습니다.
오늘은 연속확률변수의 성질과 기댓값, 분산, 표준편차에 대해서 알아보도록 하겠습니다.
목차
1. 연속확률변수의 정의
1.1 연속확률변수란?
지금까지 셀 수 있는 값을 취하는 확률변수인 이산확률변수를 다뤘습니다. 예를 들어 주사위의 눈을 확률변수라 했을 때 1부터 6까지의 값을 취하기 때문에 이산확률변수입니다.
길이나 무게와 같이 실수의 어느 구간인 연속적인 값을 취하는 확률변수를 연속확률변수라 한다.
수학과 대학과정에 들어가시면 coutable set(가산집합)과 uncountale set(비가산집합)의 개념을 배우십니다. 이 개념은 셀수 있다 없다의 개념입니다. 수를 예로 들면 자연수, 유리수는 가산집합이고 실수는 비가산집합입니다. "아니 자연수나 유리수도 끝이 없는데 어떻게 세요?"라고 할 수 있습니다. 여기서 셀 수 있다라는 것은 한 개, 두 개 이렇게 셀 수 있다는 것을 뜻하면 정확히는 자연수 1, 2, 3, \(\cdots\)와 1대1 대응이 가능하다는 것을 뜻합니다. 즉 자연수와 유리수는 1, 2, 3, \(\cdots\)와 1대1 대응이 가능하여 가산집합입니다만 실수는 대응이 불가능하여 비가산집합입니다. 이산확률변수는 가산집합(자연수나 유리수)에 값을 취하는 확률변수고 연속확률변수는 비가산집합(실수)에 값을 취하는 확률변수라 생각하시면 됩니다. 연속확률변수이 확률분포와 통계적 추정 분야에 핵심 개념입니다.
1.2 히스토그램의 일반화
어느 고등학생 100명의 키를 알아본 결과 다음과 같은 결과를 얻었다고 생각합시다.키(cm) | 도수 | 상대도수 |
140cm 이상 150cm 미만 | 10 | 0.10 |
150cm 이상 160cm 미만 | 25 | 0.25 |
160cm 이상 170cm 미만 | 40 | 0.40 |
170cm 이상 180cm 미만 | 20 | 0.20 |
180cm 이상 190cm 미만 | 5 | 0.05 |
합계 | 100 | 1.00 |
사각형의 면적이 상대도수 즉 \(X\)의 값이 각 구간에 속한 확률과 일치합니다.
이 때 \(150 \leq X <170\)이면 \(0.25+0.40=0.65\)가 됩니다.
자 그러면 키를 10cm로 나누지 않고 더 세밀하게 쪼개면 어떻게 될까요?
위의 히스토그램의 사각형은 더 많아지겠죠?
다음과 같이 말입니다.
이 때 사각형의 면적을 \(y=f(x)\)와 \(x\)축간의 면적으로 근사가 가능합니다.
우리는 이 면적을 적분으로 배웠습니다.
즉 연속확률변수가 어느 범위의 값을 가질 확률은 \(y=f(x)\)를 적분하여 얻을 수 있습니다.
여기서 근사란 키의 구간 10cm를 더 작은 구간으로 쪼개는 것을 뜻하며
이산확률변수를 연속확률변수로 근사시켜 얻는 과정입니다.
2. 연속확률변수의 성질
2.1 연속확률변수의 성질과 확률밀도함수
위의 하나밖에 존재하지 않는 함수 \(f(x)\)를 확률변수 \(X\)의 확률밀도함수라 하고 \(y=f(x)\)의 그래프를 \(X\)의 분포곡선이라 한다.
3. 연속확률변수의 기댓값, 분산, 표준편차
3.1 연속확률변수의 기댓값, 분산, 표준편차
\(\alpha \leq X \leq \beta\)의 범위에 어느 연속확률변수 \(X\)의 확률밀도함수가 \(f(x)\)일 때 다음과 같이 정의한다.
평균 \(E(X)=m=\displaystyle{\int_{\alpha}^{\beta}xf(x)dx}\)
분산 \(V(X)=\displaystyle{\int_{\alpha}^{\beta}(x-m)^{2}f(x)dx=E(X^{2})-\{E(X)\}^{2}}\)
표준편차 \(\sigma(X)=\sqrt{V(X)}\)
연속확률변수 \(X\)에 대해서도 \(V(X)=E(X^{2})-\{E(X)\}^{2}\)이 성립하는 것을 보여라.
3.2 연속확률변수의 변환
연속확률변수 \(X\)와 실수 \(a, b\)에 대해 연속확률변수 \(Y\)를 \(Y=aX+b\)라 하자. 이 때 다음을 알 수 있다.
평균 \(E(Y)=E(aX+b)=aE(X)+b\)
분산 \(V(Y)=V(aX+b)=a^{2}V(X)\)
【증명】
연속확률변수 \(X\)의 확률밀도함수를 \(f(x)\)라 하자.
\( \begin{align}
\displaystyle E(aX+b) & = \int_{\alpha}^{\beta}(ax+b)f(x)dx \\
& = a\int_{\alpha}^{\beta}xf(x)dx+b\int_{\alpha}^{\beta}f(x)dx \\
& = aE(X)+b\cdot 1 \\
& = aE(X)+b
\end{align} \)
분산에 대해서도 증명하여라.
오늘의 학습 정리
【연속확률변수】
실수의 어느 구간인 연속적인 값을 취하는 확률변수를 연속확률변수라 한다.
【연속확률변수의 기댓값, 분산, 표준편차】
평균 \(E(X)=m=\displaystyle{\int_{\alpha}^{\beta}xf(x)dx}\)
분산 \(V(X)=\displaystyle{\int_{\alpha}^{\beta}(x-m)^{2}f(x)dx=E(X^{2})-\{E(X)\}^{2}}\)
표준편차 \(\sigma(X)=\sqrt{V(X)}\)
연속확률변수는 통계적 추정에 사용되는 변수로 이산확률변수보다 훨씬 많이 사용됩니다.
연속확률변수라는 개념 때문에 확률론이 해석학에 포함된다고 생각하고 있습니다.
연속확률변수 \(X\) (\(\alpha \leq X \leq \beta\))에 대해 다음의 성질을 갖는 하나의 함수 \(f(x)\)가 존재한다.
(1) \(f(x) \geq 0\)
(2) 확률 \(P(a\leq X\ \leq b)\)는 \(y=f(x)\)와 \(x\)축 및 \(x=a\), \(x=b\)로 둘러싸인 부분의 면적과 같다.
\(P(a \leq X \leq b)= \displaystyle{\int_{a}^{b}f(x)dx}\)
위의 성질로부터 다음을 알 수 있다.
\(P(X=a)=0\), \(P(a\leq X\leq b)=P(a< X \leq b)\)
(3) \(P(\alpha \leq x \leq \beta)=\displaystyle{\int_{\alpha}^{\beta}f(x)dx=1}\)