確率変数と確率分布

要約
本講義では、確率論および統計解析の基礎を成す確率変数と確率分布の概念を深く掘り下げる。確率変数を「確率実験の結果に依存する数」として定義し、その分布関数を導入し、その重要性および本質的性質を強調する。最後に、確率変数と確率分布の関係を分析し、二つの確率変数が同じ分布を持ちながらも同一の確率変数ではない場合があることを説明する。

学習目標:
本講義を終える時点で、学生は次のことができるようになる:

理解する 確率変数の概念: 学生は確率変数とは何であり、どのように数学的に定義されるかを記述し、説明できなければならない。
理解する 確率分布の概念: 学生は確率分布とは何であり、どのように表現されるかを説明できなければならない。
記述する 確率分布の性質: 学生は確率分布の主要な性質を認識し、説明できなければならない。
分析する 確率変数と確率分布の関係: 学生は確率変数と確率分布がどのように相互に関連しているか、また二つの確率変数が同じ分布を持ちながらも同一の確率変数ではない可能性について議論できなければならない。
証明し応用する 確率分布の性質を実際の状況において: 学生は確率分布の性質を数学的に証明し、これらの性質を現実の状況に応用できなければならない。
理解する 分布関数の概念: 学生は分布関数とは何であり、確率変数を記述するためにどのように用いられるかを説明できなければならない。

目次:
確率変数とは何か?
確率分布とは何か?
確率分布の性質
確率変数と確率分布の関係

確率論および統計解析における重要な概念の一つが、確率変数と確率分布である。これまでに展開してきた理論はある意味で「完成」しているものの、現状ではかなり初歩的な段階にとどまっている。確率変数と確率分布は、言わば「確率を扱い、統計解析を行うための能力に潤滑油を与える」概念である。

確率変数とは何か?

確率変数の概念に慣れるために、直観的なアプローチから始めるのが有用である。確率変数は「確率実験の結果に依存する数」と解釈できる。しかし、より正確に理解するためには、その形式的定義を探ることが不可欠である。次にその定義を示す:

定義: 集合 $\mathcal{X}$ 上の確率変数とは、関数 $f:\Omega \longmapsto \mathcal{X}$ である。

最も一般的な場合は $\mathcal{X}= \mathbb{R},$ であり、特に断らない限り今後はこれを仮定する。すなわち、実数値を取る確率変数を扱う。通常、確率変数は $X,Y,Z, \cdots,$ のような大文字で表され、定数は小文字で表される。簡単のため、確率変数を単に「変数」と呼ぶことにする。

例: 6面体のサイコロを2回投げると仮定する。このとき次のようになる:

$\Omega_{2d6} = \{(\omega_1, \omega_2)\;|\; \omega_1,\omega_2 \in \{1,2,3,4,5,6\}\}$

ここから次の確率変数を定義できる:

$X=$ 「1が出た回数」
$Y=$ 「得られた結果の和」 $=\omega_1 + \omega_2$
$Z=$ 「2回目の投擲の結果」 $= \omega_2$

確率分布とは何か?

定義: 分布関数（または「FD」） 確率変数 $X$ の分布関数とは、次の関係で定義される関数 $F_X: \mathbb{R} \longmapsto \mathbb{R}$ である: $F_X(x) = P(\{\omega \;|\; X(\omega)\leq x\}),$ あるいはより簡潔に表せば $P(X\leq x).$

一般的に、確率変数に関して重要なのは、標本空間 $\Omega$ における明示的な表現そのものではなく、その分布関数である。添字 $X$ は、文脈が明確で曖昧さがない場合には $F_X$ から省略されることがある。確率変数 $X$ が分布関数 $F$ を持つことを示すために、しばしば $X\sim F$ という表記が用いられる。

確率分布の性質

もし $F$ が確率分布であるならば、 $a,b$ が任意の実数であるとき、次の性質が成り立つ:

(a) $a\lt b \longrightarrow [P(a\lt X \leq b) = F(b) - F(a)]$

(b) $a\lt b \longrightarrow F(a) \leq F(b),$ すなわち「F は単調増加である」。

(d) $\displaystyle P(X=x)=\lim_{t\to x^+}F(t) - \lim_{t\to x^-}F(t)$

(e) $\displaystyle F(x)=\lim_{t\to x^+}F(t)$

証明

(a) $a\lt b$ とする。このとき、イベント $A=\{X\leq a\}$ および $B=\{X\leq b\}$ を考えると、 $A\subseteq B$ が成り立つ。したがって次のようになる:

$\color{blue}{P(a\lt X\leq b)} = P(B\setminus A) = P(B) - P(B\cap A) = P(B)-P(A) =\color{blue}{F(b) - F(a)}$

(b) 部分 (a) より、 $P(B\setminus A)\geq 0$ であるため、次が成り立つ:

$F(b) - F(a) \geq 0$

これは次のことと同値である:

$F(a) \leq F(b)$

(c) ここでは、 $F$ が単調増加であり（(b) で証明済み）、最大値が「1」である（分布は確率で定義されるため）ことを用いる。このことから次が従う:

$\displaystyle \lim_{x\to +\infty} F(x) = 1$

これに補足的なアプローチを加えると、同じ結果を得る次の計算が可能となる。

集合を定義する: $A_n=\{\omega\;|\;X(\omega)\leq n\}.$ ここから容易に確認できるのは、任意の $n$ に対して $A_{n}\subseteq A_{n+1}$ が成り立ち、また $\displaystyle\bigcup_{n\lt +\infty} A_n = \Omega$ である。したがって、連続性の性質を用いると次が得られる:

$\displaystyle 1=P(\Omega) = P\left( \bigcup_{n\lt +\infty} A_n \right) = \lim_{n\to +\infty} P(A_n) = \lim_{n\to +\infty} P(\{\omega\;|\;X(\omega)\leq n\}) = \lim_{n\to +\infty} P(X\leq n)=\lim_{n\to +\infty}F(n)$

すなわち:

$\displaystyle \color{blue}{\lim_{x\to +\infty} F(x) = 1}$

一方で、 $x\to -\infty$ の場合には次のことが成り立つ:

まず集合を定義する: $B_n=\{\omega\;|\;-n\lt X(\omega)\}.$ ここから次が確認できる:

$\displaystyle \lim_{n \to -\infty}F(n) = \lim_{n\to -\infty} P(X\leq n) = \lim_{n\to \infty} P(X\leq -n)= 1 - \lim_{n\to \infty} P(-n \lt X) = 1 - \lim_{n\to \infty}P(B_n)) = 1 - P(\Omega) = 1-1=0$

(d) 部分 (c) と同様に議論する。まず次の集合を定義する:

$\displaystyle C_n = \left\{x - \frac{1}{n} \leq X \leq x + \frac{1}{n}\right\}$

ここから次が得られる:

$C_{n+1}\subseteq C_n$

$\displaystyle \bigcap_{n\gt 0} C_n = \{X=x\}$

したがって、連続性の性質に基づく結果を用いると次が得られる:

$\displaystyle P(X=x)=P\left(\bigcap_{n\gt 0} C_n \right) = \lim_{n\to \infty} P(C_n) = \lim_{x+1/n \to x^+}F\left(x+1/n\right) - \lim_{x-1/n \to x^-}F\left(x-1/n\right)= \lim_{t \to x^+}F\left(t\right) - \lim_{t \to x^-}F\left(t\right)$

(e) この最後のケースは前の結果から得られる。実際、すでに次を証明したので:

$\displaystyle P(X=x)= \lim_{t \to x^+}F\left(t\right) - \lim_{t \to x^-}F\left(t\right)$

これを書き換えると次のようになる:

$\displaystyle \lim_{t \to x^+}F\left(t\right) = P(X=x) + \lim_{t \to x^-}F\left(t\right) = P(X=x) + \lim_{t\to x^-}P(X\leq t)= P(X\leq x) = F(x)$