確率論 4

そろそろ慣れてきたので、標本空間や事象を考えず、確率変数に注目していく.

「確率変数」とは，確率的に値が変化する実数変数のことで，ある値の出やすさは確率分布によって与えられる（ランダムな値をとりうる変数で一度しか引けないくじみたいなものと思うといいかな）.

「確率分布」とは, 確率1を確率変数が取りうるすべての値にどう振り分けるかを表現するもの.

離散的な確率変数を考えるとき，確率分布は対応表で表現できる. (取りうるすべての値 X = a がどの確率で起こるかを表でまとめる)

連続的な確率変数を考えるとき，確率分布は確率密度関数とその積分で表現できる．

戻る　　確率論4へ

期待値と分散

期待値

確率変数Xの期待値とは, "ランダムな値をとる確率変数Xの取り得る値の平均"のこと」
■ 離散確率変数の場合
確率変数Xの確率分布をP(X=x)とすると, その期待値E(X)は以下の通り定義される．
$\displaystyle E(X) = \sum_{i=1}^{\infty}\left{ x_iP(X=x_i)\right}$

■ 連続確率変数の場合
確率変数Xの確率密度関数をf_X(x)とすると, その期待値E(X)は以下の通り定義される．
$\displaystyle E(X) = \int_{-\infty}^{\infty} xf_X(x)dx$
　

　確率変数Xとは，ランダムな値をとりうる変数で一度しか引けないくじみたいなもの．
　なので，確率変数Xの期待値E(X)は，「Xをたくさん(無限回)観察したその平均。」と定義してしまうと、(結果はあっているけど)誤り．
　E(X)は，Xの取りうる値の平均値、位がただしい（と思っている)。

次の計算式は頻出なので押さえておく.

Law of the unconscious statistician

■ 離散確率変数の場合
確率変数Xの確率分布をP(X=x)として，Xをg(X)と変換した際の期待値E(g(X))は以下の通り，
$\displaystyle E(g(X)) = \sum_{i=1}^{\infty}\left{ g(x_i)P(X=x_i)\right}$

■ 連続確率変数の場合
確率変数Xの確率密度関数をf_X(x)として，Xをg(X)と変換した期待値E(g(X))は以下の通り,
$\displaystyle E(g(X)) = \int_{-\infty}^{\infty} g(x)f_X(x)dx$

　離散確率変数の場合は，Y=g(X)という変数変換をしたと考えればよい．
　y=g(x)という値を取る確率P(Y=y=g(x))は，P(X=x)なので，明らか．

(-- 追記：2015/11/26、上の２行は間違い。明らかじゃない。すみません。。)
$\displaystyle Y = g(X)$ として,
$\displaystyle E(g(X)) = E(Y) = \sum_{y}yP(Y=y)$
$\displaystyle = \sum_{y} y\sum_{\left{x|g(x)=y\right}} P(X=x)$
$\displaystyle = \sum_{y} \sum_{\left{x|g(x)=y\right}} yP(X=x)$
$\displaystyle = \sum_{y} \sum_{\left{x|g(x)=y\right}} g(x)P(X=x)$
$\displaystyle = \sum_{x} g(x)P(X=x)$

参考にしたpdf．
(--追記ここまで--)

連続変数の場合は，期待値の定義から証明できる(pdf)．
リンク先では，g(x)≧0のケースに限定して証明している． (2重責分の積分領域の変換に若干戸惑ったが,領域を図示してしまえば理解できる)

分散

確率変数Xの分散とは，「ランダムに変化する確率変数Xのばらつき具合」を表すもの．

■ 離散確率変数の場合
確率変数Xの確率分布をP(X=x)，期待値をμとすると，その分散V(X)は以下の通り定義される．
$\displaystyle V(X) = E( (X-\mu)^2 ) = \sum_{i=1}^{\infty}\left{ (x_i-\mu)^2 P(X=x_i)\right}$

■ 連続確率変数の場合
確率変数Xの確率密度関数を f _X( x ), その期待値をμとすると, その分散V(X)は以下の通り定義される．
$\displaystyle V(X)=E((X-\mu)^2) = \int_{-\infty}^{\infty} (x-\mu)^2f_X(x)dx$

また, $\displaystyle \sigma = \sqrt{V(X)}$ を標準偏差と呼ぶ.

Law of the unconscious statisticianを定義しないで、上記の説明をされて、二個目のイコールが理解できなかったんだけど(一個目のイコールは定義)、 Law of the unconscious statisticianを知ってみると、上の式変形はすっと呑み込める。

期待値の線形性, 分散の変形

期待値は, 和分や積分で定義されるため，以下の通り線形性を持つ．

期待値の線形性

期待値の定義より，n個の確率変数X_iとスカラー値a_iについて以下が導かれる．
$\displaystyle E( a_1 X_1 + a_2 X_2 +...+a_nX_n ) = a_1E(X_1) + a_2 E(X_2) +...+ a_nE(X_n )$ 　　
$\displaystyle E\left( \sum_{i=1}^{n}a_i X_i \right) = \sum_{i=1}^{n} \left{ a_iE(X_i) \right}$

特に独立な確率変数XYに対して, f_XY(x,y) = f_X(x)f_Y(y)より以下が導かれる．
$\displaystyle E(XY)=E(X)E(Y)$

分散の変形

a)期待値の線形性より以下が導かれる
$\displaystyle V(X)=E( (X-\mu)^2 ) = E(X^2)-\mu^2$
b)確率変数Xにスカラー値aを足した分散は，以下の通り．(Xの期待値をμとした)
$\displaystyle V(X+a)=V(X)$
c)確率変数Xにスカラー値aをかけた分散は，以下の通り．(Xの期待値をμとした)
$\displaystyle V(aX)=a^2V(X)$
d)互いに独立な確率変数XYについて，以下が成り立つ (Xの期待値をμ, Yの期待値をνとした))
$\displaystyle V(X+Y)= V(X)+V(Y)$

証明)
a) $\displaystyle V(X)=E( (X-\mu)^2 ) = E( X^2 -2\mu X + \mu^2) = E(X^2)-2\mu E(X) +\mu^2=E(X^2)-\mu^2$

b) $\displaystyle V(X+a)=E( (X+a-(\mu+a))^2 ) = E( (X-\mu)^2 ) = V(X)$

c) $\displaystyle V(aX)=E( (aX-a\mu)^2 ) = a^2E( (X-\mu)^2 ) = a^2V(X)$

d) $\displaystyle V(X+Y)=E\left( ((X + Y) - (\mu+\nu))^2 \right) = E\left( (X - \mu)^2 + (Y - \nu)^2 + 2(X - \mu)(Y - \nu) \right)$
$\displaystyle =V(X) + V(Y) + 2E\left( (X - \mu)(Y - \nu) \right)$
$\displaystyle =V(X) + V(Y) + 2E(XY) - 2\mu E(Y) - 2\nu E(X) + 2\mu\nu$
$\displaystyle =V(X) + V(Y) + 2\mu\nu - 2\mu\nu - 2\nu\mu + 2\mu\nu$ (独立なのでE(XY)=E(X)E(Y))
$\displaystyle =V(X) + V(Y)$

大数の法則

X₁, X₂,..., X_n, を互いに独立で同じ分布に従う確率変数とし．各X_iの期待値をμ，分散をσ²とする．
(独立同一分布(independent and identically distributed (i.i.d))などと呼ばれる．)

このn個の確率変数の平均をZ_nとする.
$\displaystyle Z_n= \frac{X_1 + X_2 +...+ X_n }{n}$

a) Z_nの期待値は，　 $\displaystyle E(Z_n)= \mu$ となる
b) Z_nの分散は，　　 $\displaystyle V(Z_n)= \frac{\sigma}{n}$ となる

ここから，n→∞ とすると，
- 独立同一分布の平均Z_nの期待値は元の分布の期待値に一致し，
- 独立同一分布の平均Z_nの分散は0になる
事が分かる．

つまり，nが充分大きければ，
『Z_n ≒ E(X)』と近似しても良い．（この関係は後でモンテカルロ法を勉強するときに使う．）

証明)
a) $\displaystyle E(Z_n)= E \left( \frac{X_1 + X_2 +...+ X_n }{n} \right) = \frac{n\mu}{n} = \mu$
b) $\displaystyle V(Z_n)= V \left( \frac{X_1 + X_2 +...+ X_n }{n} \right) = \frac{V( X_1 + X_2 +...+ X_n )}{n^2}$ $\displaystyle = \frac{V(X_1) + V(X_2) +...+ V(X_n)}{n^2} = \frac{n \sigma^2}{n^2} = \frac{\sigma^2}{n}$ (独立の場合V(X+Y)=V(X)+V(Y)を利用した)

「確率変数Xの期待値とは，試行を無限回行ってXの値を観察しその平均をとったもの」という説明は誤りだが，大数の法則からぎりぎり許される．
(たぶん)正しくは，「確率変数Xの期待値とは，Xのとりうる値の平均値」．
(確率変数(random variable)Xは，ランダムに揺れる変数で，何回も試行したり観察したりできるものではない．[平岡et alプログラミングのための確率統計]に良い説明がある．)

以下は大数の法則の亜種．

Uniform Law of Large Numbers

X₁, X₂,..., X_n, 期待値をμ分散をσ²の独立同一分布に従う確率変数とし，f(x)を連続な関数として，Z_nを以下のように定義する.
$\displaystyle Z_n= \frac{f(X_1) + f(X_2) +...+ f(X_n) }{n}$

Z_nは，E(f(X))に確率収束する．
$\displaystyle \lim_{n\to \infty} Z_n \to E(f(X)) \;\;\;\;\;\;a.s.$

証明等，詳細はこちらを参照

中心極限定理

正規分布

次の確率密度関数に従う確率分布を平均μ分散σ²の正規分布 N(μ,σ²) と呼ぶ．
$\displaystyle f_X(x) = \frac{1}{\sqrt{2\pi\sigma^2}} \exp\left( -\frac{(x-\mu)^2}{2\sigma^2} \right)$
特にN(0,1)を標準正規分布と呼ぶ．
$\displaystyle f_X(x) = \frac{1}{\sqrt{2\pi}} \exp\left( -\frac{x^2}{2} \right)$

中心極限定理

期待値μ, 分散σ²の独立同一分布に従う確率変数 X₁,...,X_n, について，
以下の確率変数S_nを考える．
$\displaystyle S_n = \frac{\sum_{i=1}^{n}(X_i-\mu)} {\sqrt{n\sigma}}}$

このS_nの分布は，n→∞の時，標準正規分布N(0,1)に収束する．式で書くと以下の通り．.
$\displaystyle P(S_n \le a) \to \frac{1}{\sqrt{2\pi}} \int_{-\infty}^{a} exp( -\frac{x^2}{2} )dx$

この定理の面白いところは,もとの確率変数Xがどんな分布似したがっていようと，
それをたくさん集めて足してsqrt(n×分散)で割れば，その分布が標準正規分布になるということ。
次項で，大数の法則と，中心極限定理を実験的に確かめてみる．

戻る　　確率論5へ