4-2.連続型分布の例

一様分布(uniform distribution)

 2 つのパラメータ ab ab) をもつ確率密度関数が

f(x; a, b) = \frac{1}{b-a}, \  \ a < x < b

で表される分布.
平均: {\rm E}[X] = \int^b_a \ \frac{x}{b-a} dx= \Bigl[ \frac{x^2}{2(b-a)} \Bigr]^b_a = \frac{b^2-a^2}{2(b-a)}=\frac{a+b}{2}
分散: {\rm Var}[X]={\rm E}[X^2]-({\rm E}[X])^2 = \int^b_a \ \frac{x^2}{b-a}dx- \frac{(a+b)^2}{4}=\frac{b^3-a^3}{3(b-a)}-\frac{(a+b)^2}{4}
=\frac{1}{12}\{4(a^2+ab+b^2)-3(a^2+2ab+b^2) \}=\frac{(b-a)^2}{12}
課題:単位円内に落ちた乱数の個数から π の近似値を求めよ. また,π の近似の精度を上げて π の近似値を再計算せよ

β(ベータ)分布(beta distribution)

 2 つの正のパラメータ ab をもつ確率密度関数が

f(x;a,b)=\frac{1}{B(a, \ b)}x^{a-1}(1-x)^{b-1}=\frac{\Gamma(a+b)}{\Gamma(a) \Gamma(b)}x^{a-1}(1-x)^{b-1}, \ 0<x<1

で表される分布. X ~ Beta(a, b) と表記することもある.
{\rm E}[X^r] = \frac{1}{B(a, \ b)} \int^1_0 x^{r+a-1}(1-x)^{b-1} dx = \frac{B(r+a, \ b)}{B(a, \ b)}
= \frac{\Gamma(r+a)\Gamma(a)}{\Gamma(r+a+b)} \cdot \frac{\Gamma(a+b)}{\Gamma(a)\Gamma(b)}= \frac{\Gamma(r+a)\Gamma(a+b)}{\Gamma(a)\Gamma(r+a+b)}
であるので,
平均: {\rm E}[X] = \frac{\Gamma(a+1)\Gamma(a+b)}{\Gamma(a)\Gamma(a+b+1)}=\frac{a! (a+b-1)!}{(a-1)! (a+b)!}=\frac{a}{a+b}
分散: {\rm Var}[X]={\rm E}[X^2]-({\rm E}[X])^2 = \frac{\Gamma(a+2)\Gamma(a+b)}{\Gamma(a)\Gamma(a+b+2)}- \Bigl(\frac{a}{a+b} \Bigr)^2
=\frac{(a+1)a}{(a+b+1)(a+b)}-\Bigl( \frac{a}{a+b} \Bigr)^2 = \frac{ab}{(a+b+1)(a+b)^2}

ベイズ(bayes)の定理

条件付き確率(conditional probability)とベイズの定理
 2つの事象 AB の生起確率を P[A], P[B] とし,事象 AB が同時に起こる確率を P[AB] とする.このとき, 事象 A が生起したときに事象 B が生起する確率を,事象 B の条件(付き)確率といい,P[B|A] と表記するとこれは, 右下図をみてもわかるように,
conditional conditional
と計算される.  条件確率の式から,
bayes
が成り立つ.最後の関係式をベイズの定理(逆確率の定理)という.
 事象 B がいくつかの互いに排反な部分事象 B1,…,Bn に分割されているときは, ベイズの定理は,

P[Bi|A] = P[A|Bi]P[Bi]/P[A], P[A] = ΣP[A|Bi]P[Bi]
となる.なお,P[Bi] を事象 Bi の事前(prior)確率, P[Bi|A] を事後(posterior)確率という.

成功確率のベイズ推定

パラメータのベイズ推定
 ある固定した値であるパラメータ θ をもつデータ分布は p(x;\  \theta )  と記述される.しかし,パラメータ θ がある事前分布(prior distribution) p(\theta ) を持つと想定するときは,データ分布は事前分布のあるパラメータの値 θ での条件付き分布(conditional distribution) p(x|\theta )  の形で記述される.このとき,xθ の同時分布(joint distribution)は,

p(\theta , x)=p(\theta )p(x|\theta )=p(x)p(\theta |x)

とかけるので,ベイズの定理より,

p(\theta |x)=\frac{p(\theta ,x)}{p(x)}=\frac{p(\theta )p(x|\theta )}{p(x)}, \ \ p(x)=\int p(\theta )p(x|\theta )d\theta

となる. p(\theta |x)  を θ の事後分布(posterior distribution)という.x の周辺分布(marginal distribution)である分母の p(x)  の計算が面倒なときは,分母を無視して,

p(\theta |x)\propto p(\theta )p(x|\theta )

と書ける.この単純な記述がベイズモデルの核心をなしている.
成功確率の事後分布
 成功確率を θ とすると,0 ≦ θ ≦ 1 なのでその事前分布として自然なものはパラメータ a, b のベータ分布 Beta(a, b) である。ここで, 定数項の B(a, b) を取ると,

p(\theta ) \propt \theta ^{a-1} (1-\theta )^{b-1}

となる.ここで,n 回のベルヌイ試行を行い,x 回の成功というデータが得られたとすると,二項確率の式より,

p(x|\theta ) \propt \theta ^x (1-\theta )^{n-x}

を得る.これより θ の事後分布は,

p(\theta |x) \propt p(\theta )p(x|\theta ) = \theta ^{x+a-1} (1-\theta )^{n-x+b-1}

となる.これはベータ分布 Beta(x + a, n - x + b) である.
 この事後分布の平均は,

{\rm E}[\theta |x]=\frac{x+a}{n+a+b}

となるので,これが θ の事後平均推定値(ベイズ推定値)となる.一方,

\frac{d}{d\theta }p(\theta |x) \propt  (x+a-1)\theta ^{x+a-2}(1-\theta )^{n-x+b-1}-(n-x+b-1)\theta ^{x+a-1}}(1-\theta )^{n-x+b-2} 
   =\{ (x+a-1)(1-\theta )-(n-x+b-1)\theta  \}\theta ^{x+a-2}(1-\theta )^{n-x+b-2} 
   =-\{(n+a+b-2)\theta -(x+a-1)\}\theta ^{x+a-2}(1-\theta )^{n-x+b-2}=0

を解くと,

\theta = \frac{x+a-1}{n+a+b-2}

となるので,この点が事後分布の最大値となる.この点を θ の推定値とするのが MAP 推定(Maximum a posterior estimation)である.

無情報事前分布(non-informative prior)
 成功確率 θ の事前分布として何ら情報がないとき,区間 (0, 1) の一様分布を考えるのが自然である.このような事前分布を無情報事前分布という.
これは,a = b =1 のベータ分布 Beta(1, 1) なので,n 回のベルヌイ試行で x 回の成功が観察されたときのθのベイズ推定値と MAP 推定値は,それぞれ,

\hat{\theta }_{\rm Bayes} = \frac{x+1}{n+2}, \ \ \hat{\theta }_{\rm MAP}=\frac{x}{n} 

である.

ベータ二項分布

 二項分布に従うと思われていたデータが想定よりも大きな分散をもっていたため,二項分布モデルで 説明できないことがある.これを過分散(over disparsion)という.このようなとき,二項分布 の成功確率 p がベータ分布に従うというモデルが考えられる.この分布をベータ二項分布 という.このように,パラメータに分布を想定したときに生成される 分布を伝染分布(contagious distribution)という.これは,パラメータ分布を事前分布とするベイズ的な考え方 と近いように見えるが,パラメータの事後分布という概念が無いときはベイズではない。
 ベータ二項分布が出てくるモデルとしては,正しいコインを n 回トスしたときに表が出る 回数 x の分布は二項分布 Binom(n, p = 0.5) に従うが,いま,正しくない コインがたくさん袋に入っており,そこからコインを取りだしてトスをしてコインを袋に戻す.これを n 回繰り返したときの表の出る回数 x の分布である.すなわち,袋の中のコインの 表が出る確率がコインごとに異なり,それがベータ分布に従っていると想定している.
密度関数
 いま,二項分布 Binom(n, p) の密度関数を f(x |p ), 成功確率 p の密度関数を g(p |a, b) とすると, これらはそれぞれ,

f(x|p) = nCx p^x (1 - p)^(n-x)
g(p|a,b) = p^(a-1) (1 - p)^(b-1)/B(a, b)

となる.このとき,

μ = a/(a+b), θ = 1/(a+b)

とおくと,ベータ分布の平均と分散はそれぞれ,

E[p] = μ, Var[p] = μ(1-μ)θ/(1+θ)

となる.
 ベータ二項分布は xp の同時分布を p で積分して 周辺化した x の周辺分布(marginal distribution)である.すなわち,

f(x|a,b) = ∫[0,1] f(x,p|a,b)dp = ∫[0,1] f(x|p)g(p|a,b)dp
= ∫[0,1] nCx p^x (1-p)^(n-x) p^(a-1) (1-p)^(b-1)/B(a,b) dp
= [nCx/B(a,b)] ∫[0,1] p^(x+a-1) (1-p)^(n-x+b-1) dp
= [nCxB(x+a,n-x+b)/B(a,b)
がベータ二項分布の密度関数である.
 ベータ二項分布の平均と分散はそれぞれ,

E[x] = nμ, Var[x] = nμ(1-μ)[1+(n-1)θ/(1+θ)]

となる.ベータ分布で θ → 0 とすると,Var[p] → 0 となり,ベータ分布は μ に集中 した分布に退化する.このとき,Var[x] → nμ(1-μ) になり,ベータ二項分布は二項分布 Binom(n, μ) に収束する.

指数分布(exponential distribution)

 正のパラメータ \lambda をもつ確率密度関数が

f(x; \ \lambda})= \lambda e^{-\lambda x}, \ x>0

で表される分布.
下のガンマ分布で,a = 1,s = 1/λ,とおいて,
m(t) = {\rm E}[e^{tX}] = \frac{\lambda}{\lambda-t}, \ t<\lambda
平均: {\rm E}[X] = \frac{1}{\lambda},  分散: {\rm Var}[X] = \frac{1}{\lambda^2}

指数分布密度関数の R スクリプト
curve(dexp(x, 1), 0, 10) #指数分布の密度関数 
abline(v=0, h=0) # y 軸,x 軸表示 
title(main="指数分布")# 

Γ(ガンマ)分布(gamma distribution)

 正の形状(シェープ)パラメータ a,正のスケールパラメータ s をもつ確率密度関数が
f(x;a,s)=\frac{1}{s^a\Gamma(a)} x^{a-1} e^{-x/s}, \ x>0
で表される分布.形状パラメータが a = 1 で,λ = 1/s とおくと指数分布に一致する.
m(t)={\rm E}[e^{tX}] = \int^\infty_0 \frac{1}{s^a \Gamma(a)} e^{tx} x^{a-1} e^{-x/s} dx
=\frac{1}{(1-st)^a} \int^\infty_0 \frac{(1-st)^a}{s^a \Gamma(a)} x^{a-1}e^{-\frac{1-st}{s}} dx =(1-st)^{-a}, \ st<1
m'(t) = as(1-st)^{-a-1}, \ m''(t)=a(a+1)s^2(1-st)^{-a-2}
平均: {\rm E}[X] = m'(0)=as
分散: {\rm Var}[X]={\rm E}[X^2]-({\rm E}[X])^2 = m''(0)-(as)^2 = a(a+1)s^2-a^2s^2 = as^2

コーシー分布(Cauchy distribution)

位置パラメータ a と正のスケールパラメータ s をもつ確率密度関数が
f(x;a,s)=\frac{1}{\pi s \Bigl\{1 + \frac{(x-a)^2}{s^2} \Bigr\}}, \ -\infty < x < \infty 
で表される分布.積率母関数 m(t) が計算できないので,平均も分散も存在しない.

コーシー分布密度関数の R スクリプト
curve(dcauchy(x), -5, 5) #コーシー分布の密度関数 
abline(v=0, h=0) # y 軸,x 軸表示 
title(main="コーシー分布") # 

正規分布(normal distribution)

平均 μ,分散 σ2 の2つのパラメータをもつ確率密度関数が
f(x: \mu, \sigma^2) = \phi(x; \mu, \sigma^2) = \frac{1}{\sqrt{2\pi \sigma^2}} e^{-\frac{(x-\mu)^2}{2\sigma^2}}, -\infty <x < \infty
で表される分布で,Nμσ2)と表記する.μ は位置パラメータ(location parameter)で, スケールパラメータ σ を標準偏差(standard deviation)という.
   m(t)={\rm E}[e^{tX}]=e^{t\mu}{\rm E}[e^{t(X-\mu)}]=e^{t\mu} \int^\infty_{-\infty} \frac{1}{\sqrt{2\pi \sigma^2}}e^{t(x-\mu)}e^{-\frac{1}{2\sigma^2}(x-\mu)^2}dx
     =e^{t\mu}\frac{1}{\sqrt{2\pi \sigma^2}} \int^\infty_{-\infty}e^{-\frac{1}{2\sigma^2}[(x-\mu)^2-2\sigma^2t(x-\mu)]}dx=e^{t\mu}\frac{1}{\sqrt{2\pi \sigma^2}} \int^\infty_{-\infty} e^{-\frac{1}{2\sigma^2}[(x-\mu-\sigma^2t)^2-\sigma^4t^2]}dx
      =e^{\mu t}e^{\frac{1}{2}\sigma^2 t^2} \frac{1}{\sqrt{2\pi \sigma^2}} \int^\infty_{-\infty} e^{-\frac{1}{2\sigma^2}(x-\mu-\sigma^2 t)^2}dx=e^{\mu t + \frac{1}{2}\sigma^2 t^2
m'(t)=(\mu+\sigma^2 t)e^{\mu t + \frac{1}{2}\sigma^2 t^2}, \ m''(t)=\sigma^2 e^{\mu t + \frac{1}{2}\sigma^2 t^2}+(\mu+\sigma^2 t)e^{\mu t + \frac{1}{2}\sigma^2 t^2}
平均: {\rm E}[X] = m'(0)=\mu
分散: {\rm Var}[X]={\rm E}[X^2]-({\rm E}[X])^2 = m''(0)-\mu^2 = \sigma^2 +\mu^2-\mu^2 = \sigma^2

χ2 (カイ 2 乗)分布(chi-squared distribution)

 正の自由度パラメータ n をもつ確率密度関数が
f(x; n)=\frac{1}{2^{n/2}\Gamma ( n/2 )} x^{n/2-1}e^{-x/2}, \ x>0 
で表される分布.ガンマ(Γ)分布で,シェープパラメータを a = n/2, スケールパラメータを s = 2,とおいた分布.
平均: {\rm E}[X]=as = n/2 \cdot 2 = n,
分散: {\rm Var}[X] = as^2 = n/2 \cdot 4 = 2n 

F 分布(F distribution)

 正の 2 つの自由度パラメータ mn をもつ確率密度関数が
f(x;m,n)=\frac{\Gamma \bigl( \frac{m+n}{2} \bigr) }{\Gamma \bigl(\frac{m}{2} \bigr) \Gamma \bigl(\frac{n}{2} \bigr)} \Bigl( \frac{m}{n} \Bigr) ^{\frac{m}{2}} x^{\frac{m}{2}-1}  \Bigl(1+\frac{m}{n}x \Bigr)^{-\frac{m+n}{2}}, \ x>0
で表される分布.
平均: {\rm E}[X] =\frac{n}{n-2}, \ n>2
分散: {\rm Var}[X]=\frac{2n^2(m+n-2)}{m(n-2)^2(n-4)}, \ n>4

t 分布(t distribution)

正の自由度パラメータ n をもつ確率密度関数が
 f(x;n) = \frac{\Gamma \bigl(\frac{n+1}{2} \bigr)}{\sqrt{n\pi} \Gamma \bigl( \frac{n}{2} \bigr)} \Bigl(1 + \frac{x^2}{n} \Bigr)^{-\frac{n+1}{2}}, -\infty<x<\infty
で表される分布.
標準正規分布より裾が重く(x が 0 より離れてもなかなか確率密度が 0 に近づかない), 自由度が小さいほど裾が重くなる.自由度 n = 1 のときはコーシー分布になり,n = ∞ のときは 標準正規分布となる.