4.1変量分布

4-1.離散分布の例

離散一様分布(discrete uniform distribution)

N 個のセルがあり,各セルの生起確率が互いに等しく,Pr[X = i] = 1/N である分布.
 平均: E[X ] = (N + 1)/2,分散: Var[X ] = (N2 - 1)/12.
 たとえば,サイコロの出る目の分布.

表 2 :離散一様分布
変数 X    1 2 3 4 5 6
確率 P    1/6 1/6 1/6 1/6 1/6 1/6

 

ベルヌイ分布(Bernoulli distribution)

成功(X = 1)確率が p,失敗(X = 0)確率が q = 1 - p である分布.
 平均: E[X ] = 0・q + 1・p = p, 分散: Var[X ] = E[X2] - (E[X ])2 = 02q + 12p - p2 = p(1 - p) = pq

二項分布(binomial distribution)

独立な n 回のベルヌイ試行を行ったときの成功回数 X の分布.その確率密度は,
 

f(x; \ n, \ p) = {}_n {\rm C}_x p^x (1-p)^{n-x} = {}_n {\rm C}_x p^x q^{n-x} , \ x=0,1,2, \cdots, n


である.X ~ B(np) と書くこともある.積率母関数は,
 

 m(t) ={\rm E}[e^{tX}]=\sum_x e^{tx} {}_n {\rm C}_x p^xq^{n-x} =\sum_x {}_n {\rm C}_x (pe^t )^xq^{n-x}=(pe^t + q)^n

 
となる.この関数の微分して t = 0 とおくと,二項分布の平均と分散は以下のように計算される.
 

 m'(t)= npe^t(pe^t+q)^{n-1}, \ m''(t)=n(n-1)(pe^t)^2(pe^t+q)^{n-2}+npe^t(pe^t+q)^{n-1}

 平均:{\rm E}[X]=m'(0)=np ,分散:{\rm Var}[X]=m''(0)-(np)^2=n(n-1)p^2+np-(np)^2=np(1-p)=npq
 
 

幾何分布(geometric distribution)

 成功確率を p とし,0 以上の整数 X に対し,確率密度が,
 

f(x; \ p) = p(1-p)^x, \ x=0,1,2, \ \cdots

 
となる分布. 下の負の二項分布で n = 1 とおけば,積率母関数と平均,分散が以下のように得られる.
 

 m(t)=\frac{p}{1-qe^t}, \ q=1-p

 {\rm E}[X] = \frac{q}{p} = \frac{1-p}{p}, \ {\rm Var}[X] = \frac{q}{p^2}=\frac{1-p}{p^2}

 
 成功確率 p のベルヌイ試行において,最初の成功が起こるまでの失敗の回数の分布. すなわち,離散的時間を考えた場合,初めて成功するまでの待ち時間の分布.
 

幾何分布のグラフの R スクリプト
x <- 0:100 #本当は無限大まで必要(永遠に1が出ない) 
p <- 1/6 #成功確率 
y <- dgeom(x, p) #幾何分布の確率密度) 
# x は 0 から 20 まで表示
plot(x, y, type="h", cex.lab=0.8, xlim=c(0,20), xlab="サイコロを無駄に振った回数", ylab="確率密度")
title(main="1 の目が出るまで振る回数の分布") #タイトル 
sum(x*y) #平均((1 - p)/p = (5/6)/(1/6) = 5) 
sum(y*(x - (1-p)/p)^2) #分散((1 - p)/p2 = (5/6)/(1/36) = 30) 

超幾何分布(hypergeometric distribution)

 m 個の白石と n 個の黒石が入った袋から k 個の石を無作為に取り出したとき, 白石の個数 X の従う確率密度は,
 

f(x; \ m, \ n, \ k) = \frac{ {}_m {\rm C}_x \ {}_n {\rm C}_{k-x}}{ {}_{m+n} {\rm C}_k}, \ x = 0, 1, 2, \cdots, k
 

で与えられる.この平均と分散の計算は多少面倒だが,以下のようになる.(計算略)
 
 平均:{\rm E}[X]=kp,分散:{\rm Var}[X]=kp(1-p)(m+n-k), \ p=\frac{m}{m+n}
 

ポアソン分布(Poisson distribution)

正のパラメータ λ と,0 以上の整数 X に対し,確率密度が
 

f(x; \ \lambda)=e^{-\lambda} \ \frac{\lambda^x}{x!}, \ x=0,1,2, \ \cdots 

 
となる分布.積率母関数とその微分は,
 

 m(t)={\rm E}[e^{tX}]= \sum^\infty_{x=0} \frac{e^{tx}e^{-\lambda}\lambda^x}{x!} = e^{-\lambda} \sum^\infty_{x=0} \frac{(\lambda e^t)^x}{x!} = e^{-\lambda} e^{\lambda e^t}

 m'(t)=\lambda e^{-\lambda} e^t e^{\lambda e^t}, \ m''(t)=\lambda e^{-\lambda} e^t e^{\lambda e^t} ( \lambda e^t +1)

 
なので,平均と分散は以下のようになる.ポアソン分布の平均と分散は等しいことに注意.
 
 平均:{\rm E}[X] = m'(0)=\lambda
 分散:{\rm Var}[X]={\rm E}[X^2] - ({\rm E}[X] )^2 = m''(0)-\lambda^2 = \lambda(\lambda+1)-\lambda^2=\lambda
 

負の二項分布(negative binomial distribution)

 成功確率が p で,正のパラメータ n をもち,0 以上の整数 X に対し,確率密度が
 

f(x; \ n, \ p) = {}_{n+x-1} {\rm C}_x p^n (1-p)^x =\frac{\Gamma(x+n)}{\Gamma(n)x!} p^n (1-p)^x, \ x =0,1,2,\cdots,

\Gamma(s) =\int_0^{\infty} x^{s-1} e^{-x} dx, \  \Gamma(s+1)=s\Gamma(s), \  \Gamma(n) =(n-1)!

 
となる分布.Γ 関数で確率密度を定義すれば,n は必ずしも整数である必要はない. 積率母関数とその微分は
 
 m(t) = {\rm E}[e^{tX}] = \sum_{x=0}^{\infty} e^{tx}  {-r \choose x}p^n(-q)^x = \sum_{x=0}^{\infty} {-r \choose x}p^n(-qe^t)^x  = \left(\frac{p}{1-qe^t} \right)^n

 
 m'(t)=p^n(-n)(1-qe^t)^{-n-1}(-qe^t)
m''(t)=nqp^n [q(n+1)e^{2t}(1-qe^t)^{-n-2} + e^t (1-qe^t)^{-n-1} ]
 
となるので,平均と分散は以下のようになる.
 
 平均:{\rm E}[X] = m'(0) = \frac{nq}{p}
 分散:{\rm Var}[X] = {\rm E}[X^2] -({\rm E}[X])^2 = m''(0)-\Bigl( \frac{nq}{p} \Bigr)^2 
=nqp^n[qp^{-n-2}(n+1)+p^{-n-1}] - \Bigl(\frac{nq}{p} \Bigr)^2 = \frac{nq^2}{p^2} + \frac{nq}{p} = \frac{nq}{p^2}
 
 成功率 p のベルヌイ試行において,n 回の成功が起こるまでの失敗の回数の分布で,幾何分布は負の 二項分布で n = 1 とおいたものである.
 

離散分布あてはめのまとめ

 記事数や虫歯数などのカウントデータに離散分布をあてはめるとき留意する点は,データの平均と分散の大きさ を比較することである.
 
  
データ適応する分布   平均    分散
  平均>分散     二項分布 np np(1 - p)
  平均≒分散     ポアソン分布 λ λ
  平均<分散     負の二項分布      n(1 - p)/p       n(1 - p)/p2