7.分布パラメータの推定

7-1.尤度(likelihood)

パラメータの関数としての尤度

パラメータ θ をもった分布 f(xθ) からの無作為標本(random sample) X1,…,Xn が得られたとする.このとき,標本の同時分布の確率密度は,

h(X_1, \ \ldots \ , X_n; \ \theta)=f(X_1; \ \theta) \ \cdots f(X_n; \ \theta) = \prod_i f(X_n; \ \theta)

と表せる.これを,標本が与えられたときのパラメータ θ の関数とみなし,

L(\theta)=L(\theta; \ X_1, \ \ldots \ , X_n) =\prod_i f(X_i\ ; \ \theta)

と表記する.これを,標本 X1,…,Xn の尤度(関数)という.尤度は確率モデル f(xθ) のもとで,標本 X1,…,Xn が得られる確率に比例した量である.

対数尤度(log likelihood) 

尤度は積の形で少し扱いにくいので,尤度の対数を取り和の形にした対数尤度

l(\theta) = \log L(\theta) = \sum_i \log f(X_i \ ; \ \theta)

を用いることも多い.
なお,対数尤度を θ で微分でした関数をスコア関数 (score function) S(θ) と呼ぶこともある.すなわち,
S(\theta))=\frac{\partial}{\partial \theta}l(\theta)=\frac{\partial}{\partial \theta} \log L(\theta)=\frac{\partial}{\partial \theta} \log L(\theta ; X_1, \ \ldots \ ,  X_n)
である.

Fisher 情報量 (Fisher Information)

 対数尤度の 2 階偏導関数は\hat{\theta} の近傍で負となる( L(θ) が上に凸)となるので,この関数を
I(\theta) = -\frac{\partial}{\partial \theta} S(\theta) =-\frac{\partial^2}{\partial \theta^2} \log L(\theta)
と定義したとき,これの期待値,
{\cal I}(\theta) = {\rm E}_\theta[I(\theta)]=-{\rm E}_\theta \Bigl[\frac{\partial^2}{\partial \theta^2} \log L(\theta) \Bigr]  = \mathrm{E}_\theta \Bigl[ \{ \frac{\partial}{\partial \theta} \log L(\theta) \}^2 \Bigr]
を Fisher 情報量 (expected Fisher Information) と言う.また,最尤推定量 \hat{\theta}  のもとでのこの関数の値 I(\hat{\theta} ) を Fisher 情報量 (observed Fisher Information) ということもある.一般に,{\cal I}(\theta) \ne I(\theta) であるが,正規分布やポアソン分布などの指数分布族では {\cal I}(\hat{\theta}) = I(\hat{\theta}) である.
一般に,1/I(\hat{\theta})  が \hat{\theta} の分散の近似推定値になる.すなわち, 
{\rm Var} [\hat{\theta}] \approx \frac{1}{I(\hat{\theta})}, \quad \   {\rm se}(\hat{\theta}) \approx I(\hat{\theta})^{-1/2
である.なお,se(\hat{\theta}) は \hat{\theta} の標準誤差 (standrad error) である.
以下,正規分布の場合 1/I(\hat{\theta}) が \hat{\theta} の分散に一致することを示す.

7-2.統計的推定

母集団(population)分布の形がパラメータ(母数)θ をもった f(xθ) であると想定できる場合,母集団から大きさ n の無作為標本(random sample), X1,…,Xn,を抽出し,その標本から母集団分布のパラメータ θ を推定する.たとえば,母集団が正規分布すると想定される場合,母集団母数は平均 μ,分散 σ2 になる.すなわち, θ = (μ,σ2)である.
 

統計量(statistic)

母集団からの無作為標本の任意の関数で未知のパラメータを含まないものを統計量という.これは,
T = t(X1,…,Xn)   
と表される.たとえば,標本平均,最大値,などである.標本の実現値であるデータや観測値(observation)が与えられると,統計量の具体的な値が定まる.

点推定(point estimation)

分布パラメータ θ の値そのもの,もしくは,その関数 τ(θ) の値を推定することである. θ を推定した量を \hat{\theta} と表記し,これを推定量(estimator)と呼ぶ.推定量は確率変数の関数(推定関数)で,統計量で構成される.標本の観測値が得られたときの推定量の実現値を推定値(estimate)と呼んで区別することもある.

区間推定(interval estimation)

分布パラメータ θ が含まれる範囲を確率的に
{\rm Pr}[ \hat{\theta}_1 < \theta < \hat{\theta}_2] = p, \ 0<p<1
のように推定すること.

推定量には何でもなれる

分布の未知パラメータ(母数) θ の推定量としてはどのようなものもなりうる.極端な例では,どのような標本が得られたかにかかわらず,母集団平均は 1 である,という推定方式や,最初に得られた標本の値を母集団平均とする,という方式も考えられる.このような推定方式では,母集団に対して有益な情報を与えることはほとんどないが,たまたま母集団パラメータを正確に推定することもある.つまり,競馬の単勝馬券(1 着となる馬番号を当てる)で何も考えずに 3 番の馬券を買い続ければ,たまには的中することもあるのと同じである.
このため,推定量の良さを測る尺度が必要になる.

一致推定量(consistent estimator)

母集団から大きさ n の標本 X1,…,Xn を抽出して分布パラメータ θ の推定量 \hat{\theta}_n を構成したとする.このとき,標本の大きさ n を大きくしていけば母集団母数 θ を正しく推定できることが必要であろう.つまり,任意の ε > 0 に対して,
\lim_{n \to \infty} {\rm Pr[ \ |\hat{\theta}_n - \theta | < \varepsilon \ ] =1
が成り立つ.これは,データをたくさん集めればそれだけ母集団に対して正しい知識を与える推定方法を行っていることを保証するものである.
大数の法則により,標本平均 \bar{X} = \sum_i X_i/n は母集団平均の一致推定量であることがわかる.

平均2乗誤差(Mean Squared Error : MSE)

推定量の良さを測る最も一般的な尺度である.分布パラメータ θ を統計量 T で推定したとき,平均 2 乗誤差は,Tθ との偏差の 2 乗の期待値で表される.すなわち,
{\rm MSE}(\theta)={\rm E}[ (T-\theta})^2 ] = {\rm E}[ ( t(X_1, \ \ldots \, X_n)-\theta)^2 ]

=\int \cdots \int \{ t(x_1, \ \ldots \, x_n)-\theta \}^2 f(x_1; \  \theta) \ \cdots f(x_n; \ \theta) dx_1 \ \cdots dx_n

と定義される.MSE は θ の関数であるが,どのような θ に対しても MSE が小さいような推定量 T があればよいが一般には存在しない.
一方,MSE は,

{\rm MSE}(\theta) = {\rm E}[(T-\theta)^2 ] = {\rm E}[ \{(T-{\rm E}[T])-({\rm E}[T]-\theta) \}^2 ]

={\rm E}[(T-{\rm E}[T])^2] + {\rm E}[ ({\rm E}[T]-\theta)^2 ]={\rm Var}[T]+(\theta-{\rm E}[T])^2

と変形される.ここで,θ - E[T] は推定量 T の偏り(バイアス(bias))と呼ばれる量である.つまり,平均 2 乗誤差は,推定量の分散とバイアスの 2 乗の大きさに分解できる.
なお,推定量 T の分散 Var[T] の平方根を標準誤差(Standard Error : SE)と呼ぶ.

不偏推定量(unbiased estimator)

分布パラメータ θ の推定量 T の中で,
{\rm E}[T]=\theta                                                   
となるものを不偏推定量という.

 

  不偏推定量のクラスの中では,平均 2 乗誤差は推定量の分散 Var[T] と等しくなるので,分散最小の推定量が望ましいことになる. 

Cramer - Rao の下限(Cramer - Rao lower bound)

不偏推定量のクラスで到達可能な分散の下限は,Cramer - Rao により与えられている.
いま,分布パラメータ θ のある関数 τ(θ) の不偏推定量 T の分散の下限は, Fisher 情報量を用いて,

{\rm Var}[T] \geq \frac{[\tau'(\theta)]^2}{ \calI (\theta)}

となることが知られている.Cramer - Rao の下限に一致する分散をもつ不偏推定量を有効(efficient)と言う.

頑健(ロバスト)性(robustness)

 データ(標本の実現値)が正規分布から由来するのであれば,母平均の推定量として標本平均が最小分散をもつ 不偏推定量なので,最良である.しかしながら,実際のデータが正規分布から由来するとは限らない場合もある. このようなときや外れ値(outlier)があるときでもそれなりの推定が行える推定量をロバストである,という. メディアンは,標本平均よりロバストであることが知られている.
 いま,正規分布より裾の重い t 分布を考えてみる.母集団分布が t 分布であるときの標本平均とメディアンの 分布を比較すればロバスト性が評価できる.自由度 2 の t 分布では極端な値が出やすいので,標本平均の 分散はとても大きくなっている.

8.最尤法

分布パラメータの推定法として,最もよく用いられるのが最尤法である.  

最尤推定量(Maximum Likelihood Estimator : MLE)

標本の尤度は,標本が生成する確率モデル f(xθ) のもとでの標本の同時確率密度なので,想定した確率モデル f(xθ) のもとで標本が生起する(データのような標本が実現する)確率に比例した量になる.この標本の "生起確率" を最大にするような分布パラメータ θ を求めることを最尤法という.最尤法により得られたパラメータの推定量を最尤推定量という.
多くの場合,最尤推定量は尤度をパラメータ θ で微分して 0 とおいた, 

\frac{\partial}{\partial \theta} L(\theta ; X_1, \ \ldots \ ,  X_n)=0

 の解,もしくは,対数尤度を θ で微分して 0 とおいた,

\frac{\partial}{\partial \theta} l(\theta ; X_1, \ \ldots \ ,  X_n)=\frac{\partial}{\partial \theta} \log L(\theta ; X_1, \ \ldots \ ,  X_n)=0

の解として得られる. (対数)尤度関数の微分が解析的に得られないときは,コンピュータで数値的に(対数)尤度関数の最大化を行う.