5.正規母集団からの標本に基づく推論

独立な正規分布の合成分布

平均 μ1,分散 σ12,の正規分布からの標本 XN( μ1,σ12 ) と,平均 μ2,分散 σ22,の正規分布からの標本 YN( μ2,σ22 ) があり,両者が互いに独立であるとする.(Y の値は X の値の影響を受けない.)
 

正規分布に基づく母数の区間推定

正規分布は,平均 μ と分散 σ2 の2つの母数を持つ.2つの母数とも未知であるのが普通であるが,片方が既知であるときは母数に関する推論は簡単に行える.このため,多少非現実的な設定であるが,まず,既知の場合を考え,その後,より一般的である2つの母数とも未知である場合を扱う.

分散既知の場合の母平均 μ の区間推定

正規分布する母集団で母分散 σ2 がわかっている場合は,未知の母平均 μ に関する区間推定は以下のように行える.
いま,正規分布 N( μ,σ2 ) において,大きさ n の標本 x1x2,…,xn を抽出したとき,母平均は標本平均で推定される.標本平均 \bar{x} の分布は,
x_i \sim N(\mu, \ \sigma^2) \to \bar{x} \sim N(\mu, \ \frac{\sigma^2}{n}) \to z=\frac{\bar{x}-\mu}{\sigma/\sqrt{n}} \sim N(0, \ 1)
となる.標準正規分布の 97.5%分位点を z0.975(= 1.96)とすると,標準正規分布する確率変数 z が -z0.975 から z0.975 に入る確率は 0.95 となる.つまり,

{\rm Pr}[-z_{0.975}<\frac{\bar{x}-\mu}{\sigma/\sqrt{n}}<z_{0.975}] = 0.95

{\rm Pr}[\bar{x}-z_{0.975}\cdot \frac{\sigma}{\sqrt{n}}<\mu<\bar{x}+z_{0.975}\cdot \frac{\sigma}{\sqrt{n}}]=0.95

{\rm Pr}[\bar{x}-d<\mu<\bar{x}+d]=0.95, \ d=z_{0.975}\cdot \frac{\sigma}{\sqrt{n}}


 となる.最後の式を母集団平均 μ の 95% 信頼区間(confidence interval)と言う.
このように,母数の信頼区間を標本から推定することを区間推定という.区間推定においては,信頼区間の幅 2d が小さい程よい.すなわち,母分散が小さい母集団で,標本の大きさ(サンプルサイズ)が大きい程,精度の高い推定が行える.

平均既知の場合の母分散 σ2 の区間推定

正規母集団で母平均 μ がわかっているとき,大きさ n の標本 x1x2,…,xn を抽出したとき,母分散は,

\hat{\sigma}^2=\frac{1}{n} \sum_i(x_i-\mu)^2

で推定される.ところで,標本は
 x_i \sim N(\mu, \ \sigma^2) \to z_i=\frac{x_i-\mu}{\sigma} \to N(0, \ 1) \to z_i^2=\frac{(x_i-\mu)^2}{\sigma^2} \sim \chi^2(1)

\to U=\sum_iz_i^2 =\frac{\sum_i(x_i-\mu)^2}{\sigma^2} \sim \chi^2(n)

 と分布するので,自由度 n の χ2 の 2.5%分位点と 97.5%分位点をそれぞれ, χ2n0.025,χ2n0.975 とすると,

{\rm Pr}\bigl[ \chi^2(n)_{0.025}<\frac{\sum(x_i-\mu)^2}{\sigma^2}<\chi^2(n)_{0.975}\bigr]=0.95

{\rm Pr} \Bigl[ \frac{\sum(x_i-\mu)^2}{\chi^2(n)_{0.975}} <\sigma^2 < \frac{\sum(x_i-\mu)^2}{\chi^2(n)_{0.025}} \Bigr]=0.95

が成り立つ.下の式の区間を母分散 σ2 の 95%信頼区間と言う.
 

平均未知の場合の母分散 σ2 の区間推定

正規母集団では,母数が未知であるのが普通であろう.このとき,大きさ n の標本 x1x2,…,xn を抽出したとき,母平均 μ と母分散 σ2 は,そえぞれ標本平均 \bar{x} と標本分散 s2

\bar{x}=\frac{1}{n}\sum_ix_i, \ s^2=\frac{1}{n-1}\sum_i(x_i-\bar{x})^2

で推定される.母平均 μ の信頼区間を述べる前に母分散 σ2 の信頼区間の構成法を述べる.
ところで,標本や標本平均は, 

x_i \sim N(\mu, \ \sigma^2)\to \frac{\sum_i(x_i-\mu)^2}{\sigma^2} \sim \chi^2(n)

\bar{x} \sim N(\mu, \ \frac{\sigma^2}{n}) \to \frac{n(\bar{x}-\mu)^2}{\sigma^2} \sim \chi^2(1)

と分布する.一方, 

\sum_i(x_i-\mu)^2 = \sum_i\{(x_i-\bar{x})+(\bar{x}-\mu)\}^2=\sum_i(x_i-\bar{x})^2+n(\bar{x}-\mu)^2

と計算されるので,(n - 1)s22 という量は, 
\frac{(n-1)s^2}{\sigma^2}=\frac{\sum(x_i-\bar{x})^2}{\sigma^2}=\frac{\sum_i(x_i-\mu)^2}{\sigma^2}-\frac{n(\bar{x}-\mu)^2}{\sigma^2}\sim \chi^2(n)-\chi^2(1)=\chi^2(n-1)
と,自由度 n - 1 の χ2 分布に従うことがわかる.
自由度 n - 1 の χ2 分布の 2.5%分位点と 97.5%分位点をそれぞれ, χ2n - 1)0.025,χ2n - 1)0.975 とすると,
{\rm Pr}\bigl[ \chi^2(n-1)_{0.025}<\frac{(n-1)s^2}{\sigma^2}<\chi^2(n-1)_{0.975}\bigr]=0.95
{\rm Pr} \Bigl[ \frac{\sum(x_i-\mu)^2}{\chi^2(n-1)_{0.975}} <\sigma^2 < \frac{\sum(x_i-\mu)^2}{\chi^2(n-1)_{0.025}} \Bigr]=0.95
が成り立つ.下の式の区間を母分散 σ2 の 95%信頼区間と言う.

分散未知の場合の母平均 μ の区間推定

前節で考えたように,正規母集団の母数が未知ときは,大きさ n の標本 x1x2,…,xn から,母平均 μ と母分散 σ2 は,そえぞれ標本平均 \bar{x} と標本分散 s2 で推定される.
標本平均 \bar{x} の分布は標準化すると,
\bar{x} \sim N(\mu, \ \frac{\sigma^2}{n}) \to z=\frac{\sqrt{n}(\bar{x}-\mu)}{\sigma} \sim N(0, \ 1)
のように標準正規分布となり,標本分散に関係する量は,
U=\frac{(n-1)s^2}{\sigma^2} \sim \chi^2(n-1)
のように自由度 n - 1 の χ2 分布する.これより,zU をその自由度 n - 1 で割った量の平方根との比は,
t =\frac{z}{\sqrt{U/(n-1)}}=\frac{\sqrt{n}(\bar{x}-\mu)/\sigma}{s/\sigma}=\frac{\sqrt{n}(\bar{x}-\mu)}{s} \sim t(n-1)
のように自由度 n - 1 の t 分布に従う.
自由度 n - 1 の t 分布の 97.5%分位点を t(n - 1)0.975 とすると, t 分布する確率変数 t 値が -t(n - 1)0.975 から t(n - 1)0.975 に入る確率は 0.95 となる.つまり, 
{\rm Pr}[-t(n-1)_{0.975}<\frac{\sqrt{n}(\bar{x}-\mu)}{\sigma}<t(n-1)_{0.975}] = 0.95
{\rm Pr}[\bar{x}-t(n-1)_{0.975}\cdot \frac{s}{\sqrt{n}}<\mu<\bar{x}+t(n-1)_{0.975}\cdot \frac{s}{\sqrt{n}}]=0.95
{\rm Pr}[\bar{x}-d<\mu<\bar{x}+d]=0.95, \ d=t(n-1)_{0.975}\cdot \frac{s}{\sqrt{n}}
となる.最後の式を母分散未知のときの母集団平均 μ の 95% 信頼区間と言う.
 

6.確率変数の関数の分布

6-1.確率変数の和の分布

確率変数 X1,…,Xn に対し,
が成り立つ.

5-2.変数変換

 X を密度関数 fX(x) をもつ連続型確率変数としたとき,y = g(x) が 1 対 1 の変換であり,x = g-1(y) の導関数が連続で 0 にならないとすると,Y の確率密度関数は,
 
となる.

5-3.デルタ(Delta method)法

 確率変数 X の平均と分散が \mu_X ={\rm E}[X], \ \sigma^2_X = {\rm Var}[X],   であるとする.このとき,Y = g(X),という変数変換を行ったとする.デルタ法とは g(X) を X の平均のまわりでテイラー展開することにより, Y の平均や分散を X の平均や分散で近似的に表す方法である.1 次の項までのテイラー展開は,
なので,これの分散をとると,
となる.このように Y の分散は X の平均と分散の値から近似的に求めることができる.
平均に関しては 2 次の項までテイラー展開し,
これの期待値をとり,
として近似の精度をより上げることができる.

5-4.積の分布

確率変数 XY の平均が μXμY であるとき, 

が成り立つ.

5-5.比の分布

確率変数 XY の平均が μXμY であるとき,2 変数関数のデルタ法(省略)を用いると,

の近似が成り立つ.

5-6.最大値,最小値の分布

 n 個の互いに独立で同一の分布をもつ確率変数 X1,…,Xn に対し,Y1 = min(X1,…,Xn),Yn = max(X1,…,Xn),とする.最大値 Yn の累積分布関数と確率密度関数はそれぞれ,

となる.また,最小値 Y1 の分布は,

F_{Y_1}(y) = {\rm Pr}[Y_1 \leq y] =1-{\rm Pr}[Y_1 >y ] = 1- {\rm Pr}[X_1>y, \ \cdots \ , X_n>y]

=1-\prod_i {\rm Pr}[X_i>y]=1- \prod_i[1 - F_{X_i}(y)]=1-[1-F_X(y)]^n

となる.