8.仮説検定(Test of hypothesis)

帰無仮説(H0)と対立仮説(H1

統計学で扱う仮説(hypothesis)とは,母集団に対する断定や推測.たとえば,

などである.

統計的仮説検定で用いられる仮説は,まず,帰無仮説(null hypothesis)という形式で与えられる.
帰無仮説は棄却(reject)されることに意味がある仮説である.
帰無仮説と反対の仮説を対立仮説(altanative hypothesis)という.

上の3番目の例でみると,

帰無仮説: 母集団 A と母集団 B の平均は等しい. (H0: μA = μB
対立仮説: 母集団 A と母集団 B の平均は等しくない. (H1: μA ≠ μB

母集団 A と母集団 B は異なる処理(薬の投与など)をしているので,実験の目的 は,母集団 A と母集団 B の平均は異なる(処理効果がある)ことを言いたい (対立仮説が正しいことを望む)のだが,まずは 「等しい(処理効果無し)」と仮定してみようという考え方で, 数学の背理法と似た論理である.

背理法:√2 が無理数であることを証明するため,まず√2 が有理数であると仮定し,矛盾があることを 示す.つまり,有理数であることは絶対ありえない(確率 0 である!)ことを示す. この矛盾は,そもそも√2 を有理数とした仮定が誤っていたからであると考え,有理数という仮定を 棄却して,無理数であることを証明する.

検定の概要

検定統計量(Test statistic)

 標本から算出される量で,検定に用いられるもので,t 値(t value),F 値(F value)などがある. この値から帰無仮説を受託(accept)(採択)するか 棄却(reject)(対立仮説の採択)するかを判定する.

p 値(p value)と有意水準(Significance level)

 統計的仮説検定では,たとえば2つの母集団平均が等しいという帰無仮説を考えると, この帰無仮説のもとで,検定統計量(標本平均の差に基づく t 値など)以上 (もしくは未満)の値が得られる確率を求める.R ではこの値が p 値で表示される.
 p 値は くだけた言い方をすれば,帰無仮説が正しいとしたときに,標本のようなデータが得られる確率 である.
 これが十分小さい(ほとんどありえない)ときは,平均が等しいと仮定したことが誤りであったと判断して 帰無仮説を棄却し,2つの母集団平均には差があると結論づける.
 この確率がそれほど小さく ない場合は,このような統計量が得られることもありえると考え,帰無仮説を採択し,平均が等しいと考え てもよいとする.
 棄却か採択かの判断の基準となる確率を有意水準といい, 5 %1 % がよく用いられる.

 統計のソフトが発達していなかった頃は,検定統計量である t 値や F 値を電卓等で算出し,その値を t 分布や F 分布の 5 %や 1 %の有意水準に対応する数表と照らし合わせて検定を行い,5 %有意とかを 記述していた.
 現在では,ソフトが検定統計量に対する p 値を直接計算してくれるので数表はいらなくなった.この結果, 検定に重要な数字であった t 値や F 値より,より直接的な p 値が重要な指標になってきた.p 値を みれば,何%有意かが一目でわかるので,結果にわざわざ 5 %有意とかを記述する必要がなくなってきており, 論文の書き方も変わってきている.

片側検定と両側検定

実験状況によっては,薬投与などの処理を行った集団(処理群)平均 μA が,薬を投与しない 集団(対照群)の平均 μB より小さくなることはないことが事前に わかっているような場合が ある.このようなとき,

帰無仮説,H0: μA = μB
対立仮説,H1: μA > μB
となる.これは,事前情報より,μA < μB となる可能性 をまったく考えない場合である.
このため検定には,片側 5 %点や 1 %点を用いる.

両側検定と信頼区間

母集団平均に対する両側検定は,母集団平均に対する信頼区間と大きな関係がある. いま,帰無仮説(H0)と対立仮説(H1)が,

H0:μ = μ0
H1:μ ≠ μ0
であり,母分散 σ2 が既知のときを考える.
標本の大きさがnで,標本平均が \bar{x} であったとすると,母平均μに対する 95%信頼区間は,
{\rm Pr} \Bigl[ -1.96 < \frac{\sqrt{n}(\bar{x}-\mu)}{\sigma} < 1.96 \Bigr] = 0.95 
{\rm Pr} \bigl[ \bar{x} - 1.96 \cdot\frac{\sigma}{\sqrt{n}} < \mu < \bar{x} + 1.96 \cdot\frac{\sigma}{\sqrt{n}} \Bigr] 
となる.
 一方,この検定の検定統計量は,標本平均の標準化値の絶対値
|z| =\frac{\sqrt{n} |\bar{x} - \mu_0 |}{\sigma}
で, 有意水準 5 %で帰無仮説を受諾するのは,検定統計量 |z| が両側 5 %点である 1.96 以下のときである.つまり,
帰無仮説を受諾 ⇔ -1.96 < \frac{\sqrt{n}(\bar{x}-\mu)}{\sigma}} <1.96
である.この両者の関係より,
帰無仮説を受諾 ⇔ 母平均の信頼区間に μ0 が含まれる.
帰無仮説を棄却 ⇔ 母平均の信頼区間に μ0 が含まれない.
が成り立つ

検定における2種類の過誤

検定は,仮説を棄却するか採択するかのいずれかであるが, 統計量は分布をもつので,この判定には間違いが起こることがある.
以下のように,この過誤には 2 種類がある.

統計的検定における2種類の過誤
  仮説の棄却(reject) 仮説の採択(accept)
仮説が真(true)のとき 第1種の過誤(Type 1 error) 正解
仮説が偽(false)のとき 正解 第2種の過誤(Type 2 error)

第1種の過誤が有意水準である.また,第2種の過誤の確率を β としたとき, 仮説が偽のとき正しく仮説を棄却する確率,1 - β,を検出力,もしくは検定力(power)という. よい検定は,第1種の過誤を固定したもとで検出力の高い検定方式である.

正規母集団の母平均に対する t 検定

1つの母集団に対する検定(One sample problem)

 平均 μ,分散 σ2 がともに未知である正規母集団に対して,
帰無仮説 H0: μ = μ0
対立仮説 H1: μ ≠ μ0
の両側検定を考える.  いま,母集団から大きさ n の無作為標本 x1x2,…,xn を抽出したところ,標本平均が x-,標本分散が s2 であったとする. 帰無仮説のもとでは,標本平均は,
ttest
と分布するので,これを,標本平均の標準誤差 s/√n で標準化した t は,
ttest
のように自由度 n - 1 の t 分布に従う.この分布の97.5%分位点を t(n - 1)0.975 とすると, 有意水準 5 %の検定は,
|t| > t(n - 1)0.975
のとき帰無仮説を棄却する.|t| が検定統計量で,この値を |t| 値という.

なお,この検定は,対のある標本に適用できる.対のある標本とは,n 組のペアー標本(paired smple),

(x1y1 ),(x2y2 ), …,(xnyn )
からなる.正規性の仮定のもとでは,
xi 〜 N( μi,σx2 ), yi 〜 N( μi + δ,σy2 )
ここで興味ある母数は δ であり,μ1,…,μn は攪乱母数(nuisance parameter) である.yixi の差を取ると,
ziyixizi 〜 N( δ,σz2 )
となるので,1つの母集団に対する検定に帰着する.なおこの問題は, 反復のない 2×n の2元配置と考えて解くこともできる.

2つの母集団に対する検定(Two sample problem)

 2つの母集団 A,B があり,それぞれが平均を μA,μB, 分散を σA2,σB2 の正規分布に従って いるが,その値は未知であるとする.いま,両集団の分散の値が等しく, σA2=σB2=σ2,と仮定 できるとしよう.このとき,2つの母平均に対する

帰無仮説,H0: μA = μB
対立仮説,H1: μA ≠ μB

の検定は t 分布を用いて行える.

 母集団 A から大きさ nA,母集団 B から大きさ nB の標本を抽出した. 母集団 A からの標本の標本平均が x-A, 標本分散が sA2 であり,母集団 B の 標本平均が x-B, 標本分散が sB2 であった.母集団 A,B が共通の 分散 σ2 をもつとすると,その推定値 s2 は 以下のように推定できる.

母集団 A からの標本の偏差平方和:  SA=(nA−1)sA2
母集団 B からの標本の偏差平方和:  SB=(nB−1)sB2
母集団 A,B 全体での偏差平方和:  SSASB =(nA−1)sA2+ (nB−1)sB2
母集団 A,B 共通の標本分散: bunsan

また,母集団Aの標本分布は,N(μA,σ2)であり,母集団Bでは, N(μB,σ2)であることから,それぞれの標本平均は,
x-A 〜 N(μA,σ2/nA), x-B 〜 N(μB,σ2/nB
と分布する.これより,標本平均の差x-Ax-Bは,
diffmean
と分布する.

帰無仮説(H0: μA = μB)のもとでは,μA−μB=0,なので, 標本平均の差は,

diffmean
と分布する.これを標準化した z 値,
diffz
において,標準偏差 σ の代わりに標本標準偏差 s を代入した t 値が,
difft
のように自由度 nA+nB−2 の t 分布に従うことを利用して検定ができる. なお,母集団 A,B からの標本の大きさがともに等しく, nA=nB=n であるときは,式がずっと簡単になる.

母集団A,Bで分散の同等性が疑われるときは,ウェルチ(Welch)の検定を用いる.

正規母集団の母分散に対する検定

母集団分散の検定

  平均 μ,分散 σ2 がともに未知である正規母集団に対して,
帰無仮説 H0: σ2 = σ02
対立仮説 H1: σ2 ≠ σ02
の検定を考える.  いま,母集団から大きさ n の無作為標本 x1x2,…,xn を抽出したところ,標本平均が x-,標本分散が s2 であったとする.すると, 帰無仮説ももとで(under H0),標本分散に関係した量が,
vartest
と自由度 n - 1 の χ2 分布に従うので,U を検定統計量にして検定が行える.

 有意水準 5 %の検定は,自由度 n - 1 の χ2 分布の 2.5%点と 97.5%点をそれぞれ χ2(n - 1)0.025, χ2(n - 1)0.975 とすると,

U < χ2(n - 1)0.025U > χ2(n - 1)0.975
のいずれかの不等式を満たしたとき帰無仮説を棄却し,母分散は σ02 と有意に異なる と結論づける.

2つの母集団分散の同等性の検定

 2つの母集団 A,B があり,それぞれが平均を μA,μB, 分散を σA2,σB2 の正規分布に従って いるが,その値は未知であるとする.このとき,2つの母分散の同等性の検定,

帰無仮説,H0: σA2 = σB2
対立仮説,H1: σA2 ≠ σB2

の検定を考える.

 母集団 A から大きさ nA,母集団 B から大きさ nB の標本を抽出した. 母集団 A からの標本の標本平均が x-A, 標本分散が sA2 であり,母集団 B の 標本平均が x-B, 標本分散が sB2 であるとする.すると, 標本分散に関係した量はそれぞれ

vartest
と χ2 分布に従い,それぞれが独立である.これらの量の比は,
vartest
のように,自由度 nA - 1,nB - 1 の F 分布に従う.

 ところで,帰無仮説が正しいとする と,σA2 = σB2 とおけるので, 母集団の分散比は,γ0 = σA2B2 = 1, となる.このとき,標本分散の分散比の統計量 γ が,

vartest
と,自由度 nA - 1,nB - 1 の F 分布に従うので,この γ 値を検定統計量にして 2つの母分散が等しいという帰無仮説の検定が行える.
 すなわち,有意水準 5 %の検定を行うには,自由度 nA - 1,nB - 1 の F 分布 の 2.5%点と 97.5%点をそれぞれ F(nA - 1,nB - 1)0.025, F(nA - 1,nB - 1)0.975 とすると,検定統計量 γ が,
γ < F(nA - 1,nB - 1)0.025γ > F(nA - 1,nB - 1)0.975
のいずれかの不等式を満たしたとき帰無仮説を棄却し,2つの母集団の分散は有意に異なると結論づける.

2つの母集団の分散比の信頼区間

 2つの母集団 A,B の分散 σA2,σB2 の分散比, γ0 = σA2B2,の 95%信頼区間は, 上記の考えから簡単に求めることができる.すなわち,互いに独立に χ2 分布する 変量の比が,標本分散の分散比 γ と母集団分散比 γ0 の比となり,
vartest
と分布する.これより,母集団分散比の 95%信頼区間は,
vartest
となる.

成功確率(比率)に関する検定

標準正規分布による近似検定(大標本理論)

 成功確率 p のベルヌイ試行を n 回行ったときの成功回数 X は, X 〜 B(n, p),のように2項分布に従う.X の平均と分散はそれぞれ, E[X ] = np,Var[X ] = np(1 - p),である.
 ここで,成功確率が p0 であるという帰無仮説,
H0: p = p0
の検定を考える.帰無仮説のもとでは,成功回数 X は,X 〜 B(n, p0), と分布するので,X をその平均と標準偏差で標準化すると,中心極限定理から,
binotest
のように標準正規分布に漸近的に従う.
 これより,近似的な 5%両側検定は,標準正規分布の 97.5%分位点の z0 = 1.96 より 検定統計量 T = |z| の値が大きくなったとき帰無仮説を棄却することで得られる. なお,二項分布は離散的なので,Yates の連続性の補正(continuity correction)を行った検定統計量を用い,
binotest
のとき帰無仮説を棄却する方が近似の精度がよいと言われている.

 このように,中心極限定理を利用して,標準正規近似を行って検定を行うやり方を大標本(large sample)理論 といい,コンピュータが発達する以前はもっぱら大標本理論に基づいた検定を行っていた.

比率の正規近似に基づく信頼区間

 成功確率 p のベルヌイ試行を n 回行ったとき x 回成功したとすると,成功確率は, p^ = x/n,と推定される.この推定値は最尤推定値である.
 成功回数 x は二項分布し,その平均は E[x ] = np,分散は Var[x ] = np(1 - p),で あるので,成功確率推定量 p^ の平均は E[p^ ] = E[x/n] = p, 分散は Var[p^ ] = Var[x/n] = Var[x ]/n2 = p(1 - p)/n, となる.これより,
binotest
と漸近的に分布するので,標準正規分布の 97.5%点の z0 = 1.96 を用いると, 近似的に
binotest
という不等式が成り立つ.これを整理すると,
binotest
という p の2次不等式を解くことに帰着する.いま,p の2次方程式の根を
binotest
とすると,この根を用い,p の 95%信頼区間は近似的に
binotest
となる.
 また,連続性の補正を行うには,成功確率の推定値 p^ を,信頼区間の下限と上限でそれぞれ
binotest
というように変えて,信頼区間が少し広くなるようにする. R では,これらの式を用いて信頼区間を構成しているようである.

 ここで,さらに近似を加えて,z02 の項を消去すると, p の2次方程式の根は,

binotest
となるので,p の 近似的な 95%信頼区間は,
binotest
と簡略化される.
 なお,この信頼区間は, 成功確率推定量 p^ の分散において,真の成功確率 p の 代わりにその推定量 p^ に置き換えて,Var[p^ ] = p^(1 - p^)/n,とみなした場合と同じで, この信頼区間は教科書等でよく出てくる.
 簡略化された信頼区間で連続性の補正を入れるには,
binotest
として,信頼区間の幅を拡げる.

 ところで,正規近似による信頼区間の構成では,場合により信頼区間が負になったり 1 を超えることがあるが, このときは,0 と 1 で切り詰め(truncate)る.

二項確率の計算による正確な検定

 現在では二項確率が R などのコンピュータソフトにより直接計算できるので, 正規分布による近似検定を行う意味はあまりないといえる.
 いま.独立なベルヌイ試行を n 回行ったところ,成功回数が x であったとする.このとき, 成功確率 p が p0 であるという帰無仮説,とその対立仮説
H0: p = p0, H1: p ≠ p0
の検定を考える.帰無仮説のもとでは成功回数の期待値は np0 である. いま,x > np0 であるとする.このときは,まず成功回数 が x 回以上である確率 Pr[X ≧ x] を計算する.これが上側確率で,
binotest
である.
 両側検定では下側確率を考える必要がある.これは,帰無仮説のもとでデータ x が得られる確率,
binotest
より,小さな確率を持つ密度を加え合わせて,
binotest
として求められる.これらから,帰無仮説の有意確率(p 値)は,
Pupper + Plower
となり,これが が 0.05 より小さければ有意水準 5%で帰無仮説を棄却し,0.01 より小さければ有意水準 1%で帰無仮説を棄却 する.
 x < np0 のときは,上の上側確率と下側確率の関係が逆になる.

二項確率のベータ分布表現による信頼区間の構成

 成功確率 p のベルヌイ試行を n 回行ったときの成功回数の確率変数を X, パラメータ,x と n - x + 1 のベータ分布に従う確率変数を YY 〜 beta(x,n - x + 1),とすると,成功回数 X がある回数 x 以上になる確率は,
binotest
となる.また,成功回数が x 以下になる確率は,
binotest
となる. これらの関係は,ベータ分布の累積分布を部分積分すると,
binotest
となることを利用して求められる.

 これより,成功確率 p の 95%信頼区間は,

下限:Beta(x, n - x + 1) 分布の累積確率が 0.025 になる値,qbeta(0.025, x, n - x + 1)
上限:Beta(x + 1, n - x) 分布の累積確率が 0.975 になる値,qbeta(0.975, x + 1, n - x)
として求められる.

 ところで,F 分布とベータ分布の関係

binotest
を用いて,成功確率 p の信頼区間を F 分布を用いて構成することもできる. これは,以前は F 分布の数表が充実していたためであろう. 統計ソフトが発達した現在では,ベータ分布の累積分布関数を用いて信頼区間 を構成するのが普通であり,R でもベータ分布を利用している.

8.適合度検定

Pearson χ2 検定

 前節の比率の検定は,χ2 分布を用いる適合度検定と大きな関係がある. ここでは n 回のベルヌイ試行で X 回成功したときに,成功確率が p0 であるという,
帰無仮説,H0: p = p0, 対立仮説,H1: p ≠ p0
の検定を考えた.そこでは,X を標準化して標準正規分布にもって行ったが,これを2乗して χ2 分布を用いることもできる.すなわち,
fit
という関係がある.
 ところで,n 回のベルヌイ試行の結果と帰無仮説のもとでの期待値を表にすると,

   成 功   失 敗 
 観測度数  X n - X
 期待度数  np0 n(1 - p0)

となる.ここで,ピアソン(Pearson)のχ2 値,

fit
を計算すると,
fit
となる.つまり,χ2 値は,試行回数 n が大きくなるにつれて 帰無仮説のもとで自由度 1 の χ2 分布に漸近的に従う.よって,これより検定が行える.

確率分布との適合度

確率分布が既知のとき

 データが想定している確率分布に適合しているかは,ピアソン(Peason)の χ2 適合度検定で行う ことができる.いま,離散分布の,たとえば m = 5 のセルに対して,観測されたカウントデータと対応する 想定確率が,

  セル1  セル2 セル3  セル4  セル5    計   
 観測度数  n1 n2 n3 n4 n5 n
 想定確率分布  p1 p2 p3 p4 p5 1

のようになっていたとする.このとき,ピアソン(Peason)の χ2 値は,
tekigo
のように近似的に自由度 m - 1 の χ2 分布に従う.これにより,データが想定確率分布に 適合しているかの検定が行える.検定の帰無仮説は,

H0:データは想定確率分布に従う.

である.  この近似は n が大きく,各セルの度数 ni が 5 以上である ことが望ましい,とされている.  一方,正規分布などの連続分布では,適当に階級分けして離散化すればこの検定が行える.ただし,階級分け は任意なので,階級分けのやり方によっては結果が異なる恐れがある.

確率分布のパラメータをデータから推定する場合

 確率分布のタイプ(二項分布やポアソン分布など)は想定できるが,パラメーターはデータから推定することが 普通であろう.このときは,推定されたパラメーターのもとでの推定確率分布を用いて,セル数が m = 5 のときは,

  セル1  セル2 セル3  セル4  セル5    計   
 観測度数  n1 n2 n3 n4 n5 n
 推定確率分布  p^1 p^2 p^3 p^4 p^5 1

のような表ができる.推定したパラメーターの数が k であったとすると, このとき,ピアソン(Peason)の χ2 値は,
tekigo
のように近似的に自由度 m - k - 1 の χ2 分布に従う.これにより,データが推定確率分布に 適合しているかの検定が行える.

他の分布

 ポアソン分布や負の二項分布などの離散分布では,前節の二項分布のときと同様に適合度検定が行える. 正規分布などの連続型分布では,多少恣意的にはなるが離散化を行えば適合度検定が行える.

参考文献(古い順)

  1. Introduction to the Theory of Statistics, Mood, A. M., Graubill, F. A. & Boes, D. C., 1974, McGRAW-HILL
  2. 工学のためのデータサイエンス入門−フリーな統計環境Rを用いたデータ解析−,間瀬茂ら,2004, 数理工学社
  3. 実践生物統計学−分子から生態まで−(第 1 章,第 2 章), 東京大学生物測定学研究室編(大森宏ら), 2004,朝倉書店
  4. The R Tips データ解析環境 R の基本技・グラフィックス活用集,船尾暢男,2005,九天社
  5. R で学ぶデータマインニング I −データ解析の視点から−,熊谷悦生・船尾暢男,2007,九天社
  6. R で学ぶデータマインニング II −シミュレーションの視点から−,熊谷悦生・船尾暢男,2007,九天社

Copyright (C) 2008, Hiroshi Omori. 最終更新日:2011年 7月10日