東京農工大学
2020.10.23
生物統計学2
東京大学大学院農学生命科学研究科 大森宏
正規母集団からの標本に基づく推論
独立な正規分布の合成分布(正規分布の再生性)
平均 μ1,
分散 σ12,の正規分布
からの標本 X ~
N( μ1,σ12 )
と,
平均 μ2,
分散 σ22,の正規分布
からの標本 Y ~
N( μ2,σ22 )
があり,両者が互いに独立であるとする.(Y の値は X の値の影響を受けない.)
- 和の分布
X + Y は平均 μ1 +
μ2,分散 σ12 +
σ22,の正規分布に従う.
X + Y ~ N(
μ1 + μ2,
σ12 +
σ22 )
- 差の分布
X - Y は平均 μ1 -
μ2,分散 σ12 +
σ22,の正規分布に従う.
X - Y ~ N(
μ1 - μ2,
σ12 +
σ22 )
- 一般の線形結合の分布
a と b を任意の実数(スカラー)とすると,X と Y の線形結合
ax + by は,
aX + bY ~ N(
aμ1 + bμ2,
a2
σ12 +
b2
σ22 )
- 標本平均の分布
特に,X1,X2,…,Xn を
平均 μ,分散 σ2 の正規分布からの大きさ n 無作為標本であるとすると,標本平均
の平均と分散は,前節で示したようにそれぞれ,
となる.よって,
となり,標本平均
は,平均 μ,分散 σ2/n の正規分布に従う.
この分散の平方根
を標本平均
の標準誤差(Standard Error, SE)と呼ぶこともある.
正規分布に基づく母数の区間推定
正規分布は,平均 μ と分散 σ2 の2つの母数を持つ.
2つの母数とも未知であるのが普通であるが,片方が既知であるときは母数に関する推論は
簡単に行える.このため,多少非現実的な設定であるが,まず,既知の場合を考え,その後,より
一般的である2つの母数とも未知である場合を扱う.
分散既知の場合の母平均 μ の区間推定
正規分布する母集団で母分散 σ2
がわかっている場合は,未知の母平均 μ に関する区間推定は以下のように行える.
いま,正規分布 N( μ,σ2 ) において,大きさ n の標本
x1,x2,…,xn
を抽出したとき,母平均は標本平均で推定される.標本平均
の分布は,
となる.標準正規分布の 97.5%分位点を z0.975(= 1.96)とすると,
標準正規分布する確率変数 z が -z0.975 から z0.975 に入る
確率は 0.95 となる.つまり,
となる.最後の式を母集団平均 μ の 95% 信頼区間(confidence interval)と言う.
このように,母数の信頼区間を標本から推定することを区間推定という.区間推定においては,
信頼区間の幅 2d が小さい程よい.すなわち,母分散が小さい母集団で,
標本の大きさ(サンプルサイズ)が大きい程,精度の高い推定が行える.
- 95% の意味
同じ正規母集団から標本抽出を繰り返すと,毎回標本平均として異なる値がえられ,それに
対応して信頼区間も異なる.この信頼区間の 95% が真の平均 μ を含む,という意味である.
つまり,100回の標本抽出により,100 個の信頼区間を作ったら平均的にみて,95 個の信頼区間が
真の平均 μ を含むことが期待できる.
下の図は,平均 0 分散 2 の正規分布 N( 0, 2 ) から大きさ 10 の標本を取りだし,分散が既知であるとして,
母平均に対する信頼区間を 100 個生成したものである.
"×" が標本平均を示す.左の "*" は,信頼区間
が母平均の真値 0 を含まなかった場合である.
# 平均 μ の 95 %信頼区間 100 回生成の R スクリプト
v <- 2; n <- 10
| # 母分散と標本の大きさ |
d <- qnorm(0.975)*sqrt(v/n)
| # 95%信頼区間の幅 |
x <- c(-2.5, -2.5, 2.5, 2.5)
| # グラフの x の範囲 |
y <- c(0, 100, 100, 0)
| # グラフの y の範囲 |
plot(x, y, type="n", xlab="", ylab="")
| # グラフ領域確保 |
segments(0, 0, 0, 100, col="red")
| # 母平均のライン |
for(i in 0:100){
| # 100回の繰り返し |
r <- rnorm(n, mean=0, sd=sqrt(v))
| # N(0, v)からの大きさ n の標本平均 |
m <- mean(r)
| # 標本平均 |
segments(m-d, i, m+d, i)
| # 信頼区間の表示 |
points(m, i, pch=4, col="red", cex=0.8)
| # 標本平均の赤×表示 |
if(m-d>0 || m+d<0) text(-2.5, i, "*")
| # 信頼区間が母平均を含まない(失敗)した場合 |
}
| # |
title(main="N( 0, 2 )からの大きさ 10 の標本から得られた
| |
平均 μ の 95 %信頼区間を 100 回作成", cex.main=1.0)
| # |
分散未知の場合の母平均 μ の区間推定
前節で考えたように正規母集団の母数が未知のときは,
大きさ n の無作為標本
x1,x2,…,xn
から,母平均 μ と母分散 σ2 は,それぞれ
標本平均
と標本分散 s2,
で推定される.
ところで,標本や標本平均は,
と分布する.一方,
と計算されるので,(n - 1)s2/σ2 という量は,
と,自由度 n - 1 のカイ二乗分布に従うことがわかる.
標本平均
の分布は標準化すると,
のように標準正規分布となり,標本分散に関係する量は先ほど述べたように,
のように自由度 n - 1 の
カイ二乗
分布する.これより,z と U をその自由度 n - 1 で
割った量の平方根との比は,
のように自由度 n - 1 の t 分布に従う.
自由度 n - 1 の t 分布の 97.5%点を t(n - 1)0.975 とすると,
t 分布する確率変数 t が -t(n - 1)0.975 から t(n - 1)0.975 に入る
確率は 0.95 となる.つまり,
となる.最後の式を母分散未知のときの母集団平均 μ の 95% 信頼区間と言う.
仮説検定(Test of hypothesis)
帰無仮説(H0)と対立仮説(H1)
統計学で扱う仮説(hypothesis)とは,母集団に対する断定や推測.たとえば,
- 母集団は正規分布に従っている.
- 母集団平均は 0 である.
- 母集団 A と母集団 B の平均は等しい.
などである.
統計的仮説検定で用いられる仮説は,まず,帰無仮説(null hypothesis)という形式で与えられる.
帰無仮説は棄却(reject)されることに意味がある仮説である.
帰無仮説と反対の仮説を対立仮説(altanative hypothesis)という.
上の3番目の例でみると,
帰無仮説:
母集団 A と母集団 B の平均は等しい.
(H0: μA = μB)
対立仮説:
母集団 A と母集団 B の平均は等しくない.
(H1: μA ≠ μB)
母集団 A と母集団 B は異なる処理(薬の投与など)をしているので,実験の目的
は,母集団 A と母集団 B の平均は異なる(処理効果がある)ことを言いたい
(対立仮説が正しいことを望む)のだが,まずは
「等しい(処理効果無し)」と仮定してみようという考え方で,
数学の背理法と似た論理である.
帰無仮説が棄却できなかったときは、帰無仮説を積極的に肯定することはできず、帰無仮説を否定することはできなかった、と言えるだけである。
背理法:√2 が無理数であることを証明するため,まず√2 が有理数であると仮定し,矛盾があることを
示す.つまり,有理数であることは絶対ありえない(確率 0 である!)ことを示す.
この矛盾は,そもそも√2 を有理数とした仮定が誤っていたからであると考え,有理数という仮定を
棄却して,無理数であることを証明する.
検定の概要
検定統計量(Test statistic)
標本から算出される量で,検定に用いられるもので,t 値(t value),F 値(F value)などがある.
この値から帰無仮説を受託(accept)(採択)するか
棄却(reject)(対立仮説の採択)するかを判定する.
有意水準(Significance level)
帰無仮説の棄却か採択かの判断の基準となる確率を有意水準という。
5%や 1%がよく用いられる。
検定統計量が有意水準に対応する閾値(threshold value)より大きいとき、
有意(significant)と判断して帰無仮説を棄却する。
たとえば、帰無仮説(H0)と対立仮説(H1)が、
H0:μ = μ0
H1:μ ≠ μ0
であり、母分散 σ2 が既知とする。
標本の大きさが n で、標本平均が
であったとすると、
検定統計量は標本平均の標準化値の絶対値である z 値、
で、有意水準 5%で帰無仮説を棄却するのは、|z|が閾値である1.96(標準正規分布の97.5%点)より大きいときである。これより、帰無仮説 H0 に対して、
z < -1.96, 1.96 < z ⇔ 棄却域(critical region)
-1.96 ≦ z ≦ 1.96 ⇔ 採択域(acceptance region)
のように検定統計量の値域が分割される。
p 値(p value)
統計的仮説検定では、帰無仮説のもとでの検定統計量の分布(t 分布など)を求める。これを帰無分布という。実際のデータから得られた検定統計量の値(t値など)以上の
値が得られる確率を両側で求める。Rではこの値が p-valueで表示される。
p 値はくだけた言い方をすれば、帰無仮説が正しいとしたときに、標本のようなデータが得られる確率である。これが十分小さい(ほとんどありえない)ときは、平均が等しいと仮定したことが誤りであったと判断して帰無仮説を棄却し、2つの母集団平均には差があると結論づける。
いま、帰無分布が自由度19の t 分布、t(19)、であったとする。このとき、
データから検定統計量である t 値を計算したところ、t = 1.58であった。
このときの p 値を求めてみると、0.131となり、有意でないことがわかる。
-
tv <- 1.58 # t 値
p <- 1 - pt(tv, df=19) # t 値より大きい確率
2*p # p値
curve(dt(x, df=19), -4,4) # 自由度19のt分布
abline(h=0)
x1 <- seq(tv, 4, by=0.1)
y1 <- dt(x1, df=19)
x2 <- seq(-4, -tv, by=0.1)
y2 <- dt(x2, df=19)
segments(tv,0, tv, dt(tv, df=19), col="red") # t 値
# p 値の部分を色づけ
polygon(c(x1,3,tv), c(y1,0,0), col="red", density=20)
polygon(c(x2,-tv,-3),c(y2,0,0), col="red", density=20)
片側検定と両側検定
実験状況によっては,薬投与などの処理を行った集団(処理群)平均
μA が,薬を投与しない
集団(対照群)の平均 μB より小さくなることはないことが事前に
わかっているような場合が
ある.このようなとき,
帰無仮説,H0: μA =
μB
対立仮説,H1: μA >
μB
となる.これは,事前情報より,μA < μB となる可能性
をまったく考えない場合である.
このため検定には,片側 5 %点や 1 %点を用いる.
片側検定は、事前情報に確信がある場合以外は使わない.
両側検定と信頼区間
母集団平均に対する両側検定は,母集団平均に対する信頼区間と大きな関係がある.
いま,帰無仮説(H0)と対立仮説(H1)が,
H0:μ = μ0
H1:μ ≠ μ0
であり,母分散 σ2 が既知のときを考える.
標本の大きさが n で,標本平均が
であったとすると,母平均μに対する
95%信頼区間は,
となる.
この検定の検定統計量は z 値で、有意水準 5%で帰無仮説を受諾するのは、
この z 値が両側 5%点である1.96 以下の採択域に落ちたときである.つまり,
帰無仮説を受諾 ⇔ -1.96 < z < 1.96
のときである。この両者の関係より、
帰無仮説を受諾 ⇔ 母平均の信頼区間に μ0 が含まれる.
帰無仮説を棄却 ⇔ 母平均の信頼区間に μ0 が含まれない.
が成り立つ
検定における2種類の過誤
検定は,仮説を棄却するか採択するかのいずれかであるが,
統計量は分布をもつので,この判定には間違いが起こることがある.
以下のように,この過誤には
2 種類がある.
統計的検定における2種類の過誤
  |
仮説の棄却(reject) |
仮説の採択(accept) |
仮説が真(true)のとき |
第1種の過誤(Type 1 error) |
正解 |
仮説が偽(false)のとき |
正解 |
第2種の過誤(Type 2 error) |
第1種の過誤が有意水準である.また,第2種の過誤の確率を β としたとき,
仮説が偽のとき正しく仮説を棄却する確率,1 - β,を検出力,もしくは検定力(power)という.
よい検定は,第1種の過誤を固定したもとで検出力の高い検定方式である.
統計的検定と刑事裁判
統計的検定と同じロジックであるのが、刑事裁判である。統計的検定における「処理効果が無い」
という帰無仮説は、刑事裁判での「被告人は無罪である(無罪推定)」に対応する。
統計的検定では「帰無仮説」を疑うような、「処理効果が有意に存在することを示すデータ」があれば、
帰無仮説は棄却され、処理効果が認められる。刑事裁判においては、「無罪推定」を覆すような
「客観的証拠」があれば、無罪推定は棄却され有罪となる。
刑事裁判
  |
有罪(regal) |
無罪(irregal) |
被告が無実のとき |
えん罪(第1種の過誤) |
正当 |
被告が犯人のとき |
正当 |
無罪放免(第2種の過誤) |
日本の刑事裁判では、第1種の過誤であるえん罪をできるだけ少なくしており、その分「疑わしきは罰せず」ということで第2種の過誤が多くなっている。「無罪」は「犯罪の事実」を証明するに足る証拠が無かったということで、「無罪」≠「無実」である。
統計的仮説検定においても、帰無仮説が棄却されなかったことで、「帰無仮説が統計的に正しい。」ことが証明されたわけではないことに注意する必要がある。帰無仮説が棄却されず採択されたときは、「無仮説を仮定しても問題は無い。」という意味になる。
1つの母集団に対する検定(One sample problem)
正規母集団の母平均に対する t 検定
平均 μ,分散 σ2 がともに未知である正規母集団に対して,
帰無仮説 H0: μ = μ0
対立仮説 H1: μ ≠ μ0
の両側検定を考える.
いま,母集団から大きさ n の無作為標本
x1,x2,…,xn
を抽出したところ,標本平均が
,
標本分散が s2 であったとする.
帰無仮説のもとでは,標本平均は,
と分布するので,これを,標本平均の標準誤差
s/√n
で標準化した t は,
のように自由度 n - 1 の t 分布に従う.この分布の97.5%分位点を t(n - 1)0.975 とすると,
有意水準 5 %の検定は,
|t| > t(n - 1)0.975
のとき帰無仮説を棄却する.|t| が検定統計量で,この値を |t| 値という.
なお,この検定は,対のある標本に適用できる.対のある標本とは,n 組のペアー標本(paired smple),
(x1,y1 ),(x2,y2 ),
…,(xn,yn )
からなる.正規性の仮定のもとでは,
xi ~ N( μi,σx2 ),
yi ~ N( μi + δ,σy2 )
ここで興味ある母数は δ であり,μ1,…,μn は攪乱母数(nuisance parameter)
である.yi と xi の差を取ると,
zi = yi - xi →
zi ~ N( δ,σz2 )
となるので,1つの母集団に対する検定に帰着する.なおこの問題は,
反復のない 2×n の2元配置と考えて解くこともできる.
ノンパラメトリック検定
ノンパラメトリック検定(nonparametric test)とは,母集団分布に関して,正規分布などのある特定の分布
を仮定しないで統計的検定を行う方法である.この手法の利点は,多少の制約がある場合もあるが,どのような
母集団分布からのデータであっても適用可能なことである.
このため,
標本中に他の観測値から飛び離れた値と思われる
異常値(outlier)が含まれているような場合でも正しい検定を与えることができる.すなわち,
頑健(robust)な検定法である.
一方,弱点としては,分布に関する情報を用いないので,特定の分布の元での最良の検定(正規母集団での小標本
に対する t 検定など)に比べ検定(検出)力(power)が低下することである.
ノンパラメトリック検定においてはデータの値を直接使わず,これを大きさの順に並べてその順位(rank)を
用いることが多い.このことは,データのもつ情報を全部使い切っていない,情報の損失があることを意味する.
他方,異常値の影響は]それだけ受けにくくなっている.
ある連続分布をもつ母集団から大きさ n の無作為標本
X1,…,Xn が抽出されたとする.ここで,母集団分布の位置母数
(location parameter)に関する両側検定問題
H0 : ξ = ξ0,H1 : ξ ≠ ξ0
および,片側検定問題
H0 : ξ = ξ0,H1 : ξ > ξ0
を考えてみよう.正規性の仮定のもとでは,Xi ~ N( ξ,σ2 ) とおき,
ξ と σ2 の推定量として標本平均 x- と標本不偏分散 s2
を用い,t 検定を行う.
ノンパラメトリック検定では,母集団の位置母数は平均でなくメディアン(中央値)で測られる.これは,
コーシー分布のように平均が存在しない分布にも対応するためである.一方,メディアン M は
と定義されるので,すべての連続分布で存在する.
さてこれからは,一般性を失うことなく ξ0 = 0 とする.ξ0 ≠ 0 のときは,
Xi のかわりに Xi - ξ0 を考えればよい.
Wilcoxon の符号順位和検定(signed rank sum test)
標本の絶対値 |X | を大きさの順に順位をつけ,これを Ri とおく.
たとえば X1 = 3.1,X2 = -4.5,X3 = 0.9 で
あったならば R1 = 2,R2 = 3,R3 = 1 で
ある.母集団は連続分布を仮定しているので,|Xi| は確率 1 ですべて互いに異なる値
をとり,Ri は一意的に定まる.
しかしながら,実際のデータでは測定精度などや測定値の丸めにより,標本値に同じ値が含まれる
ことがよくある.このような場合をタイ(tie)があるという.タイがあるときは,タイとなったデータ
の順位となり得る値の平均を順位として与えるのが普通である.
たとえば,X1 = 1.5,X2 = -0.3,X3 = 1.5,
X4 = -2.8 であったとする.X1 と X3 は順位
として 2 か 3 を取ったはずである.そこで,この値の平均 2.5 を順位として与える.この結果,
R1 = 2.5,R2 = 1,R3 = 2.5,
R4 = 4 となる.このようにすればタイのあるなしにかかわらず,
ΣRi = n(n+1)/2 となる.また,Xi = 0 というデータが
得られたときはこのデータはなかったものとして取り除いておく.
さて,Xi > 0 のときの順位和を R+,
Xi < 0 のときの順位和を R- とおき,この両者のうち小さい
方を T とおく.母集団分布が対称であるので,帰無仮説 H0 : ξ0 = 0
のもとでは R+ と R- の値はほぼ同じで,
ΣRi/2 = n(n+1)/4 に近いことが期待される.よって,T が小さいときには
帰無仮説を棄却することができる.
表1.順位のあり得る組み合わせ(n=4)
1   | 2   | 3   | 4   |
R+    | R-    |
T    |
+ | + |
+ | + |
10 | 0 | 0 |
- | + |
+ | + |
9 | 1 | 1 |
+ | - |
+ | + |
8 | 2 | 2 |
+ | + |
- | + |
7 | 3 | 3 |
+ | + |
+ | - |
6 | 4 | 4 |
- | - |
+ | + |
7 | 3 | 3 |
- | + |
- | + |
6 | 4 | 4 |
- | + |
+ | - |
5 | 5 | 5 |
+ | - |
- | + |
5 | 5 | 5 |
+ | - |
+ | - |
4 | 6 | 4 |
+ | + |
- | - |
3 | 7 | 3 |
- | - |
- | + |
4 | 6 | 4 |
- | - |
+ | - |
3 | 7 | 3 |
- | + |
- | - |
2 | 8 | 2 |
+ | - |
- | - |
1 | 9 | 1 |
- | - |
- | - |
0 | 10 | 0 |
T の分布ようすを n = 4 のときに考えてみよう.順位の値は 1,2,3,4 の 4 通り
ある.ある順位をとったデータが正であったか負であっかはまったくの偶然で決まる.そのあり得る
組み合わせは表1に示すように全部で 16 通りである.どの組み合わせも同じ確率で起こるので,
これにより T の分布が決定できる.
たとえば,T = 0 となるのは 2 通りであるので,その確率は 2/16 = 0.125 と計算される.
もし,T = 0 のとき帰無仮説を棄却すると決めたならば,その有意水準は 0.125 となる.
順列組み合わせで T の帰無仮説のもとでの分布を計算すれば,検定の有意確率が求まる.
なお,n が大きいときは,
となることが知られているので,正規近似を用いて近似的な検定ができる.
- ラット卵巣のアスコルビン酸濃度
生物統計学入門より抜粋.ある組織抽出物が卵巣のアスコルビン酸の量を変化させるかを調べた.
ラットには左右 1 対の卵巣があるので,まず片方の卵巣を取ってアスコルビン酸濃度を測り,次に抽出物
を注射して一定時間後に残り片方の卵巣を取ってアスコルビン酸濃度(μg/1000mg 組織)を測った.8 頭の
ラットの実験結果は以下のようであった.
データダウンロード
ここで,組織抽出物はアスコルビン酸を変化させないという帰無仮説
H0 : アスコルビン酸減少量 = 0
の検定を行ってみる.
-
rat <- read.csv("rat.csv"); rat #データ入力
d <- rat$before-rat$after #減少量
boxplot(d)
stripchart(d, method="jitter") # jitterは標本を揺らす
t.test(d) #1標本 t 検定
t.test(rat$before, rat$after, paired=TRUE) #同じ検定
wilcox.test(d) #Wilcoxon の符号順位和検定
wilcox.test(rat$before, rat$after, paired=TRUE) #同じ検定
2つの母集団に対する検定(Two sample problem)
母平均の同等性に対する t 検定
2つの母集団 A,B があり,それぞれが平均を μA,μB,
分散を σA2,σB2 の正規分布に従って
いるが,その値は未知であるとする.いま,両集団の分散の値が等しく,
σA2=σB2=σ2,と仮定
できるとしよう.このとき,2つの母平均に対する
帰無仮説,H0: μA =
μB
対立仮説,H1: μA ≠
μB
の検定は t 分布を用いて行える.
母集団 A から大きさ nA,母集団 B から大きさ nB の標本を抽出した.
母集団 A からの標本の標本平均が x-A,
標本分散が sA2 であり,母集団 B の
標本平均が x-B,
標本分散が sB2 であった.母集団 A,B が共通の
分散 σ2 をもつとすると,その推定値 s2 は
以下のように推定できる.
母集団 A からの標本の偏差平方和:
|
SA=(nA-1)sA2
|
母集団 B からの標本の偏差平方和:
|
SB=(nB-1)sB2
|
母集団 A,B 全体での偏差平方和:
|
S = SA + SB
=(nA-1)sA2+
(nB-1)sB2
|
母集団 A,B 共通の標本分散:
|
|
また,母集団 Aの標本分布は,N(μA,σ2)であり,母集団 Bでは,
N(μB,σ2)であることから,それぞれの標本平均は,
x-A ~ N(μA,σ2/nA),
x-B ~ N(μB,σ2/nB)
と分布する.これより,標本平均の差x-A-
x-Bは,
と分布する.
帰無仮説(H0: μA =
μB)のもとでは,μA-μB=0,なので,
標本平均の差は,
と分布する.これを標準化した z 値,
において,標準偏差 σ の代わりに標本標準偏差 s を代入した t 値が,
のように自由度 nA+nB-2 の t 分布に従うことを利用して検定ができる.
なお,母集団 A,B からの標本の大きさがともに等しく,
nA=nB=n であるときは,式がずっと簡単になる.
ウェルチ(Welch)検定
母集団A,Bで分散の同等性が疑われるときは,ウェルチ(Welch)の検定を用いる.
帰無仮説(H0: μA = μB)であるとき、検定統計量として、
は、近似的に自由度
t 分布に従うことを利用して検定が行える。
ウェルチ検定の近似的自由度の計算が面倒であり、その自由度も小数点を持っているので、自然数の自由度から
なる t 分布の数表からの確率計算は線形補間を用いるなどしなければならず、大変であった。このため、
昔はウェルチ検定はあまり行われず、2つの母集団間の分散がなるべく等しくなるように、観測値の対数を取るなど
して両集団間の分散が等しいと仮定した t 検定を行っていた。
統計計算がコンピュータ上で行われる現在では、ウェルチ検定を手軽に用いることができるようになった。
Rでは、t 検定のデフォルトはウェルチ検定になっており、両集団間の分散の違いを気にせず検定が行なえる。
ノンパラメトリック検定
ノンパラメトリック検定においては,無作為標本 Xi,Yj がそれぞれの
累積分布関数 Fx(・),Fy(・) から抽出されたと考える.帰無仮説は,
すべての z に対して
H0 : Fx(z ) = Fy(z )
となる.
Mann-Whitney の U 検定
順位和検定(rank-sum test)とも呼ばれる.2 つの母集団分布の平均的な位置の違いを検出する方法である.
ある程度大きな標本数では t 検定の約 95% の検出効率である.
標本 X1,…,Xm,
Y1,…,Yn をまとめたものを Zi,i=1,…,m+n と
表す.すなわち,
Zi = Xi,i=1,…,m,
Zi+m = Yi,i=1,…,n
である.ここで,Z を小さいものから順に順位をつけこれを Ri とおく.もし,
タイがあったときは前節と同様に平均順位を割り付ける.ここで,
とおく.すなわち,Rx は Xi の順位の和であり,
Ry は Yi の順位の和である.
Rx + Ry = (m+n+1)(m+n)/2 である.
さて,Ux を X が Y より大きくなる個数とする.いま,
Xi の順序統計量(大きさの順に並べたもの)を,
X1',…,Xm' とし,これに対応する順位を
R1',…,Rm' とおく.明らかに X1' は
R1'-1 個の Y より大きく, X2' は
R2'-2 個の Y より大きい.同様に考えて, Xm' は
Rm'-m 個の Y より大きい.よって,
となる.同様に,
であり,Ux + Uy =mn が成立する.検定統計量 U は
Ux と Uy のうち小さい方とする.X の分布と
Y の分布が離れていれば U の値は小さくなるはずである.
m,n の値が大きいときは,式(12)の帰無仮説のもとで,
または,
となることが知られているので,正規近似を行って検定することができる.なお,
この正規近似は m,n が
7 より大きければかなり正確であることも示されている.
- 淡水性ウナギの汽水域での生理活性の違い
淡水性ウナギの汽水域での生理活性の違いのデータ、ウナギデータ,を2標本データとして違いを検定してみよう。
データダウンロード
-
unagi <- read.csv("unagi2.csv"); unagi #データ入力
boxplot(unagi)
stripchart(unagi)
x <- unagi$noNa; y <- unagi$Na
t.test(x, y) # 2標本 Welch 検定
wilcox.test(x, y) # Mann-Whitney の U 検定
適合度検定(goodness-of-fit tests)
Peason のχ2 値
いま、ある母集団から大きさnの標本を抽出し、r 個のカテゴリーに分類したとき、その観測度数(observed frequency)が n1,…, nr (n1 +…+ nr = n )、であったとする。一方、理論的根拠や過去の経験などから、それぞれのカテゴリーの生起確率が
p1,…,pr (p1 +…+ pr = 1)であることが知られていたとする。このとき、大きさ n の標本から期待されるカテゴリーの生起頻度 np1,…,npr を期待頻度(expected frequency)と呼ぶ。
観測度数が期待度数に適合しているかを検定するのが適合度検定である。なお、カテゴリーへの分類は、サイコロの目のような離散的な場合だけでなく、正規分布のような連続分布でも、ある閾値で分けて離散化すれば適用可能である。
適合度検定には、イギリスの統計学者 Kerl Peason が1900年に提案したカイ二乗(χ2)検定(chi-squared text)が用いられる。これは、観測度数と期待度数が適合しているという帰無仮説のもとで、Peason のχ2 統計量、
が自由度 r - 1のカイ二乗分布に従うことを利用して行う。すなわち、大きなχ2 値が得られたとき観測度数は期待度数に適合していないとみなせる。
Peason のχ2 統計量が帰無仮説のもとでカイ二乗分布に従うことは、直観的には理解しにくい。そこで、簡単な例でこれを見てみよう。いま、X が成功確率 p の二項分布に従う、X ~ B(n, p)、であるとする。n 回の試行で成功が X 回、失敗が Y = n - X 回である。このように、二項分布では成功と失敗の2つのカテゴリーに標本が分けられる。二項分布の平均は np、分散は np(1-p) = npq なので、X を標準化した Z の分布は n が大きいとき近似的に
であり、これより、
となる。一方、Peason のχ2 値は、
となり、これが自由度1のカイ二乗分布に近似的に従うことがわかる。
Mendelの分離の法則(the law of segregation)
G. J. Mendel はエンドウ(Pisum sativum)の交配実験の結果から、「雑種植物の研究」(1866)の中で、分離の法則を提唱した。以下の表は F2 世代における分離実験の結果である。
種子の形について、優性:劣性 = 3:1となっているかみてみよう。観測度数と期待度数は以下のようにまとめられる。
| 優性 | 劣性 | 計 |
観測度数 | 5474 | 1850 | 7324 |
期待度数 | 5493 | 1831 | 7324 |
-
ni <- c(5474, 1850)
n <- sum(ni)
p <- c(3/4, 1/4) # 分離の法則から想定される分離確率
npi <- n*p; npi # 分離の法則から想定される期待度数
v <- (ni-npi)^2/npi; v # (O - E)^2 / E の計算
ch2 <- sum(v); ch2 # Peason カイ二乗値
1 - pchisq(ch2, df = length(ni) - 1) # カイ二乗分布上側確率
chisq.test(ni, p = p) # Rの備え付け関数でもできる。
適合度検定において「帰無仮説:分離比 = 3:1」は棄却されなかった。よって、種子の形については分離の法則が成り立っていると考えても問題は無い。(分離の法則が成り立つことを証明したわけでは無い。)
Mendelの独立の法則(the law of independent assortment)
Mendelは2つの形質を組み合わせた交配実験も行っていた。2形質として「種子の形、種子の色」を選び、以下の交配実験を行った。
純系親の交配:「丸(round)、黄(yellow)」×「しわ(wrinkled)、緑(green)」
F1雑種:「丸、黄」のみ出現。
F2分離世代:「丸、黄(RY)」が315、「丸、緑(RG)」が108、「しわ、黄(WY)」が101、「しわ、緑(WG)」が32個体であった。
帰無仮説である独立の法則が成り立つならば、分離比は9:3:3:1になることが期待される。
分離カテゴリーが4なので、自由度が3になることに注意する。
-
ni <- c(315, 108, 101, 32)
p <- c(9/16, 3/16, 3/16, 1/16) # 独立の法則から想定される分離確率
chisq.test(ni, p = p)
分離比が9:3:3:1であるという帰無仮説は棄却されず、データはこの分離比に適合していると考えても問題はない。
想定分布のパラメータを推定する場合
観測度数が従うと考えられる分布は想定されるが、分布母数(パラメータ)を観測度数から推定する場合がある。いま、カテゴリー数が r で、推定される分布母数の数を k とすると、Peason のχ2 統計量は、観測度数が期待度数に適合しているという帰無仮説のもとで、自由度 r - k - 1 のカイ二乗分布に従う。すなわち、分布母数を推定すると、その個数分だけ自由度が減少(有意になりやすくなる)する。
工場労働者一人当たりの遭遇事故数(前回の課題)
ある工場において、工場労働者一人当たりの遭遇事故数の分布データ(Greenwood et al. 1920)が以下のようであった。
想定分布の第一候補として、ポアソン分布を考えると、分布パラメータλは、観測度数分布の平均 m で推定(最尤推定)される。観測度数分布の分散 v を計算する。m < v ならば、ポアソン分布では無いと考えられるので、想定分布の第二候補として、負の二項分布を考える。負の二項分布のパラメータは n、p の2つであり、負の二項分布の平均は n(1-p)/p、分散は n(1-p)/p2 なので、モーメント法により、n、p が推定できる。
すなわち、
m = n(1-p)/p, v = n(1-p)/p2 = m /p
とおける。これより、
p = m /v, n = mp / (1-p)
となり、観測度数分布の平均と分散から負の二項分布のパラメータが推定できる。
-
# ポアソン分布へのあてはめ
x <- 0:5
y <- c(447, 132, 42, 21, 3, 2) # 5以上は5と仮定
n <- sum(y)
p <- y/n # 観測度数分布
m <- sum(x*p); m # 0.465224、観測度数分布平均
q <- dpois(x, m) # ポアソン分布期待確率
v <- sum((x - m)^2*p); v # 0.6908308、観測度数分布分散
# m < v なので、ポアソン分布では無さそう。
# 負の二項分布へのあてはめ
pb <- m/v; pb # 0.673427
nb <- m*pb/(1 - pb); nb # 0.9593397
r <- dnbinom(x, nb, pb) # 負の二項分布期待確率
# 5以上は余事象の確率
q[6] <- 1 - sum(q[1:5])
r[6] <- 1 - sum(r[1:5])
nq <- n*q; nq # ポアソン分布での期待度数
nr <- n*r; nr # 負の二項分布での期待度数
# グラフ表示
data <- data.frame(y, nq, nr, row.names=c("0", "1", "2", "3", "4", "5+"))
barplot(t(data), beside=T, legend=c("Observed", "Poisson", "neg. bin."))
abline(h=0)
観測度数とそれぞれの想定分布のもとでの期待度数は以下の表のようになった。
グラフをみると、観測度数はポアソン分布とは適合していないが、負の二項分布には適合しているようにみえる。これを適合度検定で確認してみる。なお、想定分布との適合度検定を行う場合は、期待度数はなるべく1以上にすることが推奨されている。ポアソン分布に当てはめた場合は、「5以上」の期待度数がかなり小さいので、「4」と「5以上」をまとめて「4以上」というカテゴリーにしてカテゴリー総数を5にする必要がある。このため、ポアソン分布に当てはめたときは5-1-1 = 3の自由度になる。一方、負の二項分布に当てはめたときはカテゴリーの統合は必要なく、6-1-2 = 3にする。
-
y2 <- c(y[1:4], y[5]+y[6]); q2 <- c(q[1:4], q[5]+q[6])
nq2 <- n*q2
chi2_po <- sum((y2 - nq2)^2/nq2); chi2_po # ポアソン分布でのχ2 値、
chi2_nb <- sum((y - nr)^2/nr); chi2_nb # 負の二項分布でのχ2 値、
1 - pchisq(chi2_po, df=3) #
1 - pchisq(chi2_nb, df=3) #
適合度検定の結果、ポアソン分布との適合度は p 値がほぼ 0 で、ポアソン分布では無いことが示された。一方、負の二項分布との適合度の p 値は 0.24 であり、棄却されなかった。よって、工場労働者一人当たりの遭遇事故数は、ポアソン分布ではなく、負の二項分布と考えて問題がないことが分かった。これは、事故の起こる確率が、ポアソン分布が仮定するように、労働者に対して一律に等しくなく、作業工程や労働者の性格等により事故確率が異なるためであると考えられる。
分割表の解析
成功確率(比率)の同等性の近似検定
成功確率 px のベルヌイ試行を n 回行ったときの成功回数を X,
成功確率 py のベルヌイ試行を m 回行ったときの成功回数を Y とする.このとき,
2つの成功確率が等しいかどうか,すなわち,
帰無仮説,H0: px = py,
対立仮説,H1: px ≠ py,
の検定を考える.帰無仮説のもとでは,px = py = p とおけるので,
px の推定量である X/n
と py の推定量である Y/m の
平均と分散は,それぞれ
となる.これより,X/n - Y/m の帰無仮説のもとで平均と分散は,
となるので,これをその平均を引いて標準偏差で割って標準化した z は,
のように漸近的に標準正規分布に従う.
ところで,帰無仮説のもとでの成功確率 p は,Y と Y をこみにして,
と推定されるので,これを z に代入すれば,
となり,T = |z| を検定統計量にして,たとえば,T > 1.96 のとき帰無仮説を棄却すれば,
近似的な有意水準 5%の検定が行える.
なお,連続性の補正を入れた検定統計量は,
となる.
2×2分割表
成功確率 px の試行 X では a 回成功し,
b 回失敗したが,別の成功確率 py 試行 Y では c 回成功,
d 回失敗であったとする.
このとき,
試行 X と試行 Y で成功確率が等しいという,
帰無仮説,H0: px = py,
対立仮説,H1: px ≠ py,
の検定を考える.
このようなデータは,
2 × 2 分割表データ
| 成 功 | 失 敗 | 計 |
試行 X |
a | b |
a + b |
試行 Y |
c | d |
c + d |
計 |
a + c | b + d |
N |
とまとめられる.ただし,N = a + b + c + d,である.
これを2×2分割表という.各試行の成功回数と失敗回数を記録した部分をセル,その外側の
「計」に対応する部分を周辺度数という.
周辺度数を固定したときに,帰無仮説のもとでの各セル期待度数は,
帰無仮説のもとでの期待度数
| 成 功 | 失 敗 |
試行 X |
(a + b)(a + c)/N |
(a + b)(b + d)/N |
試行 Y |
(c + d)(a + c)/N |
(c + d)(b + d)/N |
となる.ここで,ピアソン(Pearson)のχ2 値,
を計算する.連続性の補正を入れると,
である.このとき,
Na - (a + b)(a + c)
= (a + b + c + d)a
- (a2 + ab + ac + bc) = ad - bc
という関係を利用すると,
2×2分割表の χ2 値は,
と計算される.
ところで,比率の同等性検定の z において,X = a,Y = c,
n = a + b,m = c + d,
m + n = N,とおきかえると,
となり,z2 値が χ2 値と同じであることがわかる.これより,
と分布するので,自由度 1 の χ2 分布を利用して,成功確率の同等性の検定を行うことができる.
また,χ2 値に連続性の補正を行うときは,
とする.
- 勝率同等性の χ2 検定
# 勝率同等性ピアソン χ2 検定の R スクリプト
shogi <- c(21, 9)
| # A の将棋の勝ち負け数 |
igo <- c(12, 18)
| # A の囲碁の勝ち負け数 |
x <- rbind(shogi, igo)
| # 行連結による行列化 |
chisq.test(x, correct=F)
| # 勝率同等性 χ2 検定(連続性の補正なし) |
chisq.test(x)
| # 勝率同等性 χ2 検定(連続性の補正) |
Fisher の直接確率法
試行回数が少ないときは,各セルの期待度数が小さくなるので,近似の精度はよくない.2×2 分割表では,
一般に期待度数が 5 以下のセルがあると χ2 検定は適当でないと言われている.
このようなときは,周辺度数を固定して,データの表が得られる確率より小さな場合をすべて足し合わせて有意
確率(p 値)を計算する.
前節の囲碁と将棋の例で、勝率はそのままで試合回数を10試合にしてセルの頻度が小さくなった場合で
説明する.データを 2 × 2 分割表でまとめると以下のようになる.
将棋と囲碁 2 × 2 分割表
| 勝 ち | 負 け |
  計   | 場合の数 |
将 棋 |
7 | 3 |
10 |   10C7 |
囲 碁 |
4 | 6 |
10 |   10C4 |
計 |
11 | 9 |
20 |   20C11 |
上の表で,勝ち負けがゲームの種類に関係ないすると,この表ができる確率は,黒玉(将棋)が10個、白玉(囲碁)が10個入っている袋から11個を取り出したとき、黒玉が7個、白玉が4個となる超幾何確率なので、
p = 10C7×10C4
/20C11 = 0.15004
となる.
次に,周辺度数を固定した場合できる可能性のある表をすべて数えあげ,
勝敗がランダムなときの表が
生成する確率を計算すると以下のようになる.
パターン1 | 勝ち | 負け |
計   | 場合の数 |
将 棋 | 8  | 2  |
10  |   10C8 |
囲 碁 | 3  | 7  |
10  |   10C3 |
計   | 11  | 9  |
20  |   20C11 |
  確 率  |
10C8×10C3
/20C11 = 0.03215 |
|
  
|
パターン2 | 勝ち | 負け |
計   | 場合の数 |
将 棋 | 9  | 1  |
10  |   10C9 |
囲 碁 | 2  | 8  |
10  |   10C2 |
計   | 11  | 9  |
20  |   20C11 |
  確 率  |
10C9×10C2
/20C11 = 0.00268 |
|
  
|
パターン3 | 勝ち | 負け |
計   | 場合の数 |
将 棋 | 10  | 0  |
10  |   10C10 |
囲 碁 | 1  | 9  |
10  |   10C1 |
計   | 11  | 9  |
20  |   20C11 |
  確 率  |
10C10×10C1
/20C11 = 0.00006 |
|
  |
パターン4 | 勝ち | 負け |
計   | 場合の数 |
将 棋 | 6  | 4  |
10  |   10C6 |
囲 碁 | 5  | 5  |
10  |   10C5 |
計   | 11  | 9  |
20  |   20C11 |
  確 率  |
10C6×10C5
/20C11 = 0.315075 |
|
  
|
パターン5 | 勝ち | 負け |
計   | 場合の数 |
将 棋 | 5  | 5  |
10  |   10C5 |
囲 碁 | 6  | 4  |
10  |   10C6 |
計   | 11  | 9  |
20  |   20C11 |
  確 率  |
10C5×10C6
/20C11 = 0.315075 |
|
  
|
パターン6 | 勝ち | 負け |
計   | 場合の数 |
将 棋 | 4  | 6  |
10  |   10C4 |
囲 碁 | 7  | 3  |
10  |   10C7 |
計   | 11  | 9  |
20  |   20C11 |
  確 率  |
10C4×10C7
/20C11 = 0.15004 |
|
  |
パターン7 | 勝ち | 負け |
計   | 場合の数 |
将 棋 | 3  | 7  |
10  |   10C3 |
囲 碁 | 8  | 2  |
10  |   10C8 |
計   | 11  | 9  |
20  |   20C11 |
  確 率  |
10C3×10C8
/20C11 = 0.03215 |
|
  
|
パターン8 | 勝ち | 負け |
計   | 場合の数 |
将 棋 | 2  | 8  |
10  |   10C2 |
囲 碁 | 9  | 1  |
10  |   10C9 |
計   | 11  | 9  |
20  |   20C11 |
  確 率  |
10C2×10C9
/20C11 = 0.00268 |
|
  
|
パターン9 | 勝ち | 負け |
計   | 場合の数 |
将 棋 | 1  | 9  |
10  |   10C1 |
囲 碁 | 10  | 0  |
10  |   10C10 |
計   | 11  | 9  |
20  |   20C11 |
  確 率  |
10C1×10C10
/20C11 = 0.00006 |
|
この中でデータのような表が得られる確率と同じかそれより小さな確率をすべて加え合わせたものが,
p 値である.すなわち,パターン1,パターン2,パターン3,パターン6,パターン7,パターン8,
パターン9,の確率を加え合わせる.
特に,上側確率が,データとパターン1,パターン2,パターン3,を加えたもので,
上側確率:Pupper = 0.15004 + 0.03215 + 0.00268 + 0.00006 = 0.1849
であり,下側確率が残りのパターンの確率を加え,
下側確率:Plower = 0.15004 + 0.03215 + 0.00268 + 0.00006 = 0.1849
となる.p 値(有意確率)は,これを加え,
p 値:Pupper + Plower = 0.1849 + 0.1849 = 0.3698
となる.
- 勝率同等性の Fisher 直接確率法検定
-
shogi <- c(7, 3) # A の将棋の勝ち負け数
igo <- c(4, 6) # A の囲碁の勝ち負け数
x <- rbind(shogi, igo) # 行連結による行列化
m <- sum(shogi) # 将棋の勝負回数
chisq.test(x) # 勝率同等性 χ2 検定.警告が出る.
fisher.test(x) # 勝率同等性 Fisher 直接確率
- 超幾何分布による Fisher 直接確率法検定の p 値
ところで,
将棋を m = 10 回,囲碁を n = 10 回勝負し,全部で k = 11 回の「勝ち」があったとき,将棋では
x 回の「勝ち」が得られる確率分布は,超幾何分布 f(x; m, n, k) に従う.
超幾何分布で x = 7 回の「勝ち」が得られる確率以下である確率をすべて加え合わせたのが
p 値となる.
-
m <- 10; n <- 10; k <- 11
dhyper(7:11, m, n, k)
pu <- sum(dhyper(7:11, m, n, k)); pu # 上側確率
dhyper(0:4, m, n, k)
pl <- sum(dhyper(0:4, m, n, k)); pl # 下側確率
pu + pl # p 値
クロス集計と独立性の検定
n 標本を2つの変数 A,B で分類したとき,2つの変数に関連があるかを調べたい.
変数 A を集団属性(集団1,集団2),変数 B を反応パターン(反応1,反応2)とした
とき,データは以下のようにまとめられる.これをクロス集計と呼ぶ.
2 × 2 分割表データ
| 反応1 | 反応2 | 計 |
集団1 | n11 |
n12 |
n1・ |
集団2 | n21 |
n22 |
n2・ |
計 | n・1 |
n・2 |
n |
ここで,nij は,集団 i の標本の中で,反応 j を取った人数(度数)
である.また,ni・ は集団 i の標本の大きさで,
n・j は標本全体(大きさ n)の中で反応 j を取った人数
を表し,それぞれ周辺度数という.
このような表において,集団で反応パターンに違いがなければ,集団 i で反応 j を取る確率は,
集団 i である確率 ni・/n に
集団 j である確率 n・j/n をかけた
ni・n・j/
n2 となることが期待される.これより,
集団 i で反応 j を取る人数(度数)は,
ni・n・j/n
となることが期待される.これを独立性の仮定という.
いま,集団 i の標本の中で,反応 j を取る確率を pij とし,
集団 i の周辺確率を pi.,
反応 j の周辺確率を p.j とすると,独立性の仮説は,
帰無仮説,H0: pij = pi.p.j,
対立仮説,H1: pij ≠ pi.p.j,
の検定になる.
帰無仮説のもとで,表現は違うが前節とまったく同じ χ2 値が,
と分布するので,独立性の検定を行うことができる.連続性の補正も前節とまったく同じようにして行う.
すなわち,比率の同等性の検定と独立性の検定は,意味が違うが検定のやり方はまったく同じである.
オッズ比(odds ratio)
変数 A,B 間の関連の強さを測る指標としてオッズ比がある.
たとえば,食中毒事件が起きたとき,
食中毒症状が出たか出なかったか(変数 A)を
出された食材を食べた人と食べなかった人(変数 B)で
分類する.このとき,ある食材に対しての分類は以下のようであったとする.
| 発症あり(A1) | 発症なし(A2) |
食べた(B1) | a | b |
食べなかった(B2) | c | d |
食材を食べたときに発症する確率 Pr[A1| B1] の推定値は a/(a + b),
発症しない確率 Pr[A2| B1] の推定値は b/(a + b) である.
これより,その食材を食べたとき食中毒を発症する危険率(オッズ)は,
Pr[A1| B1]/P[A2| B1] = a/b
であり,同様に食べなかったときの発症オッズは,
Pr[A1| B2]/P[A2| B2] = c/d
である.この両者の比,
をオッズ比といい,ある食材を食べたことが食中毒症状発症にどれだけ危険であるかの尺度になる.
危険が同等のときは,オッズ比は 1 となる.すなわち,オッズ比が 1 より有意に大きいときは食中毒
リスクの高かった食材(食中毒原因食材)になり,
1 より有意に小さいときは食中毒リスクを軽減させた食材となる.
なお,どこかのセルデータが 0 であったときは,
セルのすべての値に 0.5 を加えて補正する.
ところで,R の fisher.test() では,超幾何分布に基づいてオッズ比の最尤推定を
行っているらしいので,上の式の単純な推定値とは値が多少異なっているが,ソースの解読を
していないので詳細は不明である.
ピアソン χ2 検定は,
帰無仮説 H0:オッズ比 φ = 1
の検定と同等である.
- 心筋梗塞死亡率の χ2 独立性検定とオッズ比
ある病院で,心筋梗塞発作後の6ヶ月以内の死亡率と
牛乳に対する抗体を持った患者と持っていない患者でまとめたのが下の表である.
心筋梗塞死亡リスクと牛乳に対する抗体の有無との関連を調べる.
心筋梗塞死亡率と牛乳に対する抗体の有無
| 6ヶ月以内死亡 | 6ヶ月生存 |
牛乳に対する抗体あり | 29 | 71 |
牛乳に対する抗体なし | 10 | 94 |
# 心筋梗塞死亡率の R スクリプト
x <- matrix(c(29, 71, 10, 94), nrow=2, byrow=T); x
x[1,1]*x[2,2]/(x[1,2]*x[2,1]) # 通常のオッズ比
chisq.test(x) # χ2 値,p 値
fisher.test(x) # オッズ比,p 値
|
参考文献(古い順)
- Introduction to the Theory of Statistics, Mood, A. M., Graubill, F. A. & Boes, D. C., 1974,
McGRAW-HILL
- 「実験」生産環境生物学,東京大学大学院農学生命科学研究科生産・環境生物学専攻編,1999,朝倉書店
- 工学のためのデータサイエンス入門-フリーな統計環境Rを用いたデータ解析-,間瀬茂ら,2004,
数理工学社
- 実践生物統計学-分子から生態まで-(第 1 章,第 2 章),
東京大学生物測定学研究室編(大森宏ら),
2004,朝倉書店
- The R Tips データ解析環境 R の基本技・グラフィックス活用集,船尾暢男,2005,九天社
- R で学ぶデータマインニング I -データ解析の視点から-,熊谷悦生・船尾暢男,2007,九天社
- R で学ぶデータマインニング II -シミュレーションの視点から-,熊谷悦生・船尾暢男,2007,九天社
Copyright (C) 2008, Hiroshi Omori. 最終更新日:2019年11月14日