東京農工大学

生物統計学演習

問題１：t 検定の検出力（power）

t 検定の有意水準の R スクリプトを参考にして，t 検定の検出力を求めてみよう．標本の大きさ n = 10 として，帰無仮説が偽であり，真の母集団平均が μ = 11，12，13，の３通りについて，帰無仮説；H₀：μ = 10，の検定を行った場合の検出力（帰無仮説を棄却する割合）を求めよ．
真の母集団平均が μ = 11 であるとき，検出力を 90％以上にするために必要なサンプルサイズを求めよ．

真の母集団平均が μ = 11 であるとき，符号順位和検定を行ったときの検出力を 90％以上にするために必要なサンプルサイズを求めよ．

ヒント：ウイルコックス検定を1000回やって，p値が0.05以下の個数を出す

N <- 10000
n <- 10
n1 <- rnorm(N*n, mean=11, sd=2) 	# N(11, 4) から大きさ n の標本を N 回シミュレーション 　
n1.mat <- matrix(data=n1, ncol=n) 	# データ行列 　
pvalue <- NULL
for(i in 1:N){
  wt <- wilcox.test(n1.mat[i,]-10)
  pvalue <- c(pvalue, wt$p.value)
}
length(pvalue[pvalue<0.05])

問題１解答例のスクリプト

N <- 10000 	# シミュレーション回数 　
#n <- 10 	# サンプルサイズ
n <- 43
m0 <- 11 
#m0 <- 12
#m0 <- 13　
n1 <- rnorm(N*n, mean=m0, sd=2) 	# N(m0, 4) から大きさ n の標本を N 回シミュレーション 　
n1.mat <- matrix(data=n1, ncol=n) 	# データ行列 　
n1.mean <- apply(n1.mat, 1, mean) 	# 各サンプルの平均 　
n1.var <- apply(n1.mat, 1, var) 	# 各サンプルの分散　
n1.var3 <- n1.var/n 	# 各標本平均の分散 　
n1.td <- (n1.mean - 10)/sqrt(n1.var3) 	# 各サンプルの t 値 　
mean(n1.td) 	# t 値の平均　
sd(n1.td) 	# t 値の標準偏差 　
mt <- ceiling(max(abs(n1.td))) 	# t 値の絶対値の最大値　
xq1 <- qt(0.025, df = (n-1)) 	# t(9) の 2.5% 点 　
xq2 <- qt(0.975, df = (n-1)) 	# t(9) の 97.5% 点 　
length( n1.td[abs(n1.td) > xq2]) 	# 5% 検定で有意となった個数 　
hist(n1.td, breaks=seq(-mt, mt, by=0.2), probability=TRUE, xlab="t 値", ylab="密度", main="")
#curve(dt(x, df=(n-1) ), -5,5, col="red", add=T) 	# t 分布 　
abline(v=xq1, col="red") 	# 採択域の下限 　
abline(v=xq2, col="red") 	# 採択域の上限 　
title(main="Histogram of t values") 	# タイトル 
# wilcoxtest
pvalue <- NULL
for(i in 1:N){
  wt <- wilcox.test(n1.mat[i,]-10)
  pvalue <- c(pvalue, wt$p.value)
}
length(pvalue[pvalue<0.05])

ｔ検定検出力のシミュレーション結果
真の平均検出力(％)

μ = 11 29.0

μ = 12 80.3

μ = 13 98.8

ｔ検定検出力のシミュレーション結果
真の平均	検出力(％)
μ = 11	29.0
μ = 12	80.3
μ = 13	98.8

必要なサンプルサイズのシミュレーション結果
サンプルサイズｔ検定符号順位和検定

43 88.9 87.8

44 89.9 88.5

45 90.5 88.9

46 91.6 90.6

必要なサンプルサイズのシミュレーション結果
サンプルサイズ	ｔ検定	符号順位和検定
43	88.9	87.8
44	89.9	88.5
45	90.5	88.9
46	91.6	90.6

45/46 = 0.98 なので，符号順位和検定はｔ検定の約98％の効率であるといえる．

問題２：淡水性ウナギデータの解析

　淡水性ウナギの汽水域での生理活性の違いのデータを２標本データとして違いを検定せよ．ただし，２母集団で分散の違いがあるようなので，まず，分散の同等性の検定を行い，違いが認められるときは，データの対数変換（lx <- log(x)）を行うなどして，分散安定化変換を行って t 検定を行ってみよ．また，データの対数変換などを行わず．ウェルチ検定やノンパラメトリック検定を行った場合との比較検討を行え．

データダウンロード

問題２解答例のスクリプト

unagi <- read.csv("unagi2.csv")
attach(unagi)
boxplot(unagi)
var.test(noNa, Na)

分散同等性検定で，p 値 = 0.047 で有意に分散が異なっていることがわかったので，通常の t 検定を行うことはできない．

t.test(noNa, Na)
wilcox.test(noNa, Na)
ks.test(noNa, Na)
plot(ecdf(noNa), do.points=F, verticals=T,xlab="生理活性", ylab="累積確率", 
xlim=range(noNa, Na), main="") 
plot(ecdf(Na), do.points=F, verticals=T, add=T, col.h='red', col.v='red')

検定方法 p 値

分散同等性検定 0.047 *

Welch 検定 0.01355 *

順位和検定 0.01452 *

Kolmogorov-Smirnov 検定 0.07546

検定方法	p 値
分散同等性検定	0.047	*
Welch 検定	0.01355	*
順位和検定	0.01452	*
Kolmogorov-Smirnov 検定	0.07546

Kolmogorov-Smirnov 検定以外では5％有意となり，ウナギの生理活性は淡水と汽水で有意に異なっていた．

分散安定化変換を試す．

x <- log(noNa)
y <- log(Na)
boxplot(x, y)
var.test(x, y)
t.test(x, y, var.equal=T)

検定方法 p 値

分散同等性検定 0.5071

t 検定 0.01126 *

検定方法	p 値
分散同等性検定	0.5071
t 検定	0.01126	*

分散安定化変換を行ったところ，分散の同等性は棄却されず，普通の t 検定を行った．

問題３：テレビ視聴率

ある調査会社のデータによると，関東地区では 600 世帯を対象にして視聴率調査を行っている． 2010年南アフリカ大会での，関東地区のカメールーン戦の平均視聴率は45.2％，オランダ戦の視聴率は43％であった．カメールーン戦とオランダ戦で視聴率に変化があったかどうか検定せよ．
過去３大会での日本戦の平均視聴率（9 試合分）は深夜放送分を除くと53.87％であった． 2010年の日本戦（予選２試合平均）は過去と比べて視聴率に変化があったかを検定せよ．

問題３解答例のスクリプト

600人のうち45.2％は，600*0.452 = 271.2 で，271人が見たと考えられる．

見た見ない

カメルーン戦 271 329

オランダ戦 258 342

	見た	見ない
カメルーン戦	271	329
オランダ戦	258	342

x <- matrix(c(271, 258, 329, 342), nrow=2); x
chisq.test(x)

p 値 = 0.4845 で，差は認められない．

９試合平均なので，見た人数を９倍する．

見た見ない

過去 2907 2493

予選 529 671

	見た	見ない
過去	2907	2493
予選	529	671

x <- matrix(c(323*9, 529, 277*9, 671), nrow=2); x
chisq.test(x)

p 値 = 0 なので，今回は今までと比べ有意に低い．ただし，予選の結果なので，本戦のデータが必要であろう．

問題４：食中毒原因食材の特定

　1940 年のNew York 州Oswego の協会の夕食会における胃腸炎異常発生の喫食調査データによると食材と食中毒症状とで以下の関係があった．

食品名発症あり発症なし

　食べた　食べない　食べた　食べない

ケーキ 27 19 13 16

ハムステーキ 29 17 17 12

バニラアイス 43 3 11 18

チョコアイス 25 20 22 7

フルーツサラダ 4 42 2 27

食品名	発症あり	発症なし
食べた	食べない	食べた	食べない
ケーキ	27	19	13	16
ハムステーキ	29	17	17	12
バニラアイス	43	3	11	18
チョコアイス	25	20	22	7
フルーツサラダ	4	42	2	27

　食材ごとの発症データから，χ² 独立性検定とオッズ比を使って食中毒の原因食材を推定せよ．すなわち，オッズ比が 1 より有意に大きくなった食材が食中毒の原因食材と特定できる．オッズ比が 1 より小さな食材は食中毒発生を抑制した食材である．このような食材があった場合，どうして抑制効果があったのか考察せよ．

問題４解答例のスクリプト

# ケーキ
x <- matrix(c(27, 19, 13, 16), nrow=2); x 
chisq.test(x)
fisher.test(x)
# ハムステーキ
x <- matrix(c(29, 17, 17, 12), nrow=2); x 
chisq.test(x)
fisher.test(x)
# バニラアイス
x <- matrix(c(43, 3, 11, 18), nrow=2); x 
chisq.test(x)
fisher.test(x)
# チョコアイス
x <- matrix(c(25, 20, 22, 7), nrow=2); x 
chisq.test(x)
fisher.test(x)
# フルーツサラダ
x <- matrix(c(4, 42, 2, 27), nrow=2); x 
chisq.test(x)
fisher.test(x)

食品名 p 値オッズ比

ケーキ 0.3499 1.735835

ハムステーキ 0.889 1.201146

バニラアイス 0 22.15606

チョコアイス 0.1275 0.4026708

フルーツサラダ 1 1.281528

食品名	p 値	オッズ比
ケーキ	0.3499	1.735835
ハムステーキ	0.889	1.201146
バニラアイス	0	22.15606
チョコアイス	0.1275	0.4026708
フルーツサラダ	1	1.281528

バニラアイスが原因食材であることがわかった．ところで，チョコアイスのオッズ比が１より小さいので，チョコアイスは食中毒症状を抑制した働きがあったようである．この解釈としては，チョコに食中毒症状を緩和する効果があると考えることもできるが，チョコが好きな人はバニラアイスに手を伸ばす可能性を減少させたと考えるのが自然であろう．

食品名	発症あり		発症なし
食品名	食べた	食べない	食べた	食べない
ケーキ	27	19	13	16
ハムステーキ	29	17	17	12
バニラアイス	43	3	11	18
チョコアイス	25	20	22	7
フルーツサラダ	4	42	2	27