2018.6.19

2018年度生物測定基礎実験

応用生物学基礎実験

ピスタチオ計測データの解析

「良い」計測方法

　先週は、市販5社のピスタチオオ最大長の分布を、物差し、ノギス、バーコード、画像処理の4種類の計測方法を用いて計測結果を比較検討した。
　良い計測とは、労力、時間などの計測コストが低くかつ精度の高い計測方法である。画像処理の計測コストが低いが、精度に関してはノギスが高そうである。しかし、他の方法はどの程度の精度を持つかは不明である。そこで、計測手法間の精度比較を行ってみる。
　いま、計測対象の真の形質値を x とし、その測定値を y とおくと、

y = x +δ+ e

とおける。ただし、δは偏り（バイアス）、e は測定誤差で、その分散 Var[e] =σ_e² とする。バイアスは計測方法の「くせ」による系統的な誤差値で、真の値を過大評価もしくは過少評価したりする傾向がある時に現れる。
　良い計測とは、不偏（バイアスが無い）、すなわち、δ= 0 で、測定誤差分散 σ_e² が小さい方法である。真の形質値を x の分布の平均を E[x] =μ、分散 Var[x] =σ² であるとする。すると、測定値 y の平均と分散は、それぞれ、

E[y] = E[x] +δ+ E[e] = μ+δ
Var[y] = Var[x] + Var[e] = σ² + σ_e²

となる。
　これより、測定値 y の分散、もしくは標準偏差の小さい計測方法が誤差分散が小さいので、測定誤差が少ない手法であり、優れていることがわかる。また、測定値 y の平均値を手法間で比較し、系統的な偏りがあるかどうかをみることで、バイアスの有無が検討できる。別の考え方として、異なる手法で計測したとき、他の計測手法からの値と大きく異なるような値を出す計測手法はあまり信用できない。反対に、似たような値を出すような計測手法どうしは、それだけ信用できると言える。

data <- read.csv("data.csv")
head(data)
bx <- levels(data$brand)
bag <- rep(0, nrow(data))	# bag というデータ（ブランドごとに1,2を付与）
for(j in 1:length(bx)){
    v <- which(data$brand==bx[j])
    bag[v] <- c(rep(1,15), rep(2,15))
}
bag <- factor(bag)
data <- data.frame(data, bag)
head(data)
attach(data)			# dataの使用を宣言
brand_group <- paste(brand, group, sep=":")
# ブランド、班ごとの標準偏差。
# 標準偏差が小さい測定方法が望ましい。
res1 <- tapply(ruler, brand_group, sd, na.rm = T); res1 	# ものさし
mean(res1)								# ものさしの標準偏差の平均							
# バイアスを見るため、ブランド、班ごとの平均を見る。
# 理想的には同じブランドを計測した2班が平行直線になっているのが望ましい。
# 上下にぶれるのは良くない計測方法である。
# また、青と赤は同じブランドの異なる2袋なので値はほぼ同じであると考えられる。
levels(brand)
# donki
bx <- "donki"
v <- which(brand==bx)
y <- data[v,]
a <- unique(y$group)
m1 <- apply(y[bag[v]==1, 3:6], 2, mean, na.rm=T)
m2 <- apply(y[bag[v]==2, 3:6], 2, mean, na.rm=T)
plot(1:4, m1, type="n", xaxt="n", xlab="", ylab="Length", ylim=range(c(m1,m2)))
axis(side=1, at=1:4, labels=names(m1))
lines(1:4, m1, type="b", col="red")
lines(1:4, m2, type="b", col="blue")
legend("topleft", legend=a, pch=1, col=c("red","blue"))
title(main=paste("Mean length of", bx, sep=" "))
detach(data)	# dataの使用終了

課題１

　測定方法ごとの測定値の平均や標準偏差の値からみると、良い計測方法は何か。

ノギスデータを用いた解析

ブランドごとの袋間の違い

　ピスタチオのサイズが同じブランドの袋ごとに違いがあるかを調べる。品質管理の観点からみるとブランド内の袋間に差がなく均一であることが望ましい。ブランドごとに 2 つの袋間で t 検定を行い、有意な違いが検出されたブランドではピスタチオを買うときは他の袋とよく見比べて買った方が良いことがわかる。しかし、計測方法の誤差やバイアスによる可能性も否定できない。

分散分析

　ピスタチオのサイズがブランドにより異なるか、また、同じブランドの袋ごとに違いがあるかを一気に調べるには分散分析をすればよい。
　いま、i 番目のブランド（i = 1,…,5）の j 番目の袋（j = 1, 2）内の k 番目のピスタチオ（k = 1,…,15）のサイズの計測値を X_ijk とおくと、 X_ijk は

X_ijk＝μ＋α_i＋β_ij＋e_ijk、

とおける。ここで、μは総平均、α_i はブランドの効果、 β_ij はブランドごとの袋の効果、e_ijk は誤差項で、 e_ijk ～ N (0, σ²) を仮定する。このようにブランド（主効果）ごとに標本の単位（袋）があり、この単位（袋）の中に個体があるようなモデルをネスト（枝分かれ）分散分析（Nested Analysis of Variance）という。
　brandごとにbagがあるときのvalueに対するネスト分散分析を行うには、aov()を用い、

aov(value ~ brand/bag)

とすればよい。
　ブランドごとの袋の効果（同じブランドで袋ごとにサイズが異なるか）は、誤差平均平方との比較で検定することができるが、ブランドの効果（ブランドによりサイズに違いがあるか）を誤差平均平方と比較するのは正しくない。ブランドの効果平均平方はブランドごとの袋の効果の平均平方と比較しなければならない。これは、分散分析で誤差を指定するError()を用い、

aov(value ~ brand + Error(brand:bag))

とすれば行える。ブランド内の袋のばらつきを超えてブランド間でのばらつきが大きくないとブランド間の効果は有意とならない。このとき、ブランドごとの袋の数が少ないと F 分布の分母自由度が小さいので検出力は低いものになってしまう。
　実際、各ブランドから 1 袋しかサンプリングしなかった場合は、枝分かれモデルを適用することはできず、袋の値をブランド全体の値とみなすしかない。今回の実験ではブランドごとに 2 袋しかないので、枝分かれモデルではブランドの効果は有意とならないかもしれない。このような場合、あまり推奨できないが、袋データをプールして通常の 1 元配置として解析することも考えられる。すなわち、

X_ij＝μ＋α_i＋e_ij、j = 1,…,30

のようにする。これは、

aov(value ~ brand)

とすればよい。

ブランド間の多重比較（multiple comparison）

　1 元配置分散分析でブランド間に有意な差があると認められると、どのブランド間に差があるのかが知りたくなる。この場合すべてのブランド間で t 検定を行うことになるが、ブランドの数が多いとたくさんの t 検定を行うことになってしまう。たとえば、ブランドの数が 10 であったとすると、t 検定の回数は ₁₀C₂ = 45 回になる。有意水準 5 ％検定は、有意な違いが無いときでも 100 回検定を行うと 5 回は有意な違いを検出（ゴーストを拾う、偽陽性とも言う）してしまう。このように、たくさんの検定を行うと，たまたま有意になる確率が名目上の有意水準（たとえば 5 ％）を超えてしまう恐れがある．これが、多重比較である。現在では、コンピュータにより多くの検定を簡単に行うことができるので、以前に比べて多重比較の問題を考慮しなければならないと考えられる。
　いま，処理平均 μ_i と μ_j の比較を行う場合を考える． 2 つの処理平均の差 μ_i - μ_j は， d_ij = X^-_i. - X^-_j. で推定される．帰無仮説（α_i = α_j = 0）のもとで，d_ij の平均と分散は，

となるので，分散 σ² をその推定量 s² で置き換えた検定統計量 t_ij は，

のように自由度 n - a の t 分布に従うので d_ij = 0 の検定を行うことができる．
　有意水準 α'（たとえば 5 ％）の検定は，自由度 n - a の t 分布の 1 - α'/2（たとえば 97.5 ％) 分位点， t(n - a)_{1 - α'/2} を用いて，

が成り立つとき μ_i と μ_j の効果に違いがあると判定される．ここで， LSD（Least squared distance）は最小有意差という量で，以前は，α' = 0.05 として，処理効果のある組み合わせを見つけるためよく用いられていたが，最近は，多重比較を考慮に入れた有意水準の補正を考えるのが普通なので，単純な LSD は使用しない方が良いと思われる．
　いま，a 水準の主効果があったとすると，すべての組み合わせは r = a(a - 1)/2 通りあり，「後付け」の検定を行うときは，全体で r 回の検定を行っていると考えなければならない． R でも対比較では多重比較による有意確率の補正が簡単に行える．これは、

pairwise.t.test(value, brand)

のようにすればよい。

なにもしない
推奨されない方法である．すなわち，補正なしの t 検定を行う．昔の LSD である．
R では，|d_ij| の p 値が出力される．これは、
pairwise.t.test(value, brand, p.adj = "none")
とすればよい。
ボンフェローニ（Bonferroni）補正
いま，有意水準 α' のそれぞれ独立な検定を r 回行ったとすると，1 回の検定で正しい判断を行う確率が 1 - α' なので，r 回の検定で正しい判断を行う確率は，(1 - α')^r となる．よって，正しい判断を行わない（第 1 種の過誤の）確率は，
1 - (1 - α')^r ≒ 1 - (1 - rα') = rα'，ただし，α' ≒ 0
となる．これが，r 回の検定全体での有意水準となる．よって，検定全体での有意水準を α にするには， 1 回の検定の有意水準を α' = α/r にすればよい．これがボンフェローニ補正である．しかし，多重比較における検定は独立な検定ではないので，この補正は厳しすぎ（保守的）て，有意な組み合わせが見つからない恐れがある．
R の多重比較では，補正なしの p 値を r 倍した p 値を出力する．ただし，これが 1 を超えた場合は 1 とする．これは、
pairwise.t.test(value, brand, p.adj = "bonf")
とすればよい。
ホルム（Holm）補正
ボンフェローニ補正を改良したものである．すべての比較組み合わせ（対比）の t 値を計算し，それを大きさの順に並べる．一番大きな t 値 t₍₁₎ の有意確率を α/r，次の大きさの t₍₂₎ の有意確率を α/(r - 1)，というように有意確率を調整する．
R ではホルム補正がデフォルトで， p 値を大きさの順に並べ最も小さな p 値を r 倍し，次に大きな p 値を r - 1 倍して出力するようである．これは、
pairwise.t.test(value, brand)
とすればよい。
チューキー（Tukey）の HSD（honestly significant difference）
今までは，t 検定の有意確率を補正することにより，多重比較の問題に対処していたが，スチィーデント化された範囲の分布（Studentized range distribution）という多重比較専用の分布を用いて検定する．2 つの処理 i，j 間の比較を行うときに用いる検定統計量は，先ほどの t_ij である．これは、
fm <- aov(value ~ brand)
TukeyHSD(fm, "brand")
とすればよい。

attach(data)			# dataの使用を宣言
value <- nogisu
boxplot(value ~ bag:brand)
# "donki" 内での袋間の違いの検定
v <- which(brand=="donki")
t.test(value[v] ~ bag[v])
# ネスト分散分析
# ブランド、袋間の検定
summary(aov(value ~ brand/bag))
# ブランド間の検定
# 警告メッセージは無視してよい。
summary(aov(value ~ brand + Error(brand:bag)))
# ブランド内袋データを一緒にする。
boxplot(value ~ brand)
summary(fm <- aov(value ~ brand))
# 多重比較
pairwise.t.test(value, brand, pool.sd = FALSE)
# Tukey の HSD
TukeyHSD(fm, "brand")
plot(TukeyHSD(fm, "brand"))
detach(data)	# dataの使用終了

課題2

ブランド内袋間で差が認められたブランドはどこか。
ネスト分散分析で、ブランド間の差が認められたか。ブランド間の差が検出できなかった場合、どのような実験にすれば良かったか。
プールしたデータの多重比較から大きさに違いのあるブランドはどれか。
画像処理計測データで同様の解析を行え。ノギスデータの場合と同様な結果が得られたか。

ピスタチオ好みデータの解析

ピスタチオ好みデータダウンロード

Thurstone の一対比較法

　いま、対象Aに対するある集団の好み得点 x_A が正規分布 N(a, 1/2) に従い、対象Bに対する好み得点 x_B が N(b, 1/2), a > b, に従うとする。すると、対象Aに対する得点と対象Bに対する得点差は、正規分布の差の分布なので、

x_A - x_B ～ N(a - b, 1)

という正規分布に従う。

　いま、集団の85％がAを好むというデータが得られた（図の灰色部分が85％）とすると、 a - b の値（右図の平均）がわかり、a と b の平均を 0 (a + b = 0) とおくと、好み得点の平均 a、b を求めることができる。すなわち、

qnorm(0.85) = 1.036 → a - b = 1.036, a + b = 0 → a = 0.518, b = -0.518

と推定できる。
　ここで、比較したい対象が m 個あったとすると、m(m - 1)/2 通りの比較を行って、対象間の好み得点の差を求め、これらを平均することで各対象の好み得点の平均を求めることがでいる。これを、Thurstone の一対比較法と言う。

一対比較法の例

　A、B、C、D、Eの5対象に対し、10人の被験者による一対比較法のデータが以下のようであったとする。各行がその対象を好んだ人数で各列は好まなかった人数である。たとえば、 AとBの比較では、Aを好んだのが9名、Bを好んだのが1名であり、AとCの比較では、Aを好んだのが7名、Cを好んだのが3名である。

　A　　B　　C　　D　　E　
A　　0 　9 　7 　7 　6
B　　1 　0 　5 　3 　4
C　　3 　5 　0 　7 　6
D　　3 　7 　3 　0 　4
E　　4 　6 　4 　6 　0

	A	B	C	D	E
A	0	9	7	7	6
B	1	0	5	3	4
C	3	5	0	7	6
D	3	7	3	0	4
E	4	6	4	6	0

以下のスクリプトで各対象の平均得点を求めると、Aが最も好まれ、Bが最も好まれていないことが分かる。

A　<-	c(0,	　9,	　7,	　7,	　6)
B　<-	c(1,	　0,	　5,	　3,	　4)
C　<-	c(3,	　5,	　0,	　7,	　6)
D　<-	c(3,	　7,	　3,	　0,	　4)
E　<-	c(4,	　6,	　4,	　6,	　0)
thurs <- rbind(A,B,C,D,E)
colnames(thurs) <- c("A","B","C","D","E")
diag(thurs) <- NA
thurs <- thurs/10
thurs
qn_thurs <- qnorm(thurs)
x <- apply(qn_thurs, 1, mean, na.rm=T)
sort(x, decreasing=T)

一対比較法の一部実施

　5種類の対象の比較を行うには、すべての組み合わせである10回の比較が必要であるが、試験の都合で一部しか実施できない場合もある。この時は正しい推定はできないが、それなりの結果は出る。いま、5回の比較しかしなかった時を考える。この場合、 Aが最も好まれるという「正しい」結果は得られたが、Dが最も好まれないという「正しくない」結果となった。

thurs2 <- thurs
thurs2[2,1] <- thurs2[4,2] <- thurs2[4,3] <- thurs2[5,1] <- thurs2[5,3] <- NA
thurs2[1,2] <- thurs2[2,4] <- thurs2[3,4] <- thurs2[1,5] <- thurs2[3,5] <- NA
thurs2
qn_thurs2 <- qnorm(thurs2)
x2 <- apply(qn_thurs2, 1, mean, na.rm=T)
sort(x2, decreasing=T)

課題3

　一対比較一部実施法を用い、ピスタチオ好みデータからピスタチオ得点を求めよ。ただし、一対比較では、5対0のような極端なときは解が得られないので、0.5点を加え、 5.5対0.5のようにする。

	A	B	C	D	E
A	0	9	7	7	6
B	1	0	5	3	4
C	3	5	0	7	6
D	3	7	3	0	4
E	4	6	4	6	0

	A	B	C	D	E
A	0	9	7	7	6
B	1	0	5	3	4
C	3	5	0	7	6
D	3	7	3	0	4
E	4	6	4	6	0

	A	B	C	D	E
A	0	9	7	7	6
B	1	0	5	3	4
C	3	5	0	7	6
D	3	7	3	0	4
E	4	6	4	6	0