2013年生物測定基礎実験

統計解析4

東京大学大学院農学生命科学研究科 大森宏


この実験の目的

 統計解析ソフトRを用いて,統計解析の理論と実践を学ぶ

分散分析(Analysis of Variance)

 分散分析は,ANOVA (Analysis of Variance) と略記されることもある.分散分析は,複数の処理を同時に 行ったときに,処理効果を推定するための最も基本的な手法である.データ全体の持つ情報は,総平方和 にまとめられているが,これを,処理の分散成分(処理平均平方)と誤差の分散成分(誤差平均平方)とに 分離して,その大きさを比較することにより,処理の効果を見積もるものである.

因子と水準

 経済学では価格や成長率,工学では作業時間や故障率,農学では収量や抵抗性など, 調査研究したい特性を形質(character)という.着目した形質に影響を与えると考えられるもの, 例えば,収量では品種,温度,施肥量などを要因または因子(factor)という. 要因の影響を調べるためいくつかの品種を用いたり, 施肥量に段階を設けたりするが,それを水準(level)という.

一元配置(one-way layout)

構造モデル

 t 検定では,2 つの処理平均の比較を行ったが,この節ではこれを拡張して,複数の処理平均の比較を行う 手法を考える.いま,a 水準の処理(treatment)A1,…,Aa,があり, 処理 Ai を行った ni 個の標本, Xi1,…,Xini,が得られた とする.処理 Ai からの標本は,平均 μi = μ + αi,分散 σ2 の正規分布に従うと仮定する.ここで,μ を総平均(grand mean), αi を処理効果(treatment effect)もしくは,主効果(main effect)と言い, Σiαi = 0,である.ここで,平均 0,分散 σ2 を持つ 誤差項(error term)eij を 導入し,標本の構造モデル,
model
として表現すると,データの持つ構造が理解しやすくなる.

平方和分解

 いま,処理 Ai の標本平均を X-i., 標本総平均を X-.. とすると,これらは,
model
と計算される.標本全体の持つ情報は,総平方和 ST(Total Sum of Squares)で表現される.これは,
model
のように誤差平方和 Se(Error Sum of Squares)と 処理平方和 SA(Treatment Sum of Squares)とに分解される.これは,積の項が
model
のように 0 となるからである.
 なお,誤差平方和を群内平方和(within groups sum of squares),処理平方和を群間平方和(between groups sum of squares)と呼ぶことも多い.

平方和の期待値

 個々の標本 Xij と処理 Ai の標本平均 X-i., 標本総平均 X-.. の構造モデルがそれぞれ,
model
のようになるので,誤差平方和 Se と処理平方和 SA の期待値は,それぞれ,
model
model
のように計算できる.

帰無仮説のもとでの平方和の比の分布

 一元配置モデルにおける帰無仮説は,すべての処理効果がない,つまり,

H0:αi = 0,i = 1,…,a, 

である.前節の平方和の期待値から,帰無仮説のもとで,Se2 は自由度 n - a の χ2 分布に従い,SA2 は自由度 a - 1 の χ2 分布に 従うことがわかる.これらの χ2 分布をその自由度で割った比の F 値は,
model
のように自由度 a - 1,n - a の F 分布に従う.
 ここで,MA は,処理平方和 SA を その自由度 a - 1 で割ったもので,処理平均平方(treatment mean square)と呼ばれ,処理平均から求めた 誤差分散 σ2 の推定値である.一方,Me は,誤差平方和 Se を その自由度 n - a で割ったもので,誤差平均平方(error mean square)と呼ばれ,誤差分散の推定値である.
 帰無仮説のもとでは MA と Me はほぼ等しいことが期待されるので,その比 F 値は 1 に近いことが期待される.よって,F 値が大きな値をとるときは帰無仮説が正しくないと考え,帰無仮説を 棄却する.F 値が大きいか小さいかの判断基準が対応する自由度の F 分布で決められる.

分散分析表と F 検定

 一元配置モデルの解析結果は,以下の分散分析表(ANOVA table)にまとめられる.

  変動因   自由度(df) 平方和(S.S.) 平均平方(M.S.)   F 値  
主効果 a - 1 SA MA = SA/(a - 1) MA/Me
誤 差 n - a Se Me = Se/(n - a)  
全 体 n - 1 ST    

 この表から検定統計量 F 値が求められる.そして, 自由度 a - 1,n - a の F 分布の 1 - γ 点(例えば 95 %点)F(a - 1,n - a)1 - γ より F 値が大きい,すなわち,

F > F(a - 1,n - a)1 - γ

であるとき,帰無仮説を棄却すると,有意水準 γ (例えば 5 %)の検定が行える.これを,F 検定(F test) という.

多重比較(multiple comparison)

 分散分析(正確には実験計画)の文脈では,試験設計の段階で帰無仮説の設定が行われる.つまり,検定の内容 が事前に決定されている.このような「先付け」のときは,検定の数がそれほど多くないなら, 複数の検定を行っても有意水準についての補正を行わないのが普通だと思われる.
 しかし,データが得られた後,「後付け」でどの処理間の差が有意であるか調べたい誘惑にかられることが多い. 結果として差が 大きかった処理間で t 検定を繰り返して行うと,たくさんの検定を行うので,たまたま有意になる確率が 名目上の有意水準(たとえば 5 %)を超えてしまう恐れがある.これが,多重比較である.現在では, コンピュータにより多くの検定を簡単に行うことができるので,以前に比べて多重比較の問題を考慮しなければ ならないと考えられる.
 いま,処理平均 μi と μj の比較を行う場合を考える. 2 つの処理平均の差 μi - μj は, dij = X-i. - X-j. で推定される. 帰無仮説(αi = αj = 0)のもとで,dij の平均と分散は,
model
となるので,分散 σ2 をその推定量 s2 で置き換えた 検定統計量 tij は,
model
のように自由度 n - a の t 分布に従うので dij = 0 の検定を行うことができる.
 有意水準 α'(たとえば 5 %) の検定は, 自由度 n - a の t 分布の 1 - α'/2(たとえば 97.5 %) 分位点, t(n - a)1 - α'/2 を用いて,
model
が成り立つとき μi と μj の効果に違いがあると判定される.ここで, LSD(Least squared distance)は最小有意差という量で,以前は,α' = 0.05 として,処理効果のある組み合わせ を見つけるためよく用いられていたが,最近は,多重比較を考慮に入れた有意水準の補正を考えるのが普通 なので,単純な LSD は使用しない方が良いと思われる.
 いま,a 水準の主効果があったとすると,すべての組み合わせは r = a(a - 1)/2 通りあり,「後付け」の 検定を行うときは,全体で r 回の検定を行っていると考えなければならない. R でも 対比較では多重比較による有意確率の補正が簡単に行える.

多重比較法の比較

 多重比較の方法はここで取り上げた以外の手法も知られているが,R で手軽に使える手法を解説した. ここで紹介した手法の有意水準をシミュレーションで比較してみる.標準正規乱数 50 を 1 から 5 まで のグループに 10 個ずつ分ける.このデータを処理数 a = 5,処理内標本 n = 10 の一元配置データ とみなす.このデータは帰無仮説が真のときで,処理平均に差がないはずである.

シミュレーションデータに対する分散分析と多重比較
a <- 5; n <- 10  # 処理水準数 a,処理内標本数 n   
x <- NULL  #   
for(i in 1:a) x <- c(x, rep(i, n))  # グループラベル   
x <- factor(x)		# ラベル化
y <- rnorm(n*a) 
cbind(y, x)

av <- aov(y ~ x)		# 分散分析
summary(av)

pairwise.t.test(y, x)  	# 対比較ホルム補正 
pairwise.t.test(y, x, p.adj = "bonf")  # 対比較ボンフェローニ補正
pairwise.t.test(y, x, p.adj = "none")  # 対比較補正なし
TukeyHSD(av)  	# チューキー HSD   

pairwise.t.test(y, x, p.adj = "none") # 対比較補正なし
だと,本来差が無いはずなのに,差があるとしてしまいゴーストを拾ってしまう.従って, 多くの比較を行う場合,補正しないといけない.

品種によるコメの収量の違い

水稲の9品種をそれぞれ,6区画の水田で栽培したときのアール当たりの玄米重量は以下のようであった. このうち,A,B,D,それぞれ,同じ母本から育成された品種であり,C は標準(対照 control)品種である.
このデータは一元配置分散分析で解析できる.処理が品種で,9 水準からなっている.帰無仮説は,

H0:収量はどの品種も同じである

である.

品種データダウンロード

品種収量の分散分析
hinsyu <- read.csv("hinsyu.csv"); hinsyu	# csv データ読み込み
n <- nrow(hinsyu)
m <- ncol(hinsyu)
boxplot(hinsyu)
idname <- rep(names(hinsyu), each=n)
hinsyu.vec <- as.vector(as.matrix(hinsyu))
hinsyu.fr <- data.frame(data = hinsyu.vec, id = idname)
table(hinsyu.fr$id)
av <- aov(hinsyu.fr$data ~ hinsyu.fr$id)		# 分散分析
summary(av)

model
問題1
  1. コメデータの分散分析の結果から帰無仮説の検定を行え.
  2. コメデータの品種効果を固定効果とみなして多重比較を行い,有意な差が認められる組を求めよ.

ピスタチオの長さ

 最初の学生実験で市販のピスタチオの長さの計測を行った.ピスタチオのサイズが コンビニにより異なっているか分散分析で調べる.

ピスタチオ計測データダウンロード

ピスタチオの分散分析
pis <- read.csv("pistachioSize.csv")
attach(pis)			# pisデータの使用を宣言
seven <- which(store=="seven")			# seven ブランドのみデータを取得
boxplot(size[seven] ~ group[seven])
res <- lm(size[seven] ~ group[seven])
summary(res)
anova(res)
#
boxplot(size ~ store)
res <- lm(size ~ store)
summary(res)
anova(res)
detach(pis)			# pisデータ使用終了
問題2
ピスタチオ計測データの分析を行え.ブンランドごとの違いや,同じブランド内での袋ごとの違いなど を解析する.

多元配置

 比較したい因子が複数ある場合は,多元配置となる.このとき,どのような構造モデルにするかは, 農場実習第1回で説明した実験計画による.
 1996年度から2000年度(1998年度を除く)までの試験目的は,品種,肥料水準,栽植密度が 水稲の収量構成要素に与える影響を計測するためであった.その配置は2反復2要因乱塊法であった.

2000年度試験配置
データダウンロード

 収量とは,単位面積(m2)あたりの玄米の収穫量(g), (grain yield; gy)のことであるが,収量構成要素は, 収量に影響を与える形質で収量を分解したもので,たとえば,「単位面積あたりの穂数(spikelet number; sn)」, 「一穂籾数(grain number; gn)」,「登熟歩合(percentage of riped grains; pr)」, 「玄米千粒重(g),(1000-grain weight; gw)」と分解できる.収量はこれらの構成要素の積で表現される.
 今回の実験では「日本晴」データの解析を行う.

特定年次の解析

構造モデル

 ある年次における処理組み合わせでラベルをつけた収量値 Xijk は,処理効果により,
Xijk = μ + αi + βj + ρk + (αβ)ij + εijk, i = 1,2, j = 1,2,3, k = 1,2
と構造化(モデル化)できる.ここで,μ は総平均で αi は栽植密度の 主効果(main effect)であり,βj は施肥量主効果, ρk はブロック効果,(αβ)ij は栽植密度と施肥量の交互作用(interaction)で, 各効果の和は0,たとえば,Σ αi = 0,とする. また,εijk はこれらの効果で説明できない誤差で, 互いに独立に 平均 0,分散 σ2 の正規分布(normal distribution) に従う (εijk 〜 N(0, σ2)) と仮定する. 各効果の推定値は,たとえば,
eq
と表せる.

処理平方和

 効果の大きい処理に対しては各効果の水準ごとの推定値は大きく異なり,逆に各水準 ごとに同じような値の推定値を与えるような処理は効果が小さいと考えられる. これは処理平方和(sum of squares; SS)で測ることができる. たとえば,密度の主効果の平方和は, 
eq
である.実は, データがもつ全平方和(sum of squares; SS)
eq
は,以下に示すように各処理による平方和で分解され,
eq
となる.これと同様に,各処理平方和に対する自由度(degree of freedom)も
eq
となる.なお自由度とは,比較の数のことで,3 水準の試験では比較は 2 通り (水準 1 対水準 2,水準 2 対水準 3)なので自由度は 2 となる. また,比較 1 つ分の平方和が平均平方(mean squares; MS)で, 平方和を自由度で割った値である.たとえば,密度効果の平均平方は, MSα = Sα/(a-1) である. また,誤差分散は,
eq
のように誤差平均平方で推定する.各効果の大きさは,この 誤差の大きさと比較することにより測ることができる.

F 検定

 各処理にまったく効果がないという帰無仮(null hypothesis),つまり,
H0 : αi = 0, βj = 0
という条件のもとで各処理効果の平均平方を誤差平均平方で割った値が F 分布に従う ことにより各処理効果の検定(test)が行える.たとえば,密度主効果の検定は,
eq
を用いる.密度効果がなければ Fα は 1 に近い値をとる.大きな 値を取った場合は,密度効果がないという帰無仮説が成立しておらず, 密度効果が認められると考える.つまり,帰無仮説を棄却(reject)する. この大きさの基準として,慣習的に F 分布(自由度 a - 1, (ab - 1)(c - 1) )の 5 % や 1 % 点が用いられている.この基準確率を 有意水準(significance level)という.
収量に対する処理効果の分散分析表
要因自由度平方和    平均平方 F 値    p 値    
ブロック115862 158623.850.107
密度11419 14190.3480.583
施肥265029 325147.8980.028*
密度×施肥22222 11110.2700.774
誤差520583 4117   
* : 5 % 有意

分散分析表の見方

 各処理の効果の程度を まとめたのが分散分析(analysis of variance; ANOVA) であり,その結果は上の表にまとめられている. これをみると,施肥量の効果の平方和は3水準で Sβ=65029 となり,比較は2通り なので自由度は2となる.その平均平方は平方和を2で割り,MSβ=32514 である. この値と誤差平方和の比が F 値で,7.90と大きな値になった. 帰無仮説のもとで F 値より大きな値がでる確率が p 値(p - value)である.p 値が小さいことは, 帰無仮説が成立する可能性が小さい,つまり, 処理効果が存在する可能性が大きいことを意味する.
 この例では,統計的にみて 有意水準 3 % で施肥量により収量が異なるといえるが,他の処理 効果は認められなかったという結論になる.つまり,平均値から得た類推は, 統計的に根拠があったということになる.

複数年次にわたる解析

構造モデル

 4年間にわたって行った データ表 を用いると, 気象条件などの年ごとの違いによる効果がわかる. 年次効果を γk で表すとすると,
Xijkl = μ + αi + βj + γk + (αβ)ij + (βγ)jk + (αγ)ik + (αβγ)ijk + εijkl
という 3 元配置モデルで記述できる.ただし,ブロックの 1 と 2 は毎年管理者が異なるので, ブロック効果として取り出さず,たんなる繰り返しとした.
問題3
  1. 田無農場の2000年のデータで,収量構成要素を一つ選び分散分析を行い,結果を考察せよ.
  2. 田無農場の4年次にわたるデータで,収量と収量構成要素のどれか一つに対し,分散分析を行い,結果を考察せよ.

参考文献(古い順)

  1. Introduction to the Theory of Statistics, Mood, A. M., Graubill, F. A. & Boes, D. C., 1974, McGRAW-HILL
  2. 「実験」生産環境生物学,東京大学大学院農学生命科学研究科生産・環境生物学専攻編,1999,朝倉書店
  3. 工学のためのデータサイエンス入門−フリーな統計環境Rを用いたデータ解析−,間瀬茂ら,2004, 数理工学社
  4. 実践生物統計学−分子から生態まで−(第 1 章,第 2 章), 東京大学生物測定学研究室編(大森宏ら), 2004,朝倉書店
  5. The R Tips データ解析環境 R の基本技・グラフィックス活用集,船尾暢男,2005,九天社
  6. R で学ぶデータマインニング I −データ解析の視点から−,熊谷悦生・船尾暢男,2007,九天社
  7. R で学ぶデータマインニング II −シミュレーションの視点から−,熊谷悦生・船尾暢男,2007,九天社

Copyright (C) 2008, Hiroshi Omori. 最終更新日:2010年 6月30日