統計特論２

東京大学大学院農学生命科学研究科　大森宏

３．分散分析

　分散分析は，ANOVA (Analysis of Variance) と略記されることもある．分散分析は，複数の処理を同時に行ったときに，処理効果を推定するための最も基本的な手法である．データ全体の持つ情報は，総平方和にまとめられているが，これを，処理の分散成分（処理平均平方）と誤差の分散成分（誤差平均平方）とに分離して，その大きさを比較することにより，処理の効果を見積もるものである．

因子と水準

　経済学では価格や成長率，工学では作業時間や故障率，農学では収量や抵抗性など，調査研究したい特性を形質(character)という．着目した形質に影響を与えると考えられるもの，例えば，収量では品種，温度，施肥量などを要因または因子(factor)という．要因の影響を調べるためいくつかの品種を用いたり，施肥量に段階を設けたりするが，それを水準(level)という．

一元配置（one-way layout）

構造モデル

　t 検定では，2 つの処理平均の比較を行ったが，この節ではこれを拡張して，複数の処理平均の比較を行う手法を考える．いま，a 水準の処理（treatment）A₁，…，A_a，があり，処理 A_i を行った n_i 個の標本， X_i1，…，X_{in_i}，が得られたとする．処理 A_i からの標本は，平均 μ_i = μ + α_i，分散 σ² の正規分布に従うと仮定する．ここで，μ を総平均（grand mean）， α_i を処理効果（treatment effect）もしくは，主効果（main effect）と言い， Σ_iα_i = 0，である．ここで，平均 0，分散 σ² を持つ誤差項（error term）e_ij を導入し，標本の構造モデル，

として表現すると，データの持つ構造が理解しやすくなる．

平方和分解

　いま，処理 A_i の標本平均を X^-_i.，標本総平均を X^-_.. とすると，これらは，

と計算される．標本全体の持つ情報は，総平方和 S_T（Total Sum of Squares）で表現される．これは，

のように誤差平方和 S_e（Error Sum of Squares）と処理平方和 S_A（Treatment Sum of Squares）とに分解される．これは，積の項が

のように 0 となるからである．
　なお，誤差平方和を群内平方和（within groups sum of squares），処理平方和を群間平方和（between groups sum of squares）と呼ぶことも多い．

平方和の期待値

　個々の標本 X_ij と処理 A_i の標本平均 X^-_i.，標本総平均 X^-_.. の構造モデルがそれぞれ，

のようになるので，誤差平方和 S_e と処理平方和 S_A の期待値は，それぞれ，

のように計算できる．

帰無仮説のもとでの平方和の比の分布

　一元配置モデルにおける帰無仮説は，すべての処理効果がない，つまり，

H₀：α_i = 0，i = 1，…，a，　

である．前節の平方和の期待値から，帰無仮説のもとで，S_e/σ² は自由度 n - a の χ² 分布に従い，S_A/σ² は自由度 a - 1 の χ² 分布に従うことがわかる．これらの χ² 分布をその自由度で割った比の F 値は，

のように自由度 a - 1，n - a の F 分布に従う．
　ここで，M_A は，処理平方和 S_A をその自由度 a - 1 で割ったもので，処理平均平方（treatment mean square）と呼ばれ，処理平均から求めた誤差分散 σ² の推定値である．一方，M_e は，誤差平方和 S_e をその自由度 n - a で割ったもので，誤差平均平方（error mean square）と呼ばれ，誤差分散の推定値である．
　帰無仮説のもとでは M_A と M_e はほぼ等しいことが期待されるので，その比 F 値は 1 に近いことが期待される．よって，F 値が大きな値をとるときは帰無仮説が正しくないと考え，帰無仮説を棄却する．F 値が大きいか小さいかの判断基準が対応する自由度の F 分布で決められる．

分散分析表と F 検定

　一元配置モデルの解析結果は，以下の分散分析表（ANOVA table）にまとめられる．

変動因	自由度（df）	平方和（S.S.）	平均平方（M.S.）	F 値
主効果	a - 1	S_A	M_A = S_A/(a - 1)	M_A/M_e
誤　差	n - a	S_e	M_e = S_e/(n - a)
全　体	n - 1	S_T

　この表から検定統計量 F 値が求められる．そして，自由度 a - 1，n - a の F 分布の 1 - γ 点（例えば 95 ％点）F（a - 1，n - a）_{1 - γ} より F 値が大きい，すなわち，

F ＞ F（a - 1，n - a）_{1 - γ}

であるとき，帰無仮説を棄却すると，有意水準 γ （例えば 5 ％）の検定が行える．これを，F 検定（F test）という．

品種によるコメの収量の違い
水稲の９品種をそれぞれ，６区画の水田で栽培したときのアール当たりの玄米重量は以下のようであった．このうち，A，B，D，それぞれ，同じ母本から育成された品種であり，C は標準（対照 control）品種である．
このデータは一元配置分散分析で解析できる．処理が品種で，9 水準からなっている．帰無仮説は，

H₀：収量はどの品種も同じである

である．

データダウンロード

水稲品種収量分散分析の R スクリプト
yy <- read.csv("hinsyu.csv"); yy # csv データ読み込み　
n <- nrow(yy) # 繰り返し数　
a <- ncol(yy) # 処理数　
y <- NULL; x <- NULL # 　
for(i in 1:a){ # 　
x <- c(x, rep(i, n)) # 品種番号ベクトル　
y <- c(y, yy[,i]) # 収量データベクトル　
} # 　
x <- factor(x) # ラベル化　
cbind(y,x) # ベクトルデータ表示　
summary(aov(y ~ x)) # 一元配置分散分析　
anova(lm(y ~ x)) # 一元配置分散分析（これでもよい）　

# 分散分析の計算を以下で詳しくみる

nn <- length(y) # 総データ数　
s <- diag(var(yy)*(n-1)) # 各品種内誤差　
se <- sum(s); se # 誤差平方和　
st <- var(y)*(nn-1) # 総平方和　
sa <- st - se; sa # 処理平方和　
va <- sa/(a - 1); va # 処理平均平方　
ve <- se/(nn - a); ve # 誤差平均平方　
fv <- va/ve; fv # F 値　
pv <- 1 - pf(fv, df1=(a-1), df2=(nn-a)); pv # p 値　

# データの品種ごとのちらばりと，品種平均と標準誤差を視覚化する

xm <- 1:9 # 　
ym <- mean(yy) # 品種ごとの平均　
vm <- ve/n # 品種平均の分散　
svm <- sqrt(vm) # 品種平均の標準誤差　
stripchart(yy, xlab="玄米重（kg/a）") # 品種ごとの個体分布表示　
text(ym, xm,"|", col="red") # 品種平均　
text(ym+svm, xm,"|", col="red") # 品種平均＋標準誤差　
text(ym-svm, xm,"|", col="red") # 品種平均－標準誤差　
segments(ym-svm, xm, ym+svm, xm, col="red") # 横線　
title(main="水稲品種収量個体分布") # 　

**水稲品種収量分散分析の R スクリプト**
yy <- read.csv("hinsyu.csv"); yy	# csv データ読み込み
n <- nrow(yy)	# 繰り返し数
a <- ncol(yy)	# 処理数
y <- NULL; x <- NULL	#
for(i in 1:a){	#
x <- c(x, rep(i, n))	# 品種番号ベクトル
y <- c(y, yy[,i])	# 収量データベクトル
}	#
x <- factor(x)	# ラベル化
cbind(y,x)	# ベクトルデータ表示
summary(aov(y ~ x))	# 一元配置分散分析
anova(lm(y ~ x))	# 一元配置分散分析（これでもよい）
# 分散分析の計算を以下で詳しくみる
nn <- length(y)	# 総データ数
s <- diag(var(yy)*(n-1))	# 各品種内誤差
se <- sum(s); se	# 誤差平方和
st <- var(y)*(nn-1)	# 総平方和
sa <- st - se; sa	# 処理平方和
va <- sa/(a - 1); va	# 処理平均平方
ve <- se/(nn - a); ve	# 誤差平均平方
fv <- va/ve; fv	# F 値
pv <- 1 - pf(fv, df1=(a-1), df2=(nn-a)); pv	# p 値
# データの品種ごとのちらばりと，品種平均と標準誤差を視覚化する
xm <- 1:9	#
ym <- mean(yy)	# 品種ごとの平均
vm <- ve/n	# 品種平均の分散
svm <- sqrt(vm)	# 品種平均の標準誤差
stripchart(yy, xlab="玄米重（kg/a）")	# 品種ごとの個体分布表示
text(ym, xm,"\|", col="red")	# 品種平均
text(ym+svm, xm,"\|", col="red")	# 品種平均＋標準誤差
text(ym-svm, xm,"\|", col="red")	# 品種平均－標準誤差
segments(ym-svm, xm, ym+svm, xm, col="red")	# 横線
title(main="水稲品種収量個体分布")	#

　水稲収量データの分散分析表は以下のようになり，品種の効果は有意確率 0.001（0.1 ％）以下の *** で，強度に有意となった．

**水稲収量分散分析表**
変動因	自由度（df）	平方和（SS）	平均平方（MS）	F 値
主効果	8	66.17	8.27	5.99 ***
誤　差	45	62.09	1.38
全　体	53	128.26

　また，各品種ごとの個体分布を図示すると以下のようになった．

対比（contarst）

　処理平均 μ_i のある群と他の群との違いに特に興味がある場合がある．例えば，処理 1，2，3 の平均と処理 4，5 の平均の間

に差があるかをみたいような場合である．一般に，

である比較を対比という．

　対比 C = Σ_ic_iμ_i は C^{^} = Σ_ic_iX^-_i. で推定されるが，帰無仮説（α_i = 0）のもとでは，対比推定量の平均と分散は，

となるので，分散 σ² をその推定量 s² で置き換えた検定統計量 t は，

のように自由度 n - a の t 分布に従うので，対比 C = Σ_ic_iμ_i = 0 の検定を行うことができる．特に，各処理水準の標本数が n_i = m と一定で，対比の係数を Σ_ic²_i = 1 と標準化すると，検定統計量は，

と簡略化される．

　ところで，別の対比 Σ_id_iμ_i があったときに， Σ_ic_i d_i = 0，となるものを直交対比という．直交対比の組は同時に検定ができる．　事前に比較が決められるときは，後述する多重比較による有意確率の補正を行わないことが多いと思われる．

母本による収量の違い（対比）
　前節では，すべての品種間で差がないかどうかの検定を行った．その結果，すべての品種の収量が同じという帰無仮説は強度に有意で棄却された．ここで，母本により収量に違いがあるかを見てみよう．いま，母本 A と B の違いに注目しているとしよう．これは，

で表されるが，このときの対比の係数は，

c₁ = (1/3, 1/3, 1/3, -1/2, -1/2, 0, 0, 0, 0)

である．この対比に直交するものとしては，例えば，標準品種 C と母本 D との間の違い，

が考えられる．この対比の係数は，

c₂ = (0, 0, 0, 0, 0, 1, -1/3, -1/3, -1/3)

であり，c₁ と c₂ の内積 c₁'c₂ = 0 なので， c₁ と c₂ は直交していることがわかる．

　対比の検定の結果，母本 A と B の差は強度に有意（0.1％以下）であり，母本 A からの系統の方が収量が高いと言える．また，標準品種 C と母本 D の系統では，有意な差が認められなかった．

# 母本による収量差の対比の R スクリプト
c1 <- c(1/3,1/3,1/3,-1/2,-1/2, 0, 0, 0, 0) # 母本 A と B の平均の差の対比係数ベクトル
c2 <- c(0, 0, 0, 0, 0, 1,-1/3,-1/3,-1/3) # 標準品種 C と母本 D の平均の差の対比係数ベクトル　
contrasts(x) <- cbind(c1, c2) # 品種ラベルに対比を定義する．　
contrasts(x) # 定義した残りの直交対比は R が勝手につくる　
fc <- lm(y ~ x) # 対比つき線形モデル　
summary(fc) # 結果表示（最初の２つの対比のみに着目）　

# 対比の計算を詳しくみる

gm <- tapply(y, x, mean); gm # 品種平均　
cmat <- contrasts(x)[,1:2] # 対比係数ベクトルの必要部分　
mc <- diag(t(cmat) %*% cmat) # 対比係数ベクトルの長さの２乗　
esd <- summary(fc)$sigma # 誤差標準偏差の推定値　
csd <- sqrt(mc)*esd/sqrt(n) # 対比の標準誤差　
ce <- t(cmat) %*% gm # 対比推定値（母本平均の差）　
tv <- ce/csd; tv # 対比 t 値　
2*(1 - pt(abs(tv), df=(nn-a))) # 対比 p 値　
ce <- ce/mc; ce # 対比係数ベクトルの長さで補正した対比推定値　
csd <- csd/mc; csd # 対比係数ベクトルの長さで補正した対比標準誤差

**# 母本による収量差の対比の R スクリプト**
c1 <- c(1/3,1/3,1/3,-1/2,-1/2, 0, 0, 0, 0)	# 母本 A と B の平均の差の対比係数ベクトル
c2 <- c(0, 0, 0, 0, 0, 1,-1/3,-1/3,-1/3)	# 標準品種 C と母本 D の平均の差の対比係数ベクトル
contrasts(x) <- cbind(c1, c2)	# 品種ラベルに対比を定義する．
contrasts(x)	# 定義した残りの直交対比は R が勝手につくる
fc <- lm(y ~ x)	# 対比つき線形モデル
summary(fc)	# 結果表示（最初の２つの対比のみに着目）
# 対比の計算を詳しくみる
gm <- tapply(y, x, mean); gm	# 品種平均
cmat <- contrasts(x)[,1:2]	# 対比係数ベクトルの必要部分
mc <- diag(t(cmat) %*% cmat)	# 対比係数ベクトルの長さの２乗
esd <- summary(fc)$sigma	# 誤差標準偏差の推定値
csd <- sqrt(mc)*esd/sqrt(n)	# 対比の標準誤差
ce <- t(cmat) %*% gm	# 対比推定値（母本平均の差）
tv <- ce/csd; tv	# 対比 t 値
2*(1 - pt(abs(tv), df=(nn-a)))	# 対比 p 値
ce <- ce/mc; ce	# 対比係数ベクトルの長さで補正した対比推定値
csd <- csd/mc; csd	# 対比係数ベクトルの長さで補正した対比標準誤差

多重比較（multiple comparison）

　分散分析（正確には実験計画）の文脈では，試験設計の段階で帰無仮説の設定が行われる．つまり，検定の内容が事前に決定されている．このような「先付け」のときは，検定の数がそれほど多くないなら，複数の検定を行っても有意水準についての補正を行わないのが普通だと思われる．
　しかし，データが得られた後，「後付け」でどの処理間の差が有意であるか調べたい誘惑にかられることが多い．結果として差が大きかった処理間で t 検定を繰り返して行うと，たくさんの検定を行うので，たまたま有意になる確率が名目上の有意水準（たとえば 5 ％）を超えてしまう恐れがある．これが，多重比較である．現在では，コンピュータにより多くの検定を簡単に行うことができるので，以前に比べて多重比較の問題を考慮しなければならないと考えられる．

　前節の対比でも，考えられる対比を無原則に行うときは多重比較の問題を考慮しなければならないが，この節では対比の中でも最も単純な対比較（pairwise comparison），すなわち，個々の処理水準間の比較のみを取り上げる．
　いま，処理平均 μ_i と μ_j の比較を行う場合を考える． 2 つの処理平均の差 μ_i - μ_j は， d_ij = X^-_i. - X^-_j. で推定される．帰無仮説（α_i = α_j = 0）のもとで，d_ij の平均と分散は，

となるので，分散 σ² をその推定量 s² で置き換えた検定統計量 t_ij は，

のように自由度 n - a の t 分布に従うので d_ij = 0 の検定を行うことができる．
　有意水準 α'（たとえば 5 ％）の検定は，自由度 n - a の t 分布の 1 - α'/2（たとえば 97.5 ％) 分位点， t(n - a)_{1 - α'/2} を用いて，

が成り立つとき μ_i と μ_j の効果に違いがあると判定される．ここで， LSD（Least squared distance）は最小有意差という量で，以前は，α' = 0.05 として，処理効果のある組み合わせを見つけるためよく用いられていたが，最近は，多重比較を考慮に入れた有意水準の補正を考えるのが普通なので，単純な LSD は使用しない方が良いと思われる．
　いま，a 水準の主効果があったとすると，すべての組み合わせは r = a(a - 1)/2 通りあり，「後付け」の検定を行うときは，全体で r 回の検定を行っていると考えなければならない． R でも対比較では多重比較による有意確率の補正が簡単に行える．

なにもしない
推奨されない方法である．すなわち，補正なしの t 検定を行う．昔の LSD である．
R では，|d_ij| の p 値が出力される．
ボンフェローニ（Bonferroni）補正
いま，有意水準 α' のそれぞれ独立な検定を r 回行ったとすると，1 回の検定で正しい判断を行う確率が 1 - α' なので，r 回の検定で正しい判断を行う確率は，(1 - α')^r となる．よって，正しい判断を行わない（第 1 種の過誤の）確率は，
1 - (1 - α')^r ≒ 1 - (1 - rα') = rα'，ただし，α' ≒ 0
となる．これが，r 回の検定全体での有意水準となる．よって，検定全体での有意水準を α にするには， 1 回の検定の有意水準を α' = α/r にすればよい．これがボンフェローニ補正である．しかし，多重比較における検定は独立な検定ではないので，この補正は厳しすぎ（保守的）て，有意な組み合わせが見つからない恐れがある．
R の多重比較では，補正なしの p 値を r 倍した p 値を出力する．ただし，これが 1 を超えた場合は 1 とする．

ホルム（Holm）補正
ボンフェローニ補正を改良したものである．すべての比較組み合わせ（対比）の t 値を計算し，それを大きさの順に並べる．一番大きな t 値 t₍₁₎ の有意確率を α/r，次の大きさの t₍₂₎ の有意確率を α/(r - 1)，というように有意確率を調整する．
R ではホルム補正がデフォルトで， p 値を大きさの順に並べ最も小さな p 値を r 倍し，次に大きな p 値を r - 1 倍して出力するようである．

# コメ収量多重比較の R スクリプト
pth <- pairwise.t.test(y, x); pth # 対比較ホルム補正　
ptb <- pairwise.t.test(y, x, p.adj = "bonf"); ptb # 対比較ボンフェローニ補正　
ptn <- pairwise.t.test(y, x, p.adj = "none"); ptn # 対比較補正なし　
showpt.f <- function(x, p){ # p 値が p 以下の比較を表示する関数　
pl <- which(x < p, arr.ind=TRUE) # 行列 x の要素が p 以下の場所　
cbind(pl[,2], x[pl]) # 場所と p 値の表示　
} # 　
showpt.f(pth$p.value, 0.05) # 対比較ホルム補正で 5 ％有意となった比較　
showpt.f(ptb$p.value, 0.05) # 対比較ボンフェローニ補正で 5 ％有意となった比較　
showpt.f(ptn$p.value, 0.05) # 対比較補正なしで 5 ％有意となった比較　

# 多重比較の計算を詳しくみる（品種１と５の比較）

c15 <- c(1,0,0,0,-1,0,0,0,0) # 対比ベクトル　
mc15 <- c15 %*% c15 # 大きさ　
c15sd <- sqrt(mc15)*esd/sqrt(n) # 対比較の標準誤差　
c15e <- t(c15) %*% gm # 対比較推定値　
tv15 <- c15e/c15sd; tv15 # 対比較 t 値　
pv15 <- 2*(1 - pt(abs(tv15), df=(nn-a)));pv15 # 対比較 p 値　
k <- a*(a-1)/2 # 比較の総数　
pv15*k # 対比較 p 値ボンフェローニ補正　

**# コメ収量多重比較の R スクリプト**
pth <- pairwise.t.test(y, x); pth	# 対比較ホルム補正
ptb <- pairwise.t.test(y, x, p.adj = "bonf"); ptb	# 対比較ボンフェローニ補正
ptn <- pairwise.t.test(y, x, p.adj = "none"); ptn	# 対比較補正なし
showpt.f <- function(x, p){	# p 値が p 以下の比較を表示する関数
pl <- which(x < p, arr.ind=TRUE)	# 行列 x の要素が p 以下の場所
cbind(pl[,2], x[pl])	# 場所と p 値の表示
}	#
showpt.f(pth$p.value, 0.05)	# 対比較ホルム補正で 5 ％有意となった比較
showpt.f(ptb$p.value, 0.05)	# 対比較ボンフェローニ補正で 5 ％有意となった比較
showpt.f(ptn$p.value, 0.05)	# 対比較補正なしで 5 ％有意となった比較
# 多重比較の計算を詳しくみる（品種１と５の比較）
c15 <- c(1,0,0,0,-1,0,0,0,0)	# 対比ベクトル
mc15 <- c15 %*% c15	# 大きさ
c15sd <- sqrt(mc15)*esd/sqrt(n)	# 対比較の標準誤差
c15e <- t(c15) %*% gm	# 対比較推定値
tv15 <- c15e/c15sd; tv15	# 対比較 t 値
pv15 <- 2*(1 - pt(abs(tv15), df=(nn-a)));pv15	# 対比較 p 値
k <- a*(a-1)/2	# 比較の総数
pv15*k	# 対比較 p 値ボンフェローニ補正

チューキー（Tukey）の HSD（honestly significant difference）
今までは，t 検定の有意確率を補正することにより，多重比較の問題に対処していたが，スチィーデント化された範囲の分布（Studentized range distribution）という多重比較専用の分布を用いて検定する．2 つの処理 i，j 間の比較を行うときに用いる検定統計量は，先ほどの t_ij である．

# コメ収量 Tukey HSD の R スクリプト
hsd <- TukeyHSD(aov(y ~ x)); hsd # チューキー HSD のすべての組み合わせの結果表示　
ph <- hsd$x[,4] # 各比較の p 値ベクトル　
sc <- (1:length(ph))[ph<0.05] # p 値が 0.05 以下の比較　
hsd$x[sc,] # 5 ％有意な比較　

**# コメ収量 Tukey HSD の R スクリプト**
hsd <- TukeyHSD(aov(y ~ x)); hsd	# チューキー HSD のすべての組み合わせの結果表示
ph <- hsd$x[,4]	# 各比較の p 値ベクトル
sc <- (1:length(ph))[ph<0.05]	# p 値が 0.05 以下の比較
hsd$x[sc,]	# 5 ％有意な比較

多重比較法による結果
コメ９品種収量の多重比較を行った結果 5 ％有意となった組み合わせは以下の表にまとめられる．有意確率の補正とチューキー HSD は似た結果を与えたが，補正なしの LSD では倍以上の組み合わせが有意とされた．

多重比較法共通の組み合わせ補正なしと HSD 補正なし

ホルム補正 1-5 2-4
2-5 2-8
5-9

ボンフェローニ補正

補正なし 5-7 1-4 1-8 2-3 2-6 2-7 3-5 4-9 5-6 8-9

チューキー HSD

多重比較法	共通の組み合わせ	補正なしと HSD
ホルム補正	1-5 2-4 2-5 2-8 5-9
ボンフェローニ補正
補正なし	5-7	1-4 1-8 2-3 2-6 2-7 3-5 4-9 5-6 8-9
チューキー HSD

多重比較法の比較
多重比較の方法はここで取り上げた以外の手法も知られているが，R で手軽に使える手法を解説した．ここで紹介した手法の有意水準をシミュレーションで比較してみる．標準正規乱数 50 を 1 から 5 までのグループに 10 個ずつ分ける．このデータを処理数 a = 5，処理内標本 n = 10 の一元配置データとみなす．このデータは帰無仮説が真のときで，処理平均に差がないはずである．
　分散分析 F 検定の p 値とホルム補正，ボンフェローニ補正，補正なし，チューキー HSD の多重比較の p 値の最小値を出す．p 値の最小値が 0.05 以下であれば，5 ％有意な組み合わせが少なくとも 1 つは存在したことになる．これを，N = 10000 回繰り返して有意な組み合わせが見つかった回数を調べれば有意水準がわかる．

　その結果は以下の表のようになった．また，分散分析の F 検定で有意になったときとそうでないときで多重比較で有意な組み合わせが見つかったかどうかも分類した．これをみると，補正なしの多重比較は有意水準 25 ％以上で，明らかにゴーストを拾ってしまうことがわかり，これを使ってはいけないことが示された．
　一方，ホルム補正とボンフェローニ補正は，このシミュレーションでは違いがまったくなかった．これは，p 値の最小値の補正はどちらも α/r であるからである．有意水準が 4 ％ぐらいであり，問題がないと言える．チューキー HSD の有意水準は約 5 ％で一番よいと言える．
　また，分散分析 F 検定との関連をみると，多重比較の有意な組み合わせの有無は F 検定と大きく関連があると言えるが，まったく一致しているわけではなかった．分散分析 F 検定と多重比較は違う検定と考えた方がよいと思われる．すなわち，分散分析 F 検定が有意なときだけ多重比較を行うと有意水準が低下するので，より保守的な検定になってしまうからである．

　多重比較の方式による違いをより詳しくみるために，p 値の最小値が 0.05 以下であるときに有意な対比較の個数の分布もみた．これをみると，ホルム補正，ボンフェローニ補正，チューキー HSD いずれも個数分布がよく似ていた．帰無仮説が真であるときは，ホルム補正とボンフェローニ補正では違いがほとんどないと思われる．

多重比較法の有意水準と F 検定の有意性との関係
F 検定ホルム補正ボンフェローニ補正補正なしチューキー HSD

有意水準 0.0497 0.0377 0.0377 0.2807 0.0503

有意となった組み合わせ
があった回数有意なとき（497） 337 337 497 393

有意でないとき 40 40 2310 110

**多重比較法の有意水準と F 検定の有意性との関係**
	F 検定	ホルム補正	ボンフェローニ補正	補正なし	チューキー HSD
有意水準	0.0497	0.0377	0.0377	0.2807	0.0503
有意となった組み合わせがあった回数	有意なとき（497）	337	337	497	393
有意でないとき	40	40	2310	110

# 多重比較法の有意水準の R スクリプト
N <- 100 # シミュレーション回数（時間節約のため減らした）　
a <- 5; n <- 10 # 処理水準数 a，処理内標本数 n 　
x <- NULL # 　
for(i in 1:a) x <- c(x, rep(i, n)) # グループラベル　
x <- factor(x) # ラベル化　
pv <- NULL; sn <- NULL # p 値行列と 5 ％有意な個数　
for(i in 1:N){ # 　
y <- rnorm(n*a) # 標準正規乱数 n*a 個　
pth <- pairwise.t.test(y, x) # 対比較ホルム補正　
ptb <- pairwise.t.test(y, x, p.adj = "bonf") # 対比較ボンフェローニ補正　
ptn <- pairwise.t.test(y, x, p.adj = "none") # 対比較補正なし　
av <- aov(y ~ x) # 分散分析　
hsd <- TukeyHSD(av) # チューキー HSD 　
p0 <- summary(av)[[1]][1,5] # 分散分析 p 値　
p1 <- min(pth$p.value, na.rm=TRUE) # 対比較ホルム補正の p 値の最小値　
n1 <- length(which(pth$p.value < 0.05)) # 対比較ホルム補正の 5 ％有意の個数　
p2 <- min(ptb$p.value, na.rm=TRUE) # 対比較ボンフェローニ補正の p 値の最小値　
n2 <- length(which(ptb$p.value < 0.05)) # 対比較ボンフェローニ補正の 5 ％有意の個数　
p3 <- min(ptn$p.value, na.rm=TRUE) # 対比較補正なしの p 値の最小値　
n3 <- length(which(ptn$p.value < 0.05)) # 対比較補正なしの 5 ％有意の個数　
p4 <- min(hsd$x[,4]) # チューキー HSD の p 値の最小値　
n4 <- length(which(hsd$x[,4] < 0.05)) # チューキー HSD の 5 ％有意の個数　
pv <- rbind(pv, c(p0, p1,p2,p3,p4)) # p 値行列に格納　
sn <- rbind(sn, c(n1,n2,n3,n4)) # 有意個数行列に格納　
} # 　
fs <- (1:N)[pv[,1]<0.05] # 分散分析で 5 ％有意となった回の番号　
hs <- (1:N)[pv[,2]<0.05] # 対比較ホルム補正で 5 ％有意な組み合わせがあった回の番号　
bs <- (1:N)[pv[,3]<0.05] # 対比較ボンフェローニ補正で 5 ％有意な組み合わせがあった回の番号
ns <- (1:N)[pv[,4]<0.05] # 対比較補正なしで 5 ％有意な組み合わせがあった回の番号　
ts <- (1:N)[pv[,5]<0.05] # チューキー HSD で 5 ％有意な組み合わせがあった回の番号　
num <- c(length(fs), length(hs), length(bs), length(ns), length(ts))
num/N # 有意水準　
table(hs %in% fs) # 対比較ホルム補正の番号と分散分析有意の番号とのマッチング　
table(bs %in% fs) # 対比較ボンフェローニ補正の番号と分散分析有意の番号とのマッチング　
table(ns %in% fs) # 対比較補正なしの番号と分散分析有意の番号とのマッチング　
table(ts %in% fs) # チューキー HSD の番号と分散分析有意の番号とのマッチング　
ths <- table(sn[hs,1]); ths # 対比較ホルム補正の有意な個数の分布　
tbs <- table(sn[bs,2]); tbs # 対比較ボンフェローニ補正の有意な個数の分布　
tns <- table(sn[ns,3]); tns # 対比較補正なしの有意な個数の分布　
tts <- table(sn[ts,4]); tts # チューキー HSD の有意な個数の分布　

ths <- ths/sum(ths); tbs <- tbs/sum(tbs); tts <- tts/sum(tts)

barplot(rbind(ths,tbs,tts), beside=TRUE, xlab="有意な対比較の数", ylab="頻度", legend=c("ホルム補正","ボンフェローニ補正", "チューキー HSD"))
title(main="有意な対比較の数の分布") # 　

**# 多重比較法の有意水準の R スクリプト**
N <- 100	# シミュレーション回数（時間節約のため減らした）
a <- 5; n <- 10	# 処理水準数 a，処理内標本数 n
x <- NULL	#
for(i in 1:a) x <- c(x, rep(i, n))	# グループラベル
x <- factor(x)	# ラベル化
pv <- NULL; sn <- NULL	# p 値行列と 5 ％有意な個数
for(i in 1:N){	#
y <- rnorm(n*a)	# 標準正規乱数 n*a 個
pth <- pairwise.t.test(y, x)	# 対比較ホルム補正
ptb <- pairwise.t.test(y, x, p.adj = "bonf")	# 対比較ボンフェローニ補正
ptn <- pairwise.t.test(y, x, p.adj = "none")	# 対比較補正なし
av <- aov(y ~ x)	# 分散分析
hsd <- TukeyHSD(av)	# チューキー HSD
p0 <- summary(av)[[1]][1,5]	# 分散分析 p 値
p1 <- min(pth$p.value, na.rm=TRUE)	# 対比較ホルム補正の p 値の最小値
n1 <- length(which(pth$p.value < 0.05))	# 対比較ホルム補正の 5 ％有意の個数
p2 <- min(ptb$p.value, na.rm=TRUE)	# 対比較ボンフェローニ補正の p 値の最小値
n2 <- length(which(ptb$p.value < 0.05))	# 対比較ボンフェローニ補正の 5 ％有意の個数
p3 <- min(ptn$p.value, na.rm=TRUE)	# 対比較補正なしの p 値の最小値
n3 <- length(which(ptn$p.value < 0.05))	# 対比較補正なしの 5 ％有意の個数
p4 <- min(hsd$x[,4])	# チューキー HSD の p 値の最小値
n4 <- length(which(hsd$x[,4] < 0.05))	# チューキー HSD の 5 ％有意の個数
pv <- rbind(pv, c(p0, p1,p2,p3,p4))	# p 値行列に格納
sn <- rbind(sn, c(n1,n2,n3,n4))	# 有意個数行列に格納
}	#
fs <- (1:N)[pv[,1]<0.05]	# 分散分析で 5 ％有意となった回の番号
hs <- (1:N)[pv[,2]<0.05]	# 対比較ホルム補正で 5 ％有意な組み合わせがあった回の番号
bs <- (1:N)[pv[,3]<0.05]	# 対比較ボンフェローニ補正で 5 ％有意な組み合わせがあった回の番号
ns <- (1:N)[pv[,4]<0.05]	# 対比較補正なしで 5 ％有意な組み合わせがあった回の番号
ts <- (1:N)[pv[,5]<0.05]	# チューキー HSD で 5 ％有意な組み合わせがあった回の番号
num <- c(length(fs), length(hs), length(bs), length(ns), length(ts))
num/N	# 有意水準
table(hs %in% fs)	# 対比較ホルム補正の番号と分散分析有意の番号とのマッチング
table(bs %in% fs)	# 対比較ボンフェローニ補正の番号と分散分析有意の番号とのマッチング
table(ns %in% fs)	# 対比較補正なしの番号と分散分析有意の番号とのマッチング
table(ts %in% fs)	# チューキー HSD の番号と分散分析有意の番号とのマッチング
ths <- table(sn[hs,1]); ths	# 対比較ホルム補正の有意な個数の分布
tbs <- table(sn[bs,2]); tbs	# 対比較ボンフェローニ補正の有意な個数の分布
tns <- table(sn[ns,3]); tns	# 対比較補正なしの有意な個数の分布
tts <- table(sn[ts,4]); tts	# チューキー HSD の有意な個数の分布
ths <- ths/sum(ths); tbs <- tbs/sum(tbs); tts <- tts/sum(tts)
barplot(rbind(ths,tbs,tts), beside=TRUE, xlab="有意な対比較の数", ylab="頻度", legend=c("ホルム補正","ボンフェローニ補正", "チューキー HSD"))
title(main="有意な対比較の数の分布")	#

二元配置（two-way layout）

構造モデル

　2 つの因子 A，B に対し，その水準の数をそれぞれ a，b とする．同じ因子と水準の繰り返し（repetition）を r とする．A 因子の第 i 水準で B 因子の第 j 水準の第 k 番目の標本データ X_ijk は，

とおける．μ は総平均，α_i は因子 A の主効果，β_j は因子 B の主効果， (αβ)_ij は因子 A と B の交互作用（interaction）で，

の制約を満たしている．e_ijk はモデルで説明できない誤差項である．

各種平方和

　因子 A，B の第 i，j 水準の平均，因子 A の第 i 水準の平均，因子 B の第 j 水準の平均および標本総平均をそれぞれ，

とおく．すると，総平方和 S_T，因子 A の平方和 S_A，因子 B の平方和 S_B，交互作用平方和 S_A×B，誤差平方和 S_e はそれぞれ，

と計算される．1 元配置分散分析のときと同様に，

S_T = S_A + S_B + S_A×B + S_e

という平方和の分解ができる．

分散分析表と F 検定

　二元配置モデルの解析結果は，以下の分散分析表（ANOVA table）にまとめられる．

変動因	自由度（df）	平方和（S.S.）	平均平方（M.S.）	F 値
主効果 A	a - 1	S_A	M_A = S_A/(a - 1)	M_A/M_e
主効果 B	b - 1	S_B	M_B = S_B/(b - 1)	M_B/M_e
交互作用	(a - 1)(b - 1)	S_A×B	M_A×B = S_A×B/(a - 1)(b - 1)	M_A×B/M_e
誤　差	ab(r - 1)	S_e	M_e = S_e/(n - a)
全　体	n - 1	S_T

実験計画法

に続く．

実験計画法（追加）

# コメ収量データの R スクリプト
rice <- read.csv("ricecul.csv") # コメデータ読み込み　
rice[rice$year==2000,] # 2000年度データの表示　
yield0 <- rice$gy[rice$year==2000] # 2000年度収量　
dens0 <- factor(rice$density[rice$year==2000]) # 2000年度密度水準のラベル化　
fert0 <- factor(rice$fert[rice$year==2000]) # 2000年度肥料水準のラベル化　
blk0 <- factor(rice$rep[rice$year==2000]) # 2000年度ブロックのラベル化　
cbind(yield0, dens0, fert0, blk0) # データと変数の表示　
tapply(yield0, dens0, mean) # 栽植密度水準ごとの収量平均　
tapply(yield0, fert0, mean) # 施肥量水準ごとの収量平均　
x <- tapply(yield0, dens0:fert0, mean); x # 栽植密度と施肥量組み合わせの収量平均　
ry.aov <- aov(yield0 ~ blk0 + dens0 + fert0 + dens0:fert0) # ２要因乱塊法分散分析　
summary(ry.aov) # 分散分析表表示　

plot(1:3, x[1:3], type="b", lwd=2, xaxt="n", xlab="施肥量", ylab="収量", ylim=c(300, 600), pch=0, col="blue")
axis(1, 1:3, labels=c("施肥無","施肥少","施肥多")) # グラフ表示　
points(1:3, x[4:6], type="b", lwd=2, pch=2, col="red") # 　

legend(locator(1), legend=c("疎植","密植"), pch=c(0,2), col=c("blue","red"))
title(main="栽植密度と施肥量の交互作用（2000年）") # 　

**# コメ収量データの R スクリプト**
rice <- read.csv("ricecul.csv")	# コメデータ読み込み
rice[rice$year==2000,]	# 2000年度データの表示
yield0 <- rice$gy[rice$year==2000]	# 2000年度収量
dens0 <- factor(rice$density[rice$year==2000])	# 2000年度密度水準のラベル化
fert0 <- factor(rice$fert[rice$year==2000])	# 2000年度肥料水準のラベル化
blk0 <- factor(rice$rep[rice$year==2000])	# 2000年度ブロックのラベル化
cbind(yield0, dens0, fert0, blk0)	# データと変数の表示
tapply(yield0, dens0, mean)	# 栽植密度水準ごとの収量平均
tapply(yield0, fert0, mean)	# 施肥量水準ごとの収量平均
x <- tapply(yield0, dens0:fert0, mean); x	# 栽植密度と施肥量組み合わせの収量平均
ry.aov <- aov(yield0 ~ blk0 + dens0 + fert0 + dens0:fert0)	# ２要因乱塊法分散分析
summary(ry.aov)	# 分散分析表表示
plot(1:3, x[1:3], type="b", lwd=2, xaxt="n", xlab="施肥量", ylab="収量", ylim=c(300, 600), pch=0, col="blue")
axis(1, 1:3, labels=c("施肥無","施肥少","施肥多"))	# グラフ表示
points(1:3, x[4:6], type="b", lwd=2, pch=2, col="red")	#
legend(locator(1), legend=c("疎植","密植"), pch=c(0,2), col=c("blue","red"))
title(main="栽植密度と施肥量の交互作用（2000年）")	#

課題：

# コメ収量年次効果の R スクリプト
yield <- rice$gy # コメ収量データ
dens <- factor(rice$density) # 密度水準のラベル化
fert <- factor(rice$fert) # 施肥量水準のラベル化
year <- factor(rice$year) # 年次のラベル化
cbind(yield, dens, fert, year) # データと変数の表示

rya.aov <- aov(yield ~ dens + fert + year + dens:fert + fert:year + dens:year + dens:fert:year)
summary(rya.aov) # ３元配置分散分析表
x <- tapply(rice$gy, fert:year, mean) # 年次と施肥量組み合わせの収量平均

plot(1:4, x[1:4], type="b", lwd=2, xaxt="n", xlab="年次", ylab="収量", ylim=c(300,600), pch=0, lty=1,col="red")
axis(1, 1:4, labels=levels(year)) # グラフ表示
points(1:4, x[5:8], type="b", lwd=2, pch=2,lty=1, col="blue") #
points(1:4, x[9:12], type="b", lwd=2, pch=3,lty=1, col="green") #

legend(locator(1), legend=c("施肥無","施肥少","施肥多"), pch=c(0,2,3), col=c("red","blue","green"))
title(main="年次と施肥量の交互作用") #

**# コメ収量年次効果の R スクリプト**
yield <- rice$gy	# コメ収量データ
dens <- factor(rice$density)	# 密度水準のラベル化
fert <- factor(rice$fert)	# 施肥量水準のラベル化
year <- factor(rice$year)	# 年次のラベル化
cbind(yield, dens, fert, year)	# データと変数の表示
rya.aov <- aov(yield ~ dens + fert + year + dens:fert + fert:year + dens:year + dens:fert:year)
summary(rya.aov)	# ３元配置分散分析表
x <- tapply(rice$gy, fert:year, mean)	# 年次と施肥量組み合わせの収量平均
plot(1:4, x[1:4], type="b", lwd=2, xaxt="n", xlab="年次", ylab="収量", ylim=c(300,600), pch=0, lty=1,col="red")
axis(1, 1:4, labels=levels(year))	# グラフ表示
points(1:4, x[5:8], type="b", lwd=2, pch=2,lty=1, col="blue")	#
points(1:4, x[9:12], type="b", lwd=2, pch=3,lty=1, col="green")	#
legend(locator(1), legend=c("施肥無","施肥少","施肥多"), pch=c(0,2,3), col=c("red","blue","green"))
title(main="年次と施肥量の交互作用")	#

課題：

４．回帰分析

相関

　標本（サンプル）に対し，２つの変数 x，y が測定されているとする．たとえば，x が身長(m)であり，y が体重(kg)である．大きさ n の標本（サンプル）に対し，２つの変数の組のデータが，

（x₁ ，y₁ ），（x₂ ，y₂ ）， …，（x_n ，y_n ）

であったとする．変数間の関連性の強さを測る量として共分散（Covariance），Cov[x ，y ] がある．これは，変数に対する平均を，

として，

と定義される．

　共分散は測定単位により大きさが変わるので，これをおのおのの変数の標本分散， Var[x]，Var[y]，

で標準化したものがピアソン（Peason）の積率相関係数 r，-1≦r≦1，であり，

と定義される．これは，変数間の線形的関係の強さ，（x が大きいと y も大きく，x が小さいと y も小さい，）を測る指標で，｜r｜＝1 のときは，変数 x，y は完全な直線関係にあり，r ＝0 のときは，線形的な関係がない．r が 1 に近いときは，正の相関関係があるといい， r が -1 に近いときは，負の相関関係があるという．

データ散布図と相関係数
sokan sokan

sokan sokan

相関データダウンロード

# 相関係数の R スクリプト
r <- read.csv("r1.csv") # csv データ読み込み
x <- r[,1]; y <- r[,2] #
plot(x,y, xlim=c(2,8), ylim=c(0,6)) # x，y の散布図
title(main="相関係数 r = 0.23") #
cov(x, y) # x と y の共分散
cor(x, y) # x と y　の相関係数
x <- 10*x #
plot(x,y, xlim=c(2,8), ylim=c(0,6)) # x，y の散布図
cov(x, y) # x と y の共分散
cor(x, y) # x と y　の相関係数

**# 相関係数の R スクリプト**
r <- read.csv("r1.csv")	# csv データ読み込み
x <- r[,1]; y <- r[,2]	#
plot(x,y, xlim=c(2,8), ylim=c(0,6))	# x，y の散布図
title(main="相関係数 r = 0.23")	#
cov(x, y)	# x と y の共分散
cor(x, y)	# x と y　の相関係数
x <- 10*x	#
plot(x,y, xlim=c(2,8), ylim=c(0,6))	# x，y の散布図
cov(x, y)	# x と y の共分散
cor(x, y)	# x と y　の相関係数

入試得点とその後の成績
　入試得点とその後の成績には相関が強いのではないかと考えられるが，実際に測ってみるとそれほどでもないことが多い．このことから，入試を行うことを疑問視する人も出てくる（入試得点と成績に相関がないのだから，入試を行うことに意味がない）．しかしながら入試では，多くの学生が入学できないので，本来入学していたら取れたであろう成績のデータが欠測していると考えるべきである．
　統計学的には以下のように考えればよい．いま，入試得点（x）とその後の成績（y）に r の相関があるとする．そして，x と y は相関 r を持つ 2 変量正規分布に従うとする．しかし現実には，入試得点の低い者（x ＜ x₀）は入学できないので，この 2 変量正規分布を x = x₀ で切断（truncate）した分布のみが観測される．
　いま，入試得点（x）と成績（y）がそれぞれ，平均 50，分散 100（標準偏差 10），相関 0.7 を持つ 2 変量正規分布とし，合格ラインは x = 54 点であるとする．すなわち，x ≧ 54 である 330 名程度が合格する．合格者内での入試得点と成績の相関は，約 0.47 であり，本来あるべき相関 0.7 より低下して，見かけ上相関がそれほど強くないようにみえてしまう．

# 入試得点と成績の R スクリプト
library(MASS) # MASS ライブラリーの読み込み
s <- matrix(c(100, 70, 70, 100), nrow=2) # 分散共分散行列の定義
x <- mvrnorm(1000,c(50,50),s) # 平均 50，分散 s の 2 変量正規分布乱数 1000 個生成
plot(x, xlab="入試得点", ylab="初年度成績") # 分布全体を表示
points(x[x[,1]>54,], col="red") # 入学者のみ赤で表示
abline(v=54) # 合格ライン
title(main="本来の相関と観測される相関") #
cor(x)[1,2] # 本来あるべき相関
cor(x[x[,1]>54,])[1,2] # 実際に観測される相関

**# 入試得点と成績の R スクリプト**
library(MASS)	# MASS ライブラリーの読み込み
s <- matrix(c(100, 70, 70, 100), nrow=2)	# 分散共分散行列の定義
x <- mvrnorm(1000,c(50,50),s)	# 平均 50，分散 s の 2 変量正規分布乱数 1000 個生成
plot(x, xlab="入試得点", ylab="初年度成績")	# 分布全体を表示
points(x[x[,1]>54,], col="red")	# 入学者のみ赤で表示
abline(v=54)	# 合格ライン
title(main="本来の相関と観測される相関")	#
cor(x)[1,2]	# 本来あるべき相関
cor(x[x[,1]>54,])[1,2]	# 実際に観測される相関

直線回帰

モデル

　２つの変数 x ，y に対し，y の値が x の値の動きにつれて線形的に変化すると仮定される，つまり，

y ＝ a ＋ b x

という関係が成り立っていると考えられる場合である．これを y の x に対する直線回帰といい，a ，b を回帰係数という．また，変数 y を従属変数，目的変数といい，変数 x を独立変数，説明変数という．

最小２乗法

　データに最もよくあてはまる直線回帰式を得るには，データ点（x_i ，y_i ），と回帰による推定点，（x_i ，y^_i ）， y^_i ＝ a ＋ b x_i ，の間の距離の２乗和 S が最小になるような回帰係数 a ，b を求める．つまり，

を最小化する a ，b を求める問題に帰着する．これを最小２乗法という．

　これは，S を a ，b で偏微分して 0 とおくことによって得られる．つまり，

の連立方程式を a ，b で解けばよい．これより，回帰係数の推定値 a^{^}， b^{^} が，

と得られる．

入試得点と初年度成績
　下の表はアメリカのあるビジネススクール（MBA）での女子学生の入試得点と初年度成績である．

入試得点（x） 680 500 600 420 480 630 550 590 610 500 640 570 610

初年度成績（y） 332 265 309 253 276 326 299 310 324 327 334 301 336

入試得点（x）	680	500	600	420	480	630	550	590	610	500	640	570	610
初年度成績（y）	332	265	309	253	276	326	299	310	324	327	334	301	336

　入試得点を説明変数（x），初年度成績を目的変数（従属変数）（y）として回帰式を求めてみる．
　なお一般に，入試ではある得点以下の学生は入学していないので，入試得点と初年度成績の関係は弱くなってしまうが，ここではそのことを無視して話しを進める．

データダウンロード

# 入試得点と初年度成績回帰式の R スクリプト

mba <- read.csv("mbagrade.csv"); mba # データ読み込み mbaf <- mba[mba[,1]=="F",] ; mbaf # 女子のみのデータ mbaf.lm <- lm(Grade1st ~ Entexam, data=mbaf) # 回帰：lm(y ~ x, data=zzz), y = ax + b 　 summary(mbaf.lm) # 結果表示 plot(mbaf[,2:3], xlim=c(400,700), ylim=c(2.5,3.5), xlab="入試得点", ylab="初年度成績") # データ散布図　 abline(mbaf.lm, col="blue") # 回帰直線表示 points(mbaf[,2], fitted(mbaf.lm), pch=19, col="red") # 回帰推定値　 segments(mbaf[,2],mbaf[,3],mbaf[,2], fitted(mbaf.lm)) # 回帰残差　 title(main="回帰直線と回帰残差") # 　 legend(locator(1), legend=c("データ","回帰推定値"), pch=c(1,19), col=c("black","red"))

**# 入試得点と初年度成績回帰式の R スクリプト**
mba <- read.csv("mbagrade.csv"); mba # データ読み込み mbaf <- mba[mba[,1]=="F",] ; mbaf # 女子のみのデータ mbaf.lm <- lm(Grade1st ~ Entexam, data=mbaf) # 回帰：lm(y ~ x, data=zzz), y = ax + b 　 summary(mbaf.lm) # 結果表示 plot(mbaf[,2:3], xlim=c(400,700), ylim=c(2.5,3.5), xlab="入試得点", ylab="初年度成績") # データ散布図　 abline(mbaf.lm, col="blue") # 回帰直線表示 points(mbaf[,2], fitted(mbaf.lm), pch=19, col="red") # 回帰推定値　 segments(mbaf[,2],mbaf[,3],mbaf[,2], fitted(mbaf.lm)) # 回帰残差　 title(main="回帰直線と回帰残差") # 　 legend(locator(1), legend=c("データ","回帰推定値"), pch=c(1,19), col=c("black","red"))

回帰式の統計モデル

　推定された直線回帰式がどの程度現実のデータに適合しているかを調べるために，回帰式が従う統計モデルを考える．標本の格データ点，（x_i ，y_i ），が，

y_i ＝ a ＋ b x_i ＋ e_i ， e_i ～ N( 0，σ² )

であると仮定する．e_i は誤差（error），あるいは，残差（residual）で，直線回帰式では説明がつかない部分を表し，これが互いに独立に平均 0，分散 σ² の正規分布に従うと仮定する．誤差の大きさが大きいときは，直線回帰式ではデータが説明できないと考える．

残差分散と回帰係数の標準誤差

　回帰で説明がつかない残差平方和 S_e は，

で求められる．これの自由度は n－2 であるので（２つの回帰係数分の自由度を除く），回帰の残差（誤差）分散の推定値は，

で求められる．

　一般に，Var(y_i ) ＝ σ² であるとき，その定数（c）倍の分散は，

Var(cy_i ) ＝ c²σ²， Var(Σ_ic_i y_i ) ＝ Σ_ic_i ² σ²

であり，従属変数 y のデータ y_i は，

y_i ～ N( a ＋ b x_i ，σ² )

と分布するので，回帰係数の推定値 b^{^} の分散は，

となる．この分散の平方根を回帰係数推定値 b^{^} の標準誤差という．

回帰係数の標準誤差による t 検定

目的変数 y が説明変数 x との回帰関係にないという帰無仮説，

H₀：b ＝ 0，

を考えてみよう．回帰係数 b の推定値 b^{^} の分散は，

と推定できるので，b^ の標準偏差（標準誤差）は， s _b と推定される．これより，回帰係数をその標準誤差で割った t 値が，帰無仮説のもとで，

のように，自由度 n－2 の t 分布に従うことを利用して回帰係数の検定が行える．すなわち，自由度 n－2 の t 分布の 97.5％点を t₀ とすると，

|t | ＞ t₀ → 帰無仮説を有意水準 5 ％で棄却（回帰関係が有意に認められる）

|t | ≦ t₀ → 帰無仮説を棄却しない（回帰関係が認められない）

と定式化できる．

分散分析

平方和分解

　回帰式により，従属変数 y のデータ y_i は，

y_i ＝ y^_i ＋ (y_i － y^_i ) ＝回帰値＋残差

のように分解される．この分解に対応して従属変数データの総平方和 S_T は，

S_T ＝ Σ_i （y _i － y^- ) ² ＝ Σ_i （y^_i － y^- ) ² ＋ Σ_i （y _i － y^_i ) ² ＝ S_R ＋ S_e

総平方和＝回帰平方和＋残差平方和

のように分解される．これを平方和の分解という．この分解に対応して自由度は，

n－1 ＝ 1 ＋ n－2

と分解される．

決定係数（重相関係数の２乗）

　データが直線回帰式でよく説明できるのは，回帰平方和が大きく，残差平方和が小さい場合である．総平方和のうち回帰平方和で説明される割合を決定係数，もしくは重相関係数の２乗といい，

で定義される．なお，重相関係数 R とは，データ y _i と回帰値 y^_i との間の相関係数である．これより，以下の分散分析表ができる．

回帰分析の分散分析表
変動因平方和自由度平均平方 F 値

回帰 S_R 1 S_R F ＝ S_R/s_e²

残差 S_e n－2 s_e² ＝ S_e/n－2 　

全体 S_T n－1 　　

回帰分析の分散分析表
変動因	平方和	自由度	平均平方	F 値
回帰	S_R	1	S_R	F ＝ S_R/s_e²
残差	S_e	n－2	s_e² ＝ S_e/n－2
全体	S_T	n－1

F 検定

従属変数 y が説明変数 x の回帰関係にないという帰無仮説，

H₀：b ＝ 0，

を考える．帰無仮説のもとでは，回帰平均平方 S_R と残差分散 s_e² がともに誤差 σ² の不偏推定量になるので，その比 F 値が，

F ＝ S_R/s_e² ～ F（1，n－2），

という F 分布に従うことを利用して検定ができる．すなわち，分子，分母自由度が 1，n－2 である F 分布 F（1，n－2）の95％点を F₀ とすると，

F ＞ F₀ → 帰無仮説を有意水準 5 ％で棄却（回帰関係が有意に認められる）

F ≦ F₀ → 帰無仮説を棄却しない（回帰関係が認められない）

と定式化できる．

# 回帰分析の詳細の R スクリプト

anova(mbaf.lm) # 分散分析表 n <- nrow(mbaf); n # データ数 st <- var(mbaf[,3])*(n-1); st #　総平方和 sr <- var(fitted(mbaf.lm))*(n-1); sr #　回帰平方和 se <- var(resid(mbaf.lm))*(n-1); se #　残差平方和 s <- sqrt(se/(n-2)); s #　残差標準偏差 sx <- var(mbaf[,2])*(n-1); sx #　x の総平方和 b <- cov(mbaf[,2],mbaf[,3])*(n-1)/sx; b #　回帰係数 sb <- s/sqrt(sx); sb #　回帰係数bの標準誤差 r2 <- sr/st; r2 # 重相関係数の２乗 r <- cor(mbaf[,3], fitted(mbaf.lm)); r # 目的変数と回帰推定値の相関 fv <- sr/(se/(n-2)); fv # F値 tv <- b/sb; tv # t値

**# 回帰分析の詳細の R スクリプト**
anova(mbaf.lm) # 分散分析表 n <- nrow(mbaf); n # データ数 st <- var(mbaf[,3])(n-1); st #　総平方和 sr <- var(fitted(mbaf.lm))(n-1); sr #　回帰平方和 se <- var(resid(mbaf.lm))(n-1); se #　残差平方和 s <- sqrt(se/(n-2)); s #　残差標準偏差 sx <- var(mbaf[,2])(n-1); sx #　x の総平方和 b <- cov(mbaf[,2],mbaf[,3])*(n-1)/sx; b #　回帰係数 sb <- s/sqrt(sx); sb #　回帰係数bの標準誤差 r2 <- sr/st; r2 # 重相関係数の２乗 r <- cor(mbaf[,3], fitted(mbaf.lm)); r # 目的変数と回帰推定値の相関 fv <- sr/(se/(n-2)); fv # F値 tv <- b/sb; tv # t値

回帰式の信頼区間

回帰係数の信頼区間

　回帰係数の標準誤差 s _b を用いて，回帰係数 b の信頼区間がつくれる．すなわち，自由度 n－2 の t 分布の 97.5％点を t₀ とすると，回帰係数 b の 95％信頼区間の幅 d は，d ＝ t₀ s _b となるので， 95％信頼区間は，

b^{^} － t₀ s _b ＜ b ＜ b^{^} ＋ t₀ s _b

となる．

回帰直線の信頼区間

　データから推定された回帰直線は，データの平均（x^-，y^-）を通るので，

Y = y^- + b^{^} （x - x^-）

とおける．これより，Y の分散は，

となる．誤差分散 σ² は，データの残差分散 s_e² で推定されるので，Y の標準誤差は，

となり，これが自由度 n - 2 を持つ．よって，推定回帰式にこの標準誤差の t₀ 倍を加えたものが，回帰式の 95％信頼幅となる．

回帰予測値の信頼幅

　回帰式から得られる予測値 y~ は，回帰式に誤差項が加わって，

y~ = y^- + b^{^} （x - x^-）+ e

となるので，その分散は，

となる．先ほどと同様に，誤差標準偏差を残差標準偏差で置き換えると，回帰予測値 y^~ の標準誤差は，

となり，回帰式の 95％信頼幅の外側に回帰予測値の 95％信頼幅が描ける．

# 回帰式の信頼幅の R スクリプト

new <- data.frame(Entexam=seq(400,700,by=2)) # 予測したい範囲の定義 Grac <- predict(mbaf.lm, new, interval="confidence", level=0.95) # 回帰推定値（回帰直線）の 95 ％信頼幅 Grap <- predict(mbaf.lm, new, interval="prediction", level=0.95) # 回帰予測値の 95 ％信頼幅 matplot(new$Entexam, cbind(Grac,Grap[,-1]), lty=c(1,2,2,3,3), type="l", col=c("blue","blue","blue","red","red"), xlab="入試得点", ylab="初年度成績") points(mbaf[,2:3]) # データの表示 title(main="回帰式と予測値の 95 ％信頼幅") #

# 信頼幅を詳しく計算

n <- nrow(mbaf); n # データ数 sx <- var(mbaf$Entexam)*(n-1); sx # x の偏差平方和 se <- summary(mbaf.lm)$sigma; se # 残差標準偏差 b <- coef(mbaf.lm)[2]; b # 回帰係数 mx <- mean(mbaf$Entexam) # x の平均 my <- mean(mbaf$Grade1st) # y の平均 t0 <- qt(0.975, df=(n-2)); t0 # 自由度 n - 2 の t 分布 97.5％点 x11() # 新しいグラフウィンドウで表示 plot(mbaf[,2:3], xlim=c(400,700), ylim=c(2,4)) # データ散布図 abline(mbaf.lm, col="blue") # 回帰直線 sr <- 1/n + (new$Entexam-mx)^2/sx # y1 <- my + b*(new$Entexam-mx) + t0*se*sqrt(sr) # 回帰直線 95％信頼幅上限 y2 <- my + b*(new$Entexam-mx) - t0*se*sqrt(sr) # 回帰直線 95％信頼幅下限 points(new$Entexam, y1, type="l", lty=2, col="blue") # points(new$Entexam, y2, type="l", lty=2, col="blue") # yp1 <- my + b*(new$Entexam-mx) + t0*se*sqrt(sr+1) # 回帰予測値 95％信頼幅上限 yp2 <- my + b*(new$Entexam-mx) - t0*se*sqrt(sr+1) # 回帰予測値 95％信頼幅下限 points(new$Entexam, yp1, type="l", lty=3, col="red") # points(new$Entexam, yp2, type="l", lty=3, col="red") # title(main="回帰式と予測値の 95 ％信頼幅")

**# 回帰式の信頼幅の R スクリプト**
new <- data.frame(Entexam=seq(400,700,by=2)) # 予測したい範囲の定義 Grac <- predict(mbaf.lm, new, interval="confidence", level=0.95) # 回帰推定値（回帰直線）の 95 ％信頼幅 Grap <- predict(mbaf.lm, new, interval="prediction", level=0.95) # 回帰予測値の 95 ％信頼幅 matplot(new$Entexam, cbind(Grac,Grap[,-1]), lty=c(1,2,2,3,3), type="l", col=c("blue","blue","blue","red","red"), xlab="入試得点", ylab="初年度成績") points(mbaf[,2:3]) # データの表示 title(main="回帰式と予測値の 95 ％信頼幅") #
# 信頼幅を詳しく計算
n <- nrow(mbaf); n # データ数 sx <- var(mbaf$Entexam)(n-1); sx # x の偏差平方和 se <- summary(mbaf.lm)$sigma; se # 残差標準偏差 b <- coef(mbaf.lm)[2]; b # 回帰係数 mx <- mean(mbaf$Entexam) # x の平均 my <- mean(mbaf$Grade1st) # y の平均 t0 <- qt(0.975, df=(n-2)); t0 # 自由度 n - 2 の t 分布 97.5％点 x11() # 新しいグラフウィンドウで表示 plot(mbaf[,2:3], xlim=c(400,700), ylim=c(2,4)) # データ散布図 abline(mbaf.lm, col="blue") # 回帰直線 sr <- 1/n + (new$Entexam-mx)^2/sx # y1 <- my + b(new$Entexam-mx) + t0sesqrt(sr) # 回帰直線 95％信頼幅上限 y2 <- my + b(new$Entexam-mx) - t0sesqrt(sr) # 回帰直線 95％信頼幅下限 points(new$Entexam, y1, type="l", lty=2, col="blue") # points(new$Entexam, y2, type="l", lty=2, col="blue") # yp1 <- my + b(new$Entexam-mx) + t0sesqrt(sr+1) # 回帰予測値 95％信頼幅上限 yp2 <- my + b(new$Entexam-mx) - t0se*sqrt(sr+1) # 回帰予測値 95％信頼幅下限 points(new$Entexam, yp1, type="l", lty=3, col="red") # points(new$Entexam, yp2, type="l", lty=3, col="red") # title(main="回帰式と予測値の 95 ％信頼幅")

課題：回帰式と予測値の 99 ％信頼幅をつくれ．

重回帰分析

統計モデル

　説明変数が 2 つ以上になった場合である．いま，p 個の説明変数 x₁， x₂，…，x_p，により目的変数 y が，

y = b₀ + b₁x₁ + b₂x₂ + … + b_px_m + e

と表現できるとする．ここで，b₀b₁，…，b_p は回帰係数，e は，誤差である．
　ここで，n（n ＞ p）個のデータがあり，目的変数が y = (y₁，…，y_n)'，j 番目の説明変数 x_j の値が， x₁ = (x_1j，…，x_nj)' であったとする．回帰係数ベクトルを b = (b₀，…，b_m)'，誤差ベクトルを e = (e₁，…，e_n)' とすると，データが満たす構造モデルは，

となる．ここで，誤差ベクトルは，平均 0，分散共分散行列 σ²I の n 次元正規分布に従うとする．これは，n 個の誤差 e_i が互いに独立に平均 0 分散 σ² の正規分布に従うと考えたとき（普通行う仮定）の多変量表現である．
　このモデルのもとでの残差平方和は，

となる．最小２乗法は，S を最小にする回帰係数ベクトル b を求めることである．これは，S を b で偏微分して 0 とおくと，

となるので，まとめると，正規方程式

が得られる．n > p であるときは，この方程式の解として，回帰係数の推定値は，

と求められる．

多変量の線形関数の平均と分散

　p 変量確率変数 x の平均を μ，分散共分散行列を Σ とすると，任意の p×p スカラー行列 A に対し，

E[Ax] = AE[x] = Aμ， Var[Ax] = AVar[x]A' = AΣA'，

が成り立つ．

回帰係数の分散

　重回帰モデルの回帰係数ベクトルの推定量 b^{^} の分散は，

となる．残差分散 σ² の推定値を s_e² とすると，回帰係数の分散は，s_e²(X'X)^-1 で推定される．

ハット行列とてこ比

　さて，回帰推定値ベクトル y^{^} は，

と書ける．ここで，H は，説明変数データベクトル y から回帰推定値ベクトル y^{^} を生成する行列なので，ハット行列（hat matrix）と呼ばれている．ハット行列の対角成分 h_ii が大きいと i 番目のデータは推定値に大きな影響を及ぼすので，これを「てこ比（leverage）」と呼んでいる．てこ比の平均的な値は，(p + 1)/n なので，たとえば，2(p + 1)/n より大きなてこ比をもつようなデータには注意を払う必要がある．すなわち，このデータの存在が回帰係数の推定に大きな影響を与えているからである．

標準化残差

　回帰残差推定量ベクトル e^{^} は，

とハット行列を用いて書ける．これより，その分散は，

となる．なお，I - H がべき等行列であることに注意せよ．従って，個々の回帰残差推定量 e^{^}_i の分布は，

となる．この r_i を標準化残差（standarized residual）と言う．

Cook 距離

　個々のデータが回帰係数の推定値に与える影響を調べるため，i 番目のデータを除いたときの回帰係数推定値を b^{^}_-i として，これが全データを用いたときの回帰係数推定値 b^{^} との違いの大きさで測る．これが Cook 距離で，以下のように定義される．

ここで，y^{^}_-i = Xb^{^}_-i である．また，多少の計算により Cook 距離は標準化残差とてこ比で計算され，最後の式のように表せる．
Cook 距離が 0.5 を超えるとそのデータは影響が「大きい」とされ，1 を超えると影響が「特に大きい」とされる．

回帰診断

　回帰分析を行ったときに，データが回帰モデルによくフィットしているかや，データの中に回帰モデルからはずれたも（異常値）がないか，などを調べた方がより安全である．これを回帰診断（regression diagnostics）という． R などの統計ソフトが普及する以前は，手間がかかるので回帰診断まで行うことはあまりやらなかったが，現在では手軽にできるので，行うのが普通になってきていると思われる．このため，回帰診断の考え方や着目点などを理解する必要がでてきたと言える．　回帰診断は，以下の２点からなる．

誤差分析：回帰残差（誤差）は，独立，等分散，正規性の３つの仮定を置くことが普通であるが，これが満たされているかを調べる．
誤差に何らかのトレンドが見られるときは回帰モデルがデータにフィットしていない可能性があるので，別の回帰モデル（多項式回帰など）を試す必要がある．
極端に誤差の大きな観測値は異常値（out lier）の可能性がある．
感度分析：観測値（データ）が回帰係数に及ぼす影響をみる．少数のデータが回帰係数に大きな影響を与えているときは，このデータの処遇を考える必要がある．

**# 回帰診断の R スクリプト**
mba <- read.csv("mbagrade.csv") # データ読み込み　 mbaf <- mba[mba[,1]=="F",] # 女性データのみ抽出　 mbaf.lm <- lm(Grade1st ~ Entexam, data=mbaf) # 回帰 summary(mbaf.lm) # 結果表示　 plot(mbaf.lm) # 回帰診断はたったこれだけ．（４枚のグラフが出てくる） # # 回帰診断を詳しくみる # てこ比 lev <- hatvalues(mbaf.lm); lev # てこ比 X <- model.matrix(mbaf.lm) # 説明変数行列 H <- X %% solve(t(X) %% X) %% t(X) # ハット行列 diag(H) # てこ比の計算による導出 # 標準化残差 rstd <- rstandard(mbaf.lm); rstd # 標準化残差 se <- summary(mbaf.lm)$sigma # 残差標準偏差 resid(mbaf.lm)/(sesqrt(1-lev)) # 標準化残差の計算による導出 # Cook 距離 cookd <- cooks.distance(mbaf.lm); cookd # Cook 距離 b <- coef(mbaf.lm); b # 回帰係数 lm1 <- lm(Grade1st[-1] ~ Entexam[-1], data=mbaf) b1 <- coef(lm1); b1 # １番目のデータを除いた回帰係数 t(b-b1) %% t(X) %% X %% (b-b1)/se^2/2 # １番目のデータの Cook 距離 rstd^2lev/(1-lev)/2 # Cook 距離の計算による導出 # 回帰推定値 - 残差プロット x0 <- fitted(mbaf.lm) # 回帰推定値 y0 <- resid(mbaf.lm) # 回帰残差 plot(x0, y0, type="n", xlab="回帰推定値", ylab="残差") # text(x0, y0, rownames(mbaf), cex=0.8) abline(h=0, lty=3) title(main="回帰推定値 - 残差プロット") # 標準化残差 Q - Q プロット a <- qqnorm(rstd, type="n", main="") # 標準化残差の Q - Q プロット（正規分布からのずれ） text(a, rownames(mbaf), cex=0.8) qqline(rstd, col="red") title("標準化残差正規 Q-Q プロット") # S - L プロット yr <- sqrt(abs(rstd)) # 標準化残差絶対値の平方根 plot(x0, yr, type="n", xlab="回帰推定値", ylab="残差絶対値の平方根") # text(x0, yr, rownames(mbaf), cex=0.8) title(main="S - L プロット") # てこ比 - 標準化残差プロット plot(lev, rstd, type="n", xlim=c(0,0.5), xlab="てこ比", ylab="標準化残差") text(lev, rstd, rownames(mbaf), cex=0.8) abline(h=0, lty=3) abline(v=0, lty=3) title(main="てこ比 - 標準化残差プロット") xx <- seq(0, 0.5, by=0.01) yc <- .52(1-xx)/xx # Cook 距離 0.5 となる標準化残差 yc1 <- sqrt(yc) yc2 <- -yc1 points(xx, yc1, type="l", lty=2, col="red") # Cook 距離 0.5 線 points(xx, -yc1, type="l", lty=2, col="red")

# 回帰診断の R スクリプト

mba <- read.csv("mbagrade.csv")  		# データ読み込み　 
mbaf <- mba[mba[,1]=="F",]  		# 女性データのみ抽出 　 
mbaf.lm <- lm(Grade1st ~ Entexam, data=mbaf) 			# 回帰
summary(mbaf.lm)  				# 結果表示 　 
plot(mbaf.lm)				# 回帰診断はたったこれだけ．（４枚のグラフが出てくる）
#
# 回帰診断を詳しくみる
# てこ比
lev <- hatvalues(mbaf.lm); lev		# てこ比
X <- model.matrix(mbaf.lm)			# 説明変数行列
H <- X %*% solve(t(X) %*% X) %*% t(X)	# ハット行列
diag(H)					# てこ比の計算による導出
# 標準化残差
rstd <- rstandard(mbaf.lm); rstd		# 標準化残差
se <- summary(mbaf.lm)$sigma		# 残差標準偏差
resid(mbaf.lm)/(se*sqrt(1-lev))		# 標準化残差の計算による導出
# Cook 距離
cookd <- cooks.distance(mbaf.lm); cookd	# Cook 距離
b <- coef(mbaf.lm); b 		# 回帰係数
lm1 <- lm(Grade1st[-1] ~ Entexam[-1], data=mbaf)
b1 <- coef(lm1); b1 			# １番目のデータを除いた回帰係数
t(b-b1) %*% t(X) %*% X %*% (b-b1)/se^2/2	# １番目のデータの Cook 距離
rstd^2*lev/(1-lev)/2			# Cook 距離の計算による導出
# 回帰推定値 - 残差プロット
x0 <- fitted(mbaf.lm)			# 回帰推定値
y0 <- resid(mbaf.lm)			# 回帰残差
plot(x0, y0, type="n", xlab="回帰推定値", ylab="残差")	# 
text(x0, y0, rownames(mbaf), cex=0.8)
abline(h=0, lty=3)
title(main="回帰推定値 - 残差プロット")
# 標準化残差 Q - Q プロット
a <- qqnorm(rstd, type="n", main="")		# 標準化残差の Q - Q プロット（正規分布からのずれ）
text(a, rownames(mbaf), cex=0.8)
qqline(rstd, col="red")
title("標準化残差正規 Q-Q プロット")
# S - L プロット
yr <- sqrt(abs(rstd))			# 標準化残差絶対値の平方根
plot(x0, yr, type="n", xlab="回帰推定値", ylab="残差絶対値の平方根")	# 
text(x0, yr, rownames(mbaf), cex=0.8)
title(main="S - L プロット")
# てこ比 - 標準化残差 プロット
plot(lev, rstd, type="n", xlim=c(0,0.5), xlab="てこ比", ylab="標準化残差")
text(lev, rstd, rownames(mbaf), cex=0.8)
abline(h=0, lty=3)
abline(v=0, lty=3)
title(main="てこ比 - 標準化残差 プロット")
xx <- seq(0, 0.5, by=0.01)
yc <- .5*2*(1-xx)/xx			# Cook 距離 0.5 となる標準化残差
yc1 <- sqrt(yc)
yc2 <- -yc1
points(xx, yc1, type="l", lty=2, col="red")		# Cook 距離 0.5 線
points(xx, -yc1, type="l", lty=2, col="red")

課題：47 番のデータは，回帰モデルから大きく離れていることがわかった．このデータを異常値として取り除いた回帰分析を行なえ．

重回帰分析の例

入試得点と初年度成績：性別を加えた重回帰
　前節では，アメリカのあるビジネススクール（MBA）での女子学生の入試得点と初年度成績の回帰分析を行った．男子学生のデータもあるので，これを加え，性別（x₁）と入試得点（x₂）という２つの変数を説明変数として初年度成績（y）の重回帰分析を行ってみる．

# 成績重回帰分析の R スクリプト

mba <- read.csv("mbagrade.csv") # データ読み込み nf <- which(mba[,1]=="F") # 女子データの番号 mba.lm <- lm(Grade1st ~ Sex + Entexam, data=mba) # 重回帰分析 summary(mba.lm) # 結果表示 anova(mba.lm) # 分散分析表示 # # グラフ表示 plot(mba[,2:3], type="n", xlim=c(400,750), xlab="入試得点", ylab="初年度成績") # points(mba[-nf,2:3], pch=21) # 男子データ（白丸） points(mba[nf,2:3], pch=19) # 女子データ（黒丸） b <- coef(mba.lm) # 回帰係数 x <- seq(400,750,by=1) # ym <- b[1] + b[2] + b[3]*x # 男子回帰式 yf <- b[1] + b[3]*x # 女子回帰式 lines(x, ym, type="l", col="blue") # lines(x, yf, type="l", col="red") # legend(locator(1), c("男子","女子"), pch=c(21,19)) # title(main="MBA 入試得点と初年度成績") #

**# 成績重回帰分析の R スクリプト**
mba <- read.csv("mbagrade.csv") # データ読み込み nf <- which(mba[,1]=="F") # 女子データの番号 mba.lm <- lm(Grade1st ~ Sex + Entexam, data=mba) # 重回帰分析 summary(mba.lm) # 結果表示 anova(mba.lm) # 分散分析表示 # # グラフ表示 plot(mba[,2:3], type="n", xlim=c(400,750), xlab="入試得点", ylab="初年度成績") # points(mba[-nf,2:3], pch=21) # 男子データ（白丸） points(mba[nf,2:3], pch=19) # 女子データ（黒丸） b <- coef(mba.lm) # 回帰係数 x <- seq(400,750,by=1) # ym <- b[1] + b[2] + b[3]x # 男子回帰式 yf <- b[1] + b[3]x # 女子回帰式 lines(x, ym, type="l", col="blue") # lines(x, yf, type="l", col="red") # legend(locator(1), c("男子","女子"), pch=c(21,19)) # title(main="MBA 入試得点と初年度成績") #

入試得点と初年度成績：性別ごとの単回帰
　重回帰分析を行うと，入試得点に対する回帰係数が男子，女子とも同じ値になり，男子と女子の違いは， y 切片の違いのみになってしまう．男子と女子で入試得点に対する回帰係数が異なると考えられる場合には，男子，女子で別々の単回帰を行う．しかし，検定に用いる誤差分散は男女共通である．

# 男女別々の単回帰分析の R スクリプト
mba2.lm <- lm(Grade1st ~ Sex + Sex:Entexam, data=mba) # 重回帰分析 summary(mba2.lm) # 結果表示 anova(mba2.lm) # plot(mba[,2:3], type="n", xlim=c(400,750), xlab="入試得点", ylab="初年度成績") # points(mba[-nf,2:3], pch=21) # 男子データ（白丸） points(mba[nf,2:3], pch=19) # 女子データ（黒丸） b <- coef(mba2.lm) # 回帰係数 x <- seq(400,750,by=1) # ym <- b[1] + b[2] + b[4]*x # 男子回帰式 yf <- b[1] + b[3]*x # 女子回帰式 lines(x, ym, type="l", col="blue") # lines(x, yf, type="l", col="red") # legend(locator(1), c("男子","女子"), pch=c(21,19)) # title(main="MBA 入試得点と初年度成績") # #

**# 男女別々の単回帰分析の R スクリプト**
mba2.lm <- lm(Grade1st ~ Sex + Sex:Entexam, data=mba) # 重回帰分析 summary(mba2.lm) # 結果表示 anova(mba2.lm) # plot(mba[,2:3], type="n", xlim=c(400,750), xlab="入試得点", ylab="初年度成績") # points(mba[-nf,2:3], pch=21) # 男子データ（白丸） points(mba[nf,2:3], pch=19) # 女子データ（黒丸） b <- coef(mba2.lm) # 回帰係数 x <- seq(400,750,by=1) # ym <- b[1] + b[2] + b[4]x # 男子回帰式 yf <- b[1] + b[3]x # 女子回帰式 lines(x, ym, type="l", col="blue") # lines(x, yf, type="l", col="red") # legend(locator(1), c("男子","女子"), pch=c(21,19)) # title(main="MBA 入試得点と初年度成績") # #

モデル間の尤度比検定

モデル選択と AIC

　確率モデルのパラメータ推定には，通常，最尤法が用いられる．しかしながら，重回帰分析などで説明変数の個数（パラメータ数）を決めようとすると，一般に，パラメータ数が多いほどデータへのモデルの当てはまり（fitting）が良くなるので，最尤法でパラメータ数を決めるとパラメータ数の多いモデルが「良い」とされてしまう．パラメータ数の多いモデルは，パラメータの値を推定したデータにはよく当てはまるが，同様の状況から得られた別のデータへの当てはまりが悪くなることが知られている．このような現象を解釈しすぎ（over fitting）という．
　これを避けるには，できるだけ単純なモデルを考えるのがよいとされている．これを実現するモデル選択の基準として，

X = (モデルのデータへの当てはまり) + (モデルの複雑さへのペナルティ)

の形式のものがいくつか提案されている．この中で有名な基準の一つが AIC (Akaike Information Criterion) である．AIC は，

AIC = - 2×(モデルの最大対数尤度) + 2×(モデルの自由パラメータ数)

と定義される．モデルの最大対数尤度は，確率モデルの最尤推定値を確率モデルに代入したときの尤度の対数を取ったものであり，モデルのデータへの当てはまりのよさを評価している．モデルの自由パラメータ数は，モデルの複雑さの尺度の一つで，パラメータ数の少ないモデルほど単純でよいものと考えられる．結局，AIC の小さなモデルがよいとされる．

　k 個のパラメータ θ を持つ回帰モデル

y = f(x ; θ) + e

において，残差 e が正規分布に従うモデルでは，n 個のデータから得られた残差分散の最尤推定値を v² とすると，回帰モデルの最大対数尤度は，

l = -(1/2) [n log 2π + n log v² + n ]

となる．これより，回帰モデルでの AIC は，

AIC = (n log 2π + n log v² + n ) + 2k

となり，AIC の小さな回帰モデルがよいとされる．

入試得点と初年度成績：モデル選択
　入試得点と初年度成績の関係を分析するときに，３つのモデルが考えられる．それは，

性別，入試得点重回帰モデル（回帰係数，y 切片 2，残差分散の 4 パラメータ）
残差分散と入試得点に対する傾きの回帰係数は男女共通で，y 切片が性別により異なる．
男女別々回帰，残差分散共通モデル（回帰係数 2，切片 2，残差分散の 5 パラメータ）
残算分散は男女共通であるが，回帰係数，y 切片とも男女で異なる．
男女完全別々モデル（回帰係数 2，切片 2，残差分散 2 の 6 パラメータ）
男子と女子では全く異なり，共通のものがない．

各モデルの分散分析表で，各モデルに意味があるかは答えてくれるが，どのモデルがデータとよく合っているかを判断してくれる数値がない．このようなときに AIC を用いるとモデル間の比較ができる．各モデルの自由パラメータは括弧内に記載されている．
　AIC の結果から男女完全別々モデルがこのデータにはよく適合しているようである．すなわち，女子は入試得点と初年度成績に強い回帰関係が認められる（R ² = 0.698）が，男子は残差分散が大きく，強い回帰関係が無い（R ² = 0.088）ことからもこの結果は支持される．女子は初年度成績は入試得点でかなり予測できるが，男子は初年度成績のばらつきが大きいので，成績を予測することはできない．

# モデル選択の R スクリプト
anova(mba.lm) # 性別，入試得点重回帰の分散分析表
AIC(mba.lm) # 性別，入試得点重回帰モデルの AIC
n <- nrow(mba) # 総データ数
v2 <- anova(mba.lm)[3,2]/n # 残差分散の最尤推定値（n で割る）
aic <- n*log(2*pi) + n*log(v2) + n + 2*4; aic # 自由パラメータ数 4 の AIC
anova(mba2.lm) # 男女別々回帰，残差分散共通の分散分析表
AIC(mba.lm) # 男女別々回帰，残差分散共通モデルの AIC
anova(mbaf.lm) # 男子単回帰分散分析表
anova(mbam.lm) # 女子単回帰分散分析表
AIC(mbaf.lm)+AIC(mbam.lm) # 男女完全別々モデルの AIC

**# モデル選択の R スクリプト**
anova(mba.lm)	# 性別，入試得点重回帰の分散分析表
AIC(mba.lm)	# 性別，入試得点重回帰モデルの AIC
n <- nrow(mba)	# 総データ数
v2 <- anova(mba.lm)[3,2]/n	# 残差分散の最尤推定値（n で割る）
aic <- nlog(2pi) + nlog(v2) + n + 24; aic	# 自由パラメータ数 4 の AIC
anova(mba2.lm)	# 男女別々回帰，残差分散共通の分散分析表
AIC(mba.lm)	# 男女別々回帰，残差分散共通モデルの AIC
anova(mbaf.lm)	# 男子単回帰分散分析表
anova(mbam.lm)	# 女子単回帰分散分析表
AIC(mbaf.lm)+AIC(mbam.lm)	# 男女完全別々モデルの AIC

1 月の日最低気温の月平均値
　1941年～1970年での日本の各都市における 1 月の日最低気温の月平均値（y）が，各都市の緯度（x₁），経度（x₂），標高（x₃）でよく説明できるかを重回帰分析で解析してみる．データは以下の通りである．

データダウンロード

# 1 月最低気温重回帰の R スクリプト
kion <- read.csv("kion.csv") # 気温データ読み込み
pairs(kion[,2:5]) # 変数間散布図一覧
cor(kion[,2:5]) # 変数間相関
kion1.lm <- lm(気温 ~ 緯度 + 経度 + 標高, data=kion) # 3 変数重回帰
summary(kion1.lm) # 結果表示
anova(kion1.lm) # 分散分析表示
n <- nrow(kion) # データ数
x0 <- rep(1,n) #
x <- as.matrix(cbind(x0, kion[,3:5])) # 説明変数行列
se2 <- anova(kion1.lm)[4,3] # 残差分散
v <- se2 * solve(t(x) %*% x) # 回帰係数の分散共分散行列
sqrt(diag(v)) # 回帰係数の標準誤差

**# 1 月最低気温重回帰の R スクリプト**
kion <- read.csv("kion.csv")	# 気温データ読み込み
pairs(kion[,2:5])	# 変数間散布図一覧
cor(kion[,2:5])	# 変数間相関
kion1.lm <- lm(気温 ~ 緯度 + 経度 + 標高, data=kion)	# 3 変数重回帰
summary(kion1.lm)	# 結果表示
anova(kion1.lm)	# 分散分析表示
n <- nrow(kion)	# データ数
x0 <- rep(1,n)	#
x <- as.matrix(cbind(x0, kion[,3:5]))	# 説明変数行列
se2 <- anova(kion1.lm)[4,3]	# 残差分散
v <- se2 * solve(t(x) %*% x)	# 回帰係数の分散共分散行列
sqrt(diag(v))	# 回帰係数の標準誤差

説明変数の選択

すべての組み合わせの AIC

　全変数を使って重回帰分析を行ったが，経度（x₂）の回帰係数の有意確率が小さくないので，経度の情報は気温を説明するのに必要ないかも知れない．これは日本では，緯度が高く標高が高いほど気温が低いと考えられることとも一致している．モデル選択の方法として AIC を利用してみる．
　3 個の説明変数があるので，説明変数の組み合わせは 2³ = 8 通りある．このすべての組合わせに対して AIC の値を計算し，最も小さな値をもつモデルを採用することにする．

# 変数選択の R スクリプト
kion0.lm <- lm(気温 ~ 1, data=kion) # 説明変数無し回帰
anova(kion0.lm) #
kion11.lm <- lm(気温 ~ 緯度, data=kion) # 説明変数：緯度，回帰
anova(kion11.lm) #
kion12.lm <- lm(気温 ~ 経度, data=kion) # 説明変数：経度，回帰
anova(kion12.lm) #
kion13.lm <- lm(気温 ~ 標高, data=kion) # 説明変数：標高，回帰
anova(kion13.lm) #
kion21.lm <- lm(気温 ~ 緯度 + 経度, data=kion) # 説明変数：緯度，経度，回帰
anova(kion21.lm) #
kion22.lm <- lm(気温 ~ 経度 + 標高, data=kion) # 説明変数：経度，標高，回帰
anova(kion22.lm) #
kion23.lm <- lm(気温 ~ 緯度 + 標高, data=kion) # 説明変数：緯度，標高，回帰
anova(kion23.lm) #
kion3.lm <- lm(気温 ~ 緯度 + 経度 + 標高, data=kion) # 説明変数：緯度，経度，標高，回帰
anova(kion3.lm) #
AIC(kion0.lm) # 説明変数無し回帰 AIC
AIC(kion11.lm) # 説明変数：緯度，回帰 AIC
AIC(kion12.lm) # 説明変数：経度，回帰 AIC
AIC(kion13.lm) # 説明変数：標高，回帰 AIC
AIC(kion21.lm) # 説明変数：緯度，経度，回帰 AIC
AIC(kion22.lm) # 説明変数：経度，標高，回帰 AIC
AIC(kion23.lm) # 説明変数：緯度，標高，回帰 AIC
AIC(kion3.lm) # 説明変数：緯度，経度，標高，回帰 AIC

**# 変数選択の R スクリプト**
kion0.lm <- lm(気温 ~ 1, data=kion)	# 説明変数無し回帰
anova(kion0.lm)	#
kion11.lm <- lm(気温 ~ 緯度, data=kion)	# 説明変数：緯度，回帰
anova(kion11.lm)	#
kion12.lm <- lm(気温 ~ 経度, data=kion)	# 説明変数：経度，回帰
anova(kion12.lm)	#
kion13.lm <- lm(気温 ~ 標高, data=kion)	# 説明変数：標高，回帰
anova(kion13.lm)	#
kion21.lm <- lm(気温 ~ 緯度 + 経度, data=kion)	# 説明変数：緯度，経度，回帰
anova(kion21.lm)	#
kion22.lm <- lm(気温 ~ 経度 + 標高, data=kion)	# 説明変数：経度，標高，回帰
anova(kion22.lm)	#
kion23.lm <- lm(気温 ~ 緯度 + 標高, data=kion)	# 説明変数：緯度，標高，回帰
anova(kion23.lm)	#
kion3.lm <- lm(気温 ~ 緯度 + 経度 + 標高, data=kion)	# 説明変数：緯度，経度，標高，回帰
anova(kion3.lm)	#
AIC(kion0.lm)	# 説明変数無し回帰 AIC
AIC(kion11.lm)	# 説明変数：緯度，回帰 AIC
AIC(kion12.lm)	# 説明変数：経度，回帰 AIC
AIC(kion13.lm)	# 説明変数：標高，回帰 AIC
AIC(kion21.lm)	# 説明変数：緯度，経度，回帰 AIC
AIC(kion22.lm)	# 説明変数：経度，標高，回帰 AIC
AIC(kion23.lm)	# 説明変数：緯度，標高，回帰 AIC
AIC(kion3.lm)	# 説明変数：緯度，経度，標高，回帰 AIC

変数増減法の AIC

　説明変数の数が多くなり，すべての組み合わせを調べることが大変な場合には，変数増加法，変数減少法，その組み合わせである変数増減法がある．ここでは，変数増減法もやってみる．

# 変数選択の R スクリプト
library(MASS) # MASS ライブラリィー読み込み
null <- lm(気温 ~ 1, kion) # 説明変数無し
full <- lm(気温 ~ 緯度 + 経度 + 標高, kion) # 説明変数３つ
result <- stepAIC(null, scope=list(lower=null, upper=full), data=kion) # 変数増減法
summary(result) # 結果表示

**# 変数選択の R スクリプト**
library(MASS)	# MASS ライブラリィー読み込み
null <- lm(気温 ~ 1, kion)	# 説明変数無し
full <- lm(気温 ~ 緯度 + 経度 + 標高, kion)	# 説明変数３つ
result <- stepAIC(null, scope=list(lower=null, upper=full), data=kion)	# 変数増減法
summary(result)	# 結果表示

多項式回帰

　目的変数 y と説明変数 x との関係が直線関係では説明できないようなときには， x の多項式で回帰することを考える．p 次までの多項式を考えると，

y = b₀ + b₁x + b₂x² + … + b_px^p + e

というモデルとなる．ここで，x₂ = x²，…， x_p = x^p と変数変換を行えば通常の重回帰分析と同じである．

自動車の速度と制動距離
　自動車の速度 x mile/h とブレーキをかけてからの静止するまでの距離 y ft のデータに対し， y を x での多項式回帰を行ってみる．自動車の速度が 0 のときの制動距離が 0 なので，原点を通る多項式回帰が自然であるが，一般の多項式回帰もあてはめてみる．考えたモデルは，

直線回帰： y = b₀ + b₁x
原点を通る直線回帰：y = b₁x
２次回帰： y = b₀ + b₁x + b₂x²
原点を通る２次回帰： y = b₁x + b₂x²
３次回帰： y = b₀ + b₁x + b₂x² + b₃x³
原点を通る３次回帰： y = b₁x + b₂x² + b₃x³

である．よさそうなモデルの選択に AIC を用いたところ，原点を通る２次式回帰のあてはまりがよいとの結果を得た．

# 多項式回帰の R スクリプト
cars # R 付属データ 'cars' の呼び出し
plot(cars, xlim=c(0,30), xlab="速度", ylab="制動距離") # cars の散布図
title(main="制動距離に対する速度の多項式回帰") #
y <- cars$dist # 目的変数（制動距離）
x <- cars$speed # 説明変数（速度）
car1.lm <- lm(y ~ x) # １次回帰
abline(car1.lm, lty=3, col="red") # 赤点線で表示
summary(car1.lm) #
car10.lm <- lm(y ~ 0 + x) # 原点を通る１次回帰
abline(car10.lm, col="red") # 赤実線で表示
summary(car10.lm) #
x2 <- x^2 # x の２乗を新しい変数で定義
car2.lm <- lm(y ~ x + x2) # 重回帰（２次式回帰）
b <- car2.lm$coefficients # 回帰係数
xv <- seq(0, 30, by=0.2) # x の点列の定義
yv <- b[1] + b[2]*xv + b[3]*xv^2 # x の点列に対する２次回帰推定値
lines(xv, yv, lty=3, col="blue") # 青点線で表示
summary(car2.lm) #
car20.lm <- lm(y ~ 0 + x + x2) # 原点を通る２次式回帰
b <- car20.lm$coefficients # 回帰係数
yv <- b[1]*xv + b[2]*xv^2 # x の点列に対する２次回帰推定値
lines(xv, yv, col="blue") # 青実線で表示
summary(car20.lm) #
x3 <- x^3 # x の３乗を新しい変数で定義
car3.lm <- lm(y ~ x + x2 + x3) # ３変数重回帰（３次式回帰）
b <- car3.lm$coefficients # 回帰係数
yv <- b[1] + b[2]*xv + b[3]*xv^2 + b[4]*xv^3 # x の点列に対する３次回帰推定値
lines(xv, yv, lty=3, col="green") # 緑点線で表示
summary(car3.lm) #
car30.lm <- lm(y ~ 0 + x + x2 + x3) #
b <- car30.lm$coefficients # 回帰係数
yv <- b[1]*xv + b[2]*xv^2 + b[3]*xv^3 # x の点列に対する３次回帰推定値
lines(xv, yv, col="green") # 緑実線で表示
summary(car30.lm) #
AIC(car1.lm) # １次回帰の AIC
AIC(car10.lm) # 原点を通る１次回帰の AIC
AIC(car2.lm) # ２次式回帰の AIC
AIC(car20.lm) # 原点を通る２次式回帰の AIC
AIC(car3.lm) # ３次式回帰の AIC
AIC(car30.lm) # 原点を通る３次式回帰の AIC

**# 多項式回帰の R スクリプト**
cars	# R 付属データ 'cars' の呼び出し
plot(cars, xlim=c(0,30), xlab="速度", ylab="制動距離")	# cars の散布図
title(main="制動距離に対する速度の多項式回帰")	#
y <- cars$dist	# 目的変数（制動距離）
x <- cars$speed	# 説明変数（速度）
car1.lm <- lm(y ~ x)	# １次回帰
abline(car1.lm, lty=3, col="red")	# 赤点線で表示
summary(car1.lm)	#
car10.lm <- lm(y ~ 0 + x)	# 原点を通る１次回帰
abline(car10.lm, col="red")	# 赤実線で表示
summary(car10.lm)	#
x2 <- x^2	# x の２乗を新しい変数で定義
car2.lm <- lm(y ~ x + x2)	# 重回帰（２次式回帰）
b <- car2.lm$coefficients	# 回帰係数
xv <- seq(0, 30, by=0.2)	# x の点列の定義
yv <- b[1] + b[2]xv + b[3]xv^2	# x の点列に対する２次回帰推定値
lines(xv, yv, lty=3, col="blue")	# 青点線で表示
summary(car2.lm)	#
car20.lm <- lm(y ~ 0 + x + x2)	# 原点を通る２次式回帰
b <- car20.lm$coefficients	# 回帰係数
yv <- b[1]xv + b[2]xv^2	# x の点列に対する２次回帰推定値
lines(xv, yv, col="blue")	# 青実線で表示
summary(car20.lm)	#
x3 <- x^3	# x の３乗を新しい変数で定義
car3.lm <- lm(y ~ x + x2 + x3)	# ３変数重回帰（３次式回帰）
b <- car3.lm$coefficients	# 回帰係数
yv <- b[1] + b[2]xv + b[3]xv^2 + b[4]*xv^3	# x の点列に対する３次回帰推定値
lines(xv, yv, lty=3, col="green")	# 緑点線で表示
summary(car3.lm)	#
car30.lm <- lm(y ~ 0 + x + x2 + x3)	#
b <- car30.lm$coefficients	# 回帰係数
yv <- b[1]xv + b[2]xv^2 + b[3]*xv^3	# x の点列に対する３次回帰推定値
lines(xv, yv, col="green")	# 緑実線で表示
summary(car30.lm)	#
AIC(car1.lm)	# １次回帰の AIC
AIC(car10.lm)	# 原点を通る１次回帰の AIC
AIC(car2.lm)	# ２次式回帰の AIC
AIC(car20.lm)	# 原点を通る２次式回帰の AIC
AIC(car3.lm)	# ３次式回帰の AIC
AIC(car30.lm)	# 原点を通る３次式回帰の AIC

ブートストラップ法による信頼区間の構成

　回帰残差が正規分布するというモデルのもとでは，回帰係数推定量が t 分布に従うことを利用して，回帰係数の信頼区間を構成することができた．
　回帰残差の正規性が疑われる場合や，正規性が成立しない場合の信頼区間を構成する方法の一つとしてブートストラップがある．ブートストラップ法は，大きさ n の標本（サンプル）から復元抽出を許して新しく大きさ n の標本を生成する（リサンプリング）手法で，生成された標本ごとに回帰係数の推定値が得られる．このブートストラップサンプルによる回帰式はサンプルごとに微妙に異なる．
　1000回程度のリサンプリングを行えば，回帰係数が1000個得られるので，この分布から回帰係数の信頼区間を構成することができる．

自動車の速度と制動距離の対数変換
　自動車の速度 x mile/h とブレーキをかけてからの静止するまでの距離 y ft のデータに対し， y を x での多項式回帰を行った．y が x の累乗で表せると考えられるときは，両者の対数変換を行い，直線回帰の問題に帰着させることができる．すなわち，

y = ax^b －＞ logy = loga + b logx

の関係を利用する．この単回帰式の回帰係数 b の信頼区間をブートストラップ法で求めてみる．

# ブートストラップ回帰の R スクリプト
cars # R 付属データ 'cars' の呼び出し
y <- log(cars$dist) # 目的変数（制動距離）の対数
x <- log(cars$speed) # 説明変数（速度）の対数

plot(x, y, xlab="速度の対数", ylab="制動距離の対数") # cars の散布図
title(main="制動距離の対数に対する\n速度の対数の直線回帰") #
car.lm <- lm(y ~ x) # １次回帰

abline(car.lm, col="red") # 赤線で表示
summary(car.lm) #

n <- length(y) #データ数（サンプルサイズ）

nx <- sample(1:n, replace=TRUE) #B1：ブートストラップサンプル

cb.lm <- lm(y[nx] ~ x[nx]) #B2

plot(x[nx], y[nx], xlab="速度の対数", ylab="制動距離の対数") # cars の散布図
title(main="ブートストラップサンプルの直線回帰") #

abline(cb.lm, col="red") # 赤線で表示

**# ブートストラップ回帰の R スクリプト**
cars	# R 付属データ 'cars' の呼び出し
y <- log(cars$dist)	# 目的変数（制動距離）の対数
x <- log(cars$speed)	# 説明変数（速度）の対数
plot(x, y, xlab="速度の対数", ylab="制動距離の対数")	# cars の散布図
title(main="制動距離の対数に対する\n速度の対数の直線回帰")	#
car.lm <- lm(y ~ x)	# １次回帰
abline(car.lm, col="red")	# 赤線で表示
summary(car.lm)	#
n <- length(y)	#データ数（サンプルサイズ）
nx <- sample(1:n, replace=TRUE)	#B1：ブートストラップサンプル
cb.lm <- lm(y[nx] ~ x[nx])	#B2
plot(x[nx], y[nx], xlab="速度の対数", ylab="制動距離の対数")	# cars の散布図
title(main="ブートストラップサンプルの直線回帰")	#
abline(cb.lm, col="red")	# 赤線で表示

# 回帰係数の分布の R スクリプト
M <- 1000 #ブートストラップの回数

coeff.vec <- numeric(M) #長さ M の 0 ベクトル

for(i in 1:M){ # { } 内 M 回繰り返し

nx <- sample(1:n, replace=TRUE)

coeff.vec[i] <- (lm(y[nx] ~ x[nx]))$coefficients[2]

}

hist(coeff.vec, main="回帰係数の分布") #ブートストラップ回帰係数のヒストグラム

ord <- order(coeff.vec) #回帰係数の順序

LB1 <- coeff.vec[ord][25] #下側2.5％点の推定値

LB2 <- coeff.vec[ord][975] #上側97.5％点の推定値

cat("L1 = ", LB1, ", L2 = ",LB2 ,", delta = ", LB2-LB1,"\n") #ブートストラップによる95％信頼区間

**# 回帰係数の分布の R スクリプト**
M <- 1000	#ブートストラップの回数
coeff.vec <- numeric(M)	#長さ M の 0 ベクトル
for(i in 1:M){ # { } 内 M 回繰り返し
nx <- sample(1:n, replace=TRUE)
coeff.vec[i] <- (lm(y[nx] ~ x[nx]))$coefficients[2]
}
hist(coeff.vec, main="回帰係数の分布")	#ブートストラップ回帰係数のヒストグラム
ord <- order(coeff.vec)	#回帰係数の順序
LB1 <- coeff.vec[ord][25]	#下側2.5％点の推定値
LB2 <- coeff.vec[ord][975]	#上側97.5％点の推定値
cat("L1 = ", LB1, ", L2 = ",LB2 ,", delta = ", LB2-LB1,"\n")	#ブートストラップによる95％信頼区間

多変量解析

に続く．

冬休みレポート

ミヤマクワガタの相対成長解析

データダウンロード

成長段階の異なる 47 頭のミヤマクワガタのパーツ別の重量データ(g)．パーツは，頭部（WHEAD），前胸部（WTHORAX），中胸～腹部（WABDOM），交尾器（WGENI）からなる．

　形態形質 x，y に対して，初期成長指数を a，成長比を b としたときの生物形態の相対成長式，

logy = loga + b logx

において，中胸～腹部（WABDOM）の重量(g)を体サイズの指標 x としたとき，y として頭部（WHEAD）の重量(g)，前胸部（WTHORAX）の重量(g)，交尾器（WGENI）の重量(g) の３通りを考えたときの相対成長式の回帰係数をそれぞれ求める．
　体の成長に合わせてパーツも比例して大きくなれば，成長比 b = 1 となるはずである．以下の問に答えよ．

帰無仮説　H₀：b = 1
の検定を y を頭部，前胸部，交尾器としたときでそれぞれ行え．
回帰係数の 95％信頼区間をそれぞれ求めよ．
回帰係数の 95％信頼区間をブートストラップ法で求め，先ほどの信頼区間と比較せよ．

参考文献（古い順）

Introduction to the Theory of Statistics, Mood, A. M., Graubill, F. A. & Boes, D. C., 1974, McGRAW-HILL
工学のためのデータサイエンス入門－フリーな統計環境Rを用いたデータ解析－，間瀬茂ら，2004，数理工学社
実践生物統計学－分子から生態まで－（第 1 章，第 2 章），東京大学生物測定学研究室編（大森宏ら）， 2004，朝倉書店
The R Tips データ解析環境 R の基本技・グラフィックス活用集，船尾暢男，2005，九天社
R で学ぶデータマインニング I －データ解析の視点から－，熊谷悦生・船尾暢男，2007，九天社
R で学ぶデータマインニング II －シミュレーションの視点から－，熊谷悦生・船尾暢男，2007，九天社
生物統計学入門，上村賢治・高野泰・大森宏，2008，オーム社

yy <- read.csv("hinsyu.csv"); yy	# csv データ読み込み
n <- nrow(yy)	# 繰り返し数
a <- ncol(yy)	# 処理数
y <- NULL; x <- NULL	#
for(i in 1:a){	#
x <- c(x, rep(i, n))	# 品種番号ベクトル
y <- c(y, yy[,i])	# 収量データベクトル
}	#
x <- factor(x)	# ラベル化
cbind(y,x)	# ベクトルデータ表示
summary(aov(y ~ x))	# 一元配置分散分析
anova(lm(y ~ x))	# 一元配置分散分析（これでもよい）
# 分散分析の計算を以下で詳しくみる
nn <- length(y)	# 総データ数
s <- diag(var(yy)*(n-1))	# 各品種内誤差
se <- sum(s); se	# 誤差平方和
st <- var(y)*(nn-1)	# 総平方和
sa <- st - se; sa	# 処理平方和
va <- sa/(a - 1); va	# 処理平均平方
ve <- se/(nn - a); ve	# 誤差平均平方
fv <- va/ve; fv	# F 値
pv <- 1 - pf(fv, df1=(a-1), df2=(nn-a)); pv	# p 値
# データの品種ごとのちらばりと，品種平均と標準誤差を視覚化する
xm <- 1:9	#
ym <- mean(yy)	# 品種ごとの平均
vm <- ve/n	# 品種平均の分散
svm <- sqrt(vm)	# 品種平均の標準誤差
stripchart(yy, xlab="玄米重（kg/a）")	# 品種ごとの個体分布表示
text(ym, xm,"\|", col="red")	# 品種平均
text(ym+svm, xm,"\|", col="red")	# 品種平均＋標準誤差
text(ym-svm, xm,"\|", col="red")	# 品種平均－標準誤差
segments(ym-svm, xm, ym+svm, xm, col="red")	# 横線
title(main="水稲品種収量個体分布")	#

pth <- pairwise.t.test(y, x); pth	# 対比較ホルム補正
ptb <- pairwise.t.test(y, x, p.adj = "bonf"); ptb	# 対比較ボンフェローニ補正
ptn <- pairwise.t.test(y, x, p.adj = "none"); ptn	# 対比較補正なし
showpt.f <- function(x, p){	# p 値が p 以下の比較を表示する関数
pl <- which(x < p, arr.ind=TRUE)	# 行列 x の要素が p 以下の場所
cbind(pl[,2], x[pl])	# 場所と p 値の表示
}	#
showpt.f(pth$p.value, 0.05)	# 対比較ホルム補正で 5 ％有意となった比較
showpt.f(ptb$p.value, 0.05)	# 対比較ボンフェローニ補正で 5 ％有意となった比較
showpt.f(ptn$p.value, 0.05)	# 対比較補正なしで 5 ％有意となった比較
# 多重比較の計算を詳しくみる（品種１と５の比較）
c15 <- c(1,0,0,0,-1,0,0,0,0)	# 対比ベクトル
mc15 <- c15 %*% c15	# 大きさ
c15sd <- sqrt(mc15)*esd/sqrt(n)	# 対比較の標準誤差
c15e <- t(c15) %*% gm	# 対比較推定値
tv15 <- c15e/c15sd; tv15	# 対比較 t 値
pv15 <- 2*(1 - pt(abs(tv15), df=(nn-a)));pv15	# 対比較 p 値
k <- a*(a-1)/2	# 比較の総数
pv15*k	# 対比較 p 値ボンフェローニ補正

hsd <- TukeyHSD(aov(y ~ x)); hsd	# チューキー HSD のすべての組み合わせの結果表示
ph <- hsd$x[,4]	# 各比較の p 値ベクトル
sc <- (1:length(ph))[ph<0.05]	# p 値が 0.05 以下の比較
hsd$x[sc,]	# 5 ％有意な比較

N <- 100	# シミュレーション回数（時間節約のため減らした）
a <- 5; n <- 10	# 処理水準数 a，処理内標本数 n
x <- NULL	#
for(i in 1:a) x <- c(x, rep(i, n))	# グループラベル
x <- factor(x)	# ラベル化
pv <- NULL; sn <- NULL	# p 値行列と 5 ％有意な個数
for(i in 1:N){	#
y <- rnorm(n*a)	# 標準正規乱数 n*a 個
pth <- pairwise.t.test(y, x)	# 対比較ホルム補正
ptb <- pairwise.t.test(y, x, p.adj = "bonf")	# 対比較ボンフェローニ補正
ptn <- pairwise.t.test(y, x, p.adj = "none")	# 対比較補正なし
av <- aov(y ~ x)	# 分散分析
hsd <- TukeyHSD(av)	# チューキー HSD
p0 <- summary(av)[[1]][1,5]	# 分散分析 p 値
p1 <- min(pth$p.value, na.rm=TRUE)	# 対比較ホルム補正の p 値の最小値
n1 <- length(which(pth$p.value < 0.05))	# 対比較ホルム補正の 5 ％有意の個数
p2 <- min(ptb$p.value, na.rm=TRUE)	# 対比較ボンフェローニ補正の p 値の最小値
n2 <- length(which(ptb$p.value < 0.05))	# 対比較ボンフェローニ補正の 5 ％有意の個数
p3 <- min(ptn$p.value, na.rm=TRUE)	# 対比較補正なしの p 値の最小値
n3 <- length(which(ptn$p.value < 0.05))	# 対比較補正なしの 5 ％有意の個数
p4 <- min(hsd$x[,4])	# チューキー HSD の p 値の最小値
n4 <- length(which(hsd$x[,4] < 0.05))	# チューキー HSD の 5 ％有意の個数
pv <- rbind(pv, c(p0, p1,p2,p3,p4))	# p 値行列に格納
sn <- rbind(sn, c(n1,n2,n3,n4))	# 有意個数行列に格納
}	#
fs <- (1:N)[pv[,1]<0.05]	# 分散分析で 5 ％有意となった回の番号
hs <- (1:N)[pv[,2]<0.05]	# 対比較ホルム補正で 5 ％有意な組み合わせがあった回の番号
bs <- (1:N)[pv[,3]<0.05]	# 対比較ボンフェローニ補正で 5 ％有意な組み合わせがあった回の番号
ns <- (1:N)[pv[,4]<0.05]	# 対比較補正なしで 5 ％有意な組み合わせがあった回の番号
ts <- (1:N)[pv[,5]<0.05]	# チューキー HSD で 5 ％有意な組み合わせがあった回の番号
num <- c(length(fs), length(hs), length(bs), length(ns), length(ts))
num/N	# 有意水準
table(hs %in% fs)	# 対比較ホルム補正の番号と分散分析有意の番号とのマッチング
table(bs %in% fs)	# 対比較ボンフェローニ補正の番号と分散分析有意の番号とのマッチング
table(ns %in% fs)	# 対比較補正なしの番号と分散分析有意の番号とのマッチング
table(ts %in% fs)	# チューキー HSD の番号と分散分析有意の番号とのマッチング
ths <- table(sn[hs,1]); ths	# 対比較ホルム補正の有意な個数の分布
tbs <- table(sn[bs,2]); tbs	# 対比較ボンフェローニ補正の有意な個数の分布
tns <- table(sn[ns,3]); tns	# 対比較補正なしの有意な個数の分布
tts <- table(sn[ts,4]); tts	# チューキー HSD の有意な個数の分布
ths <- ths/sum(ths); tbs <- tbs/sum(tbs); tts <- tts/sum(tts)
barplot(rbind(ths,tbs,tts), beside=TRUE, xlab="有意な対比較の数", ylab="頻度", legend=c("ホルム補正","ボンフェローニ補正", "チューキー HSD"))
title(main="有意な対比較の数の分布")	#

rice <- read.csv("ricecul.csv")	# コメデータ読み込み
rice[rice$year==2000,]	# 2000年度データの表示
yield0 <- rice$gy[rice$year==2000]	# 2000年度収量
dens0 <- factor(rice$density[rice$year==2000])	# 2000年度密度水準のラベル化
fert0 <- factor(rice$fert[rice$year==2000])	# 2000年度肥料水準のラベル化
blk0 <- factor(rice$rep[rice$year==2000])	# 2000年度ブロックのラベル化
cbind(yield0, dens0, fert0, blk0)	# データと変数の表示
tapply(yield0, dens0, mean)	# 栽植密度水準ごとの収量平均
tapply(yield0, fert0, mean)	# 施肥量水準ごとの収量平均
x <- tapply(yield0, dens0:fert0, mean); x	# 栽植密度と施肥量組み合わせの収量平均
ry.aov <- aov(yield0 ~ blk0 + dens0 + fert0 + dens0:fert0)	# ２要因乱塊法分散分析
summary(ry.aov)	# 分散分析表表示
plot(1:3, x[1:3], type="b", lwd=2, xaxt="n", xlab="施肥量", ylab="収量", ylim=c(300, 600), pch=0, col="blue")
axis(1, 1:3, labels=c("施肥無","施肥少","施肥多"))	# グラフ表示
points(1:3, x[4:6], type="b", lwd=2, pch=2, col="red")	#
legend(locator(1), legend=c("疎植","密植"), pch=c(0,2), col=c("blue","red"))
title(main="栽植密度と施肥量の交互作用（2000年）")	#

統計特論２

東京大学大学院農学生命科学研究科 大森宏

３．分散分析

因子と水準

一元配置（one-way layout）

構造モデル

平方和分解

平方和の期待値

帰無仮説のもとでの平方和の比の分布

分散分析表と F 検定

対比（contarst）

多重比較（multiple comparison）

二元配置（two-way layout）

構造モデル

各種平方和

分散分析表と F 検定

実験計画法

実験計画法（追加）

４．回帰分析

相関

直線回帰

モデル

最小２乗法

回帰式の統計モデル

残差分散と回帰係数の標準誤差

回帰係数の標準誤差による t 検定

分散分析

平方和分解

決定係数（重相関係数の２乗）

F 検定

回帰式の信頼区間

回帰係数の信頼区間

回帰直線の信頼区間

回帰予測値の信頼幅

重回帰分析

統計モデル

多変量の線形関数の平均と分散

回帰係数の分散

ハット行列とてこ比

標準化残差

Cook 距離

回帰診断

重回帰分析の例

モデル間の尤度比検定

モデル選択と AIC

説明変数の選択

すべての組み合わせの AIC

変数増減法の AIC

多項式回帰

ブートストラップ法による信頼区間の構成

多変量解析

冬休みレポート

ミヤマクワガタの相対成長解析

参考文献（古い順）

東京大学大学院農学生命科学研究科　大森宏