学生実験

　統計解析ソフトＲを用いて，統計解析の理論と実践を学ぶ

回帰分析（Regression Analysis）

相関

　標本（サンプル）に対し，２つの変数 x，y が測定されているとする．たとえば，x が身長(m)であり，y が体重(kg)である．大きさ n の標本（サンプル）に対し，２つの変数の組のデータが，

　共分散は測定単位により大きさが変わるので，これをおのおのの変数の標本分散， Var[x]，Var[y]，

直線回帰

モデル

最小２乗法

**# 入試得点と成績の R スクリプト**
library(MASS) # MASS ライブラリーの読み込み s <- matrix(c(100, 80, 80, 100), nrow=2); s # 分散共分散行列の定義 x <- mvrnorm(1000,c(50,50),s) # 平均 50，分散 s の 2 変量正規分布乱数 1000 個生成 plot(x, xlab="入試得点", ylab="初年度成績") # 分布全体を表示 points(x[x[,1]>54,], col="red") # 入学者のみ赤で表示 1000/nrow(x[x[,1]>54,]) # 競争率 xs1 <- sort(x[,1], decreasing=T) # 入試得点を大きさの順に並べ替え xb1 <- (xs1[20]+xs1[21])/2; xb1 # 特待生合格ライン points(x[x[,1]>xb1,], col="green") # 入学者のみ赤で表示 abline(v=54) # 合格ライン abline(v=xb1) # 特待生合格ライン title(main="本来の相関と観測される相関") # cor(x)[1,2] # 本来あるべき相関 cor(x[x[,1]>54,])[1,2] # 実際に観測される相関 cor(x[x[,1]>xb1,])[1,2]

　データに最もよくあてはまる直線回帰式を得るには，データ点（x_i ，y_i ），と回帰による推定点，（x_i ，y^_i ）， y^_i ＝ a ＋ b x_i ，の間の距離の２乗和 S が最小になるような回帰係数 a ，b を求める．つまり，

　これは，S を a ，b で偏微分して 0 とおくことによって得られる．つまり，

回帰式の統計モデル

　推定された直線回帰式がどの程度現実のデータに適合しているかを調べるために，回帰式が従う統計モデルを考える．標本の格データ点，（x_i ，y_i ），が，

残差分散と回帰係数の標準誤差

　一般に，Var(y_i ) ＝ σ² であるとき，その定数（c）倍の分散は，

回帰係数の標準誤差による t 検定

目的変数 y が説明変数 x との回帰関係にないという帰無仮説，

分散分析

平方和分解

決定係数（重相関係数の２乗）

　データが直線回帰式でよく説明できるのは，回帰平方和が大きく，残差平方和が小さい場合である．総平方和のうち回帰平方和で説明される割合を決定係数，もしくは重相関係数の２乗といい，

回帰分析の分散分析表
変動因	平方和	自由度	平均平方	F 値
回帰	S_R	1	S_R	F ＝ S_R/s_e²
残差	S_e	n－2	s_e² ＝ S_e/n－2
全体	S_T	n－1

F 検定

従属変数 y が説明変数 x の回帰関係にないという帰無仮説，

回帰係数に対する検定

回帰式の信頼区間

回帰係数の信頼区間

　回帰係数の標準誤差 s _b を用いて，回帰係数 b の信頼区間がつくれる．すなわち，自由度 n－2 の t 分布の 97.5％点を t₀ とすると，回帰係数 b の 95％信頼区間の幅 d は，d ＝ t₀ s _b となるので， 95％信頼区間は，

回帰直線の信頼区間

回帰予測値の信頼幅

ブートストラップ法による信頼区間の構成

ミヤマクワガタの相対成長解析

成長段階の異なる 47 頭のミヤマクワガタのパーツ別の重量データ(g)．パーツは，頭部（WHEAD），前胸部（WTHORAX），中胸～腹部（WABDOM），交尾器（WGENI）からなる．

重回帰分析

統計モデル

多変量の線形関数の平均と分散

回帰係数の分散

ハット行列とてこ比

標準化残差

Cook 距離

回帰診断


もとデータ	対数変換データ

問題２: ミヤマクワガタの相対成長解析の回帰分析の回帰診断を行い，問題がないか考察せよ．

モデル選択と AIC

　確率モデルのパラメータ推定には，通常，最尤法が用いられる．しかしながら，重回帰分析などで説明変数の個数（パラメータ数）を決めようとすると，一般に，パラメータ数が多いほどデータへのモデルの当てはまり（fitting）が良くなるので，最尤法でパラメータ数を決めるとパラメータ数の多いモデルが「良い」とされてしまう．パラメータ数の多いモデルは，パラメータの値を推定したデータにはよく当てはまるが，同様の状況から得られた別のデータへの当てはまりが悪くなることが知られている．このような現象を解釈しすぎ（over fitting）という．
　これを避けるには，できるだけ単純なモデルを考えるのがよいとされている．これを実現するモデル選択の基準として，

X = (モデルのデータへの当てはまり) + (モデルの複雑さへのペナルティ)

の形式のものがいくつか提案されている．この中で有名な基準の一つが AIC (Akaike Information Criterion) である．AIC は，

AIC = - 2×(モデルの最大対数尤度) + 2×(モデルの自由パラメータ数)

と定義される．モデルの最大対数尤度は，確率モデルの最尤推定値を確率モデルに代入したときの尤度の対数を取ったものであり，モデルのデータへの当てはまりのよさを評価している．モデルの自由パラメータ数は，モデルの複雑さの尺度の一つで，パラメータ数の少ないモデルほど単純でよいものと考えられる．結局，AIC の小さなモデルがよいとされる．

　k 個のパラメータ θ を持つ回帰モデル

y = f(x ; θ) + e

において，残差 e が正規分布に従うモデルでは，n 個のデータから得られた残差分散の最尤推定値を v² とすると，回帰モデルの最大対数尤度は，

l = -(1/2) [n log 2π + n log v² + n ]

となる．これより，回帰モデルでの AIC は，

AIC = (n log 2π + n log v² + n ) + 2k

となり，AIC の小さな回帰モデルがよいとされる．

1 月の日最低気温の月平均値
　1941年～1970年での日本の各都市における 1 月の日最低気温の月平均値（y）が，各都市の緯度（x₁），経度（x₂），標高（x₃）でよく説明できるかを重回帰分析で解析してみる．データは以下の通りである．

データダウンロード

# 1 月最低気温重回帰の R スクリプト
kion <- read.csv("kion.csv") # 気温データ読み込み
pairs(kion[,2:5]) # 変数間散布図一覧
cor(kion[,2:5]) # 変数間相関
kion1.lm <- lm(temp ~ lat + long + altitude, data=kion) # 3 変数重回帰
summary(kion1.lm) # 結果表示
anova(kion1.lm) # 分散分析表示
n <- nrow(kion) # データ数
x0 <- rep(1,n) #
x <- as.matrix(cbind(x0, kion[,3:5])) # 説明変数行列
se2 <- anova(kion1.lm)[4,3] # 残差分散
v <- se2 * solve(t(x) %*% x) # 回帰係数の分散共分散行列
sqrt(diag(v)) # 回帰係数の標準誤差

**# 1 月最低気温重回帰の R スクリプト**
kion <- read.csv("kion.csv")	# 気温データ読み込み
pairs(kion[,2:5])	# 変数間散布図一覧
cor(kion[,2:5])	# 変数間相関
kion1.lm <- lm(temp ~ lat + long + altitude, data=kion)	# 3 変数重回帰
summary(kion1.lm)	# 結果表示
anova(kion1.lm)	# 分散分析表示
n <- nrow(kion)	# データ数
x0 <- rep(1,n)	#
x <- as.matrix(cbind(x0, kion[,3:5]))	# 説明変数行列
se2 <- anova(kion1.lm)[4,3]	# 残差分散
v <- se2 * solve(t(x) %*% x)	# 回帰係数の分散共分散行列
sqrt(diag(v))	# 回帰係数の標準誤差

説明変数の選択

すべての組み合わせの AIC

　全変数を使って重回帰分析を行ったが，経度（x₂）の回帰係数の有意確率が小さくないので，経度の情報は気温を説明するのに必要ないかも知れない．これは日本では，緯度が高く標高が高いほど気温が低いと考えられることとも一致している．モデル選択の方法として AIC を利用してみる．
　3 個の説明変数があるので，説明変数の組み合わせは 2³ = 8 通りある．このすべての組合わせに対して AIC の値を計算し，最も小さな値をもつモデルを採用することにする．

# 変数選択の R スクリプト
kion0.lm <- lm(temp ~ 1, data=kion) # 説明変数無し回帰
anova(kion0.lm) #
kion11.lm <- lm(temp ~ lat, data=kion) # 説明変数：緯度，回帰
anova(kion11.lm) #
kion12.lm <- lm(temp ~ long, data=kion) # 説明変数：経度，回帰
anova(kion12.lm) #
kion13.lm <- lm(temp ~ altitude, data=kion) # 説明変数：標高，回帰
anova(kion13.lm) #
kion21.lm <- lm(temp ~ lat + long, data=kion) # 説明変数：緯度，経度，回帰
anova(kion21.lm) #
kion22.lm <- lm(temp ~ long + altitude, data=kion) # 説明変数：経度，標高，回帰
anova(kion22.lm) #
kion23.lm <- lm(temp ~ lat + altitude, data=kion) # 説明変数：緯度，標高，回帰
anova(kion23.lm) #
kion3.lm <- lm(temp ~ lat + long + altitude, data=kion) # 説明変数：緯度，経度，標高，回帰
anova(kion3.lm) #
AIC(kion0.lm) # 説明変数無し回帰 AIC
AIC(kion11.lm) # 説明変数：緯度，回帰 AIC
AIC(kion12.lm) # 説明変数：経度，回帰 AIC
AIC(kion13.lm) # 説明変数：標高，回帰 AIC
AIC(kion21.lm) # 説明変数：緯度，経度，回帰 AIC
AIC(kion22.lm) # 説明変数：経度，標高，回帰 AIC
AIC(kion23.lm) # 説明変数：緯度，標高，回帰 AIC
AIC(kion3.lm) # 説明変数：緯度，経度，標高，回帰 AIC

**# 変数選択の R スクリプト**
kion0.lm <- lm(temp ~ 1, data=kion)	# 説明変数無し回帰
anova(kion0.lm)	#
kion11.lm <- lm(temp ~ lat, data=kion)	# 説明変数：緯度，回帰
anova(kion11.lm)	#
kion12.lm <- lm(temp ~ long, data=kion)	# 説明変数：経度，回帰
anova(kion12.lm)	#
kion13.lm <- lm(temp ~ altitude, data=kion)	# 説明変数：標高，回帰
anova(kion13.lm)	#
kion21.lm <- lm(temp ~ lat + long, data=kion)	# 説明変数：緯度，経度，回帰
anova(kion21.lm)	#
kion22.lm <- lm(temp ~ long + altitude, data=kion)	# 説明変数：経度，標高，回帰
anova(kion22.lm)	#
kion23.lm <- lm(temp ~ lat + altitude, data=kion)	# 説明変数：緯度，標高，回帰
anova(kion23.lm)	#
kion3.lm <- lm(temp ~ lat + long + altitude, data=kion)	# 説明変数：緯度，経度，標高，回帰
anova(kion3.lm)	#
AIC(kion0.lm)	# 説明変数無し回帰 AIC
AIC(kion11.lm)	# 説明変数：緯度，回帰 AIC
AIC(kion12.lm)	# 説明変数：経度，回帰 AIC
AIC(kion13.lm)	# 説明変数：標高，回帰 AIC
AIC(kion21.lm)	# 説明変数：緯度，経度，回帰 AIC
AIC(kion22.lm)	# 説明変数：経度，標高，回帰 AIC
AIC(kion23.lm)	# 説明変数：緯度，標高，回帰 AIC
AIC(kion3.lm)	# 説明変数：緯度，経度，標高，回帰 AIC

変数増減法の AIC

　説明変数の数が多くなり，すべての組み合わせを調べることが大変な場合には，変数増加法，変数減少法，その組み合わせである変数増減法がある．ここでは，変数増減法もやってみる．

# 変数選択の R スクリプト
library(MASS) # MASS ライブラリィー読み込み
null <- lm(temp ~ 1, kion) # 説明変数無し
full <- lm(temp ~ lat + long + altitude, kion) # 説明変数３つ
result <- stepAIC(null, scope=list(lower=null, upper=full), data=kion) # 変数増減法
summary(result) # 結果表示

**# 変数選択の R スクリプト**
library(MASS)	# MASS ライブラリィー読み込み
null <- lm(temp ~ 1, kion)	# 説明変数無し
full <- lm(temp ~ lat + long + altitude, kion)	# 説明変数３つ
result <- stepAIC(null, scope=list(lower=null, upper=full), data=kion)	# 変数増減法
summary(result)	# 結果表示

問題３: AIC の値から気温を説明する最もよい回帰式を求めよ．

参考文献（古い順）

Introduction to the Theory of Statistics, Mood, A. M., Graubill, F. A. & Boes, D. C., 1974, McGRAW-HILL
「実験」生産環境生物学，東京大学大学院農学生命科学研究科生産・環境生物学専攻編，1999，朝倉書店
工学のためのデータサイエンス入門－フリーな統計環境Rを用いたデータ解析－，間瀬茂ら，2004，数理工学社
実践生物統計学－分子から生態まで－（第 1 章，第 2 章），東京大学生物測定学研究室編（大森宏ら）， 2004，朝倉書店
The R Tips データ解析環境 R の基本技・グラフィックス活用集，船尾暢男，2005，九天社
R で学ぶデータマインニング I －データ解析の視点から－，熊谷悦生・船尾暢男，2007，九天社
R で学ぶデータマインニング II －シミュレーションの視点から－，熊谷悦生・船尾暢男，2007，九天社

2014年生物測定基礎実験

統計解析５

東京大学大学院農学生命科学研究科　大森宏

この実験の目的

回帰分析（Regression Analysis）

相関

直線回帰

モデル

最小２乗法

回帰式の統計モデル

残差分散と回帰係数の標準誤差

回帰係数の標準誤差による t 検定

分散分析

平方和分解

決定係数（重相関係数の２乗）

F 検定

回帰係数に対する検定

回帰式の信頼区間

回帰係数の信頼区間

回帰直線の信頼区間

回帰予測値の信頼幅

ブートストラップ法による信頼区間の構成

ミヤマクワガタの相対成長解析

重回帰分析

統計モデル

多変量の線形関数の平均と分散

回帰係数の分散

ハット行列とてこ比

標準化残差

Cook 距離

回帰診断

モデル選択と AIC

説明変数の選択

すべての組み合わせの AIC

変数増減法の AIC

参考文献（古い順）

2014年生物測定基礎実験

統計解析５

東京大学大学院農学生命科学研究科 大森宏

この実験の目的

回帰分析（Regression Analysis）

相関

直線回帰

モデル

最小２乗法

回帰式の統計モデル

残差分散と回帰係数の標準誤差

回帰係数の標準誤差による t 検定

分散分析

平方和分解

決定係数（重相関係数の２乗）

F 検定

回帰係数に対する検定

回帰式の信頼区間

回帰係数の信頼区間

回帰直線の信頼区間

回帰予測値の信頼幅

ブートストラップ法による信頼区間の構成

ミヤマクワガタの相対成長解析

重回帰分析

統計モデル

多変量の線形関数の平均と分散

回帰係数の分散

ハット行列とてこ比

標準化残差

Cook 距離

回帰診断

モデル選択と AIC

説明変数の選択

すべての組み合わせの AIC

変数増減法の AIC

参考文献（古い順）

東京大学大学院農学生命科学研究科　大森宏