2015年度生物測定基礎実験

統計解析1

東京大学大学院農学生命科学研究科 大森宏


この実験の目的

 統計解析ソフトRを用いて,統計解析の理論と実践を学ぶ

R の基本的使い方

# #以下はコメント文なので,R には読み込まれず,無視される.
#
# 英語得点データを用いて,データの基本統計量の計算演習を行う.
#
#英語の得点	
eigo <- c(	#
36,70,56,68,76,60,50,63,62,42,64,60,50,68,71,67,	
50,65,67,57,72,64,61,66,46,80,46,51,59,32,55,65,	
65,52,57,64,23,57,53,54,38,71,57,69,77,61,51,64,	
63,43,65,61,51,69,72,68,53,66,68,58,73,65,62,67,	
47,81,47,52,59,33,56,66,67,52,58,65,24,58,54,55)	
length(eigo)	     	 #データ数 
mean(eigo)	     	 #標本平均 
var(eigo)	     	 #標本分散 
sd(eigo)	     	 #標本標準偏差 
boxplot(eigo, main="英語得点の箱ヒゲ図")	     	 #箱ひげ図
boxplot.stats(eigo)	     	 #箱ひげ図用統計量 
summary(eigo)				#英語得点データの要約
hist(eigo, breaks=seq(0, 100, by=5), xlab="English score", ylab="Frequency", main="")
title(main = "英語得点のヒストグラム")	     	 #グラフタイトル
stem(eigo, scale=2)	     	 #幹葉表示
#
# 散布図と回帰直線
#
x <- 1:10  	#連続した自然数  
y <- c(3,5,6,6,9,10,6,9,10,7)   
plot(x, y)  	# データの散布図  
reg <- lm(y ~ x)	# 回帰の計算
summary(reg)		# 回帰の結果表示
reg$coefficients	# 回帰係数
abline(reg, col="red")		# 回帰直線の表示
cor(x, y)		# 相関係数

回帰直線:y = 4.2 + 0.527x

主要な確率分布

1.確率分布

離散確率分布

 ある量の集まり P = { p1,…,pn } の中で,
fig1
という性質をもつものを離散(discrete)確率分布(probability distribution)という.
 各 pi を確率密度(probability density)という.なお,n は可算無限(自然数と対応づけられる) であるならば離散的である.

連続型確率分布

 関数 f(x) が,
fig2
という性質を持つとき,これを連続型確率分布(continuous distribution)という. また,f(x) を確率密度関数(probability density function)とも呼ぶ.なお,確率密度関数 f(x) が, パラメータ θ を持つとき,f(x;θ) と表記することもある.

累積分布関数

 Pr[A] を事象 A が生起する確率とする.連続型確率変数 X に対し,X が x 以下である確率,
fig3
で定義される関数 F(x) を累積分布関数(cumulative distribution function)という. この関数を用いると,確率変数 X が区間 (a, b) に落ちる確率は,
fig4
で表せる. なお,離散型確率変数でも積分を和に変えることにより,同様に階段型の累積分布関数が定義できる.

2.分布の代表値

平均

 平均(mean)μ は,分布の中心的な位置(location)座標を表す.確率変数 X に対しては, X の期待値(expectation) E[X ] とも表記し,
fig5
と定義される.離散確率変数では,積分を総和に変えることにより括弧内のように定義できる.

分散

 分散(variance) σ2 は,分布の拡がり(dispersion)の程度を表す. 確率変数 X に対しては,Var[X ] と表記する. 確率変数 X の関数 (X - μ)2 の期待値でもあり,
fig6
と定義される.
 また,σ を標準偏差(SD : Standard Deviation)といい,平均と同じ次元で分布の拡がりの大きさ を表す量である.

独立な確率変数の平均と分散

 2つの独立な確率変数 XY の平均と分散がそれぞれ,
E[X ] = μx,Var[X ] = σx2, E[Y ] = μy,Var[Y ] = σy2
であるとき,
E[X + Y ] = E[X ] + E[Y ] = μx + μy, Var[X + Y ] = Var[X ] + Var[Y ] = σx2 + σy2
E[X - Y ] = E[X ] - E[Y ] = μx - μy, Var[X - Y ] = Var[X ] + Var[Y ] = σx2 + σy2
である.一般に,スカラー a,b に対して
E[aX + bY ] = aE[X ] + bE[Y ] = aμx + bμy, Var[aX + bY ] = a2Var[X ] + b2Var[Y ] = a2σx2 + b2σy2
である.

3.二項分布(Binomial distribution)

 独立な n 回のベルヌイ試行(成功確率 p,失敗確率 q = 1 - p ) を行ったときの成功回数 X の分布.
 その確率密度は,
fig13
である.X ~ Binom(np) と書くこともある. R では二項分布の確率密度は,dbinom(x, n, p) で計算される.
 二項分布の平均と分散はそれぞれ,

E[X] = np, Var[X] = np(1-p)=npq

 これより,成功確率 p の推定値 X/n の平均と分散は,

E[X/n] = E[X]/n = np/n = p,Var[X/n] = Var[X]/n^2 = 
np(1 - p)/n^2 = p(1 - p)/n

となる.

4.超幾何分布(Hypergeometric distribution)

 m 個の白石と n 個の黒石が入った袋から k 個の石を無作為に取り出したとき, 白石の個数 X の従う確率密度は,
fig15
で与えられる.R ではこの確率密度は,dhyper(x, m, n, k) で与えられる.

 平均:{\rm E}[X]=kp,分散:{\rm Var}[X]=kp(1-p)(m+n-k), \ p=\frac{m}{m+n}

5.ポアソン分布(Poisson distribution)

 正のパラメータ λ と,0 以上の整数 X に対し,確率密度が
fig16
となる分布.R ではこの確率密度は平均を m として,dpois(x, m) で与えられる.
平均:E[X ] = λ,分散:Var[X ] = λ