2008.12.18

講義プリントサイト:http://lbm.ab.a.u-tokyo.ac.jp/~omori/kokusai/koki.htm
冬休みの課題:提出者は後期得点が 10 点アップする.

回帰式の統計モデル

 推定された直線回帰式がどの程度現実のデータに適合しているかを調べるために, 回帰式が従う統計モデルを考える.標本の格データ点, (xiyi ), が,

yiab xieiei 〜 N( 0,σ2 )

であると仮定する.ei は誤差(error),あるいは, 残差(residual)で,直線回帰 式では説明がつかない部分を表し,これが互いに独立に平均 0,分散 σ2 の正規分布に従うと仮定する.誤差の大きさが大きいときは,直線回帰式ではデータが説明できない と考える.

残差分散と回帰係数の標準誤差

 回帰で説明がつかない残差平方和 Se は,

minsqure

で求められる.これの自由度は n−2 であるので(2つの回帰係数分の自由度を除く),回帰の 残差(誤差)分散は,

se2 = Se/(n−2) = Σiyi −  yi^ )2 /(n−2)

で求められる.

 一般に,Var(yi ) = σ2 であるとき,その定数 倍の分散は,

Var(ayi ) = a2σ2, Var(Σiai yi ) = Σiai 2 σ2

であり,従属変数 y のデータ yi は,

yi 〜 N( ab xi ,σ2 )

と分布するので,回帰係数 b の分散は,

Var(b ) = σ2ix ix- ) 2

となる.この分散の平方根を回帰係数 b の標準誤差という.

回帰係数の標準誤差による t 検定

回帰係数 b の推定値 b^ の分散は,

Var(b^ ) = sb2se2ix ix- ) 2

と推定できるので,b^ の標準偏差(標準誤差)は, s b と推定 される.これより,回帰係数をその標準誤差で割った t 値が,帰無仮説のもとで,

tb^/s b 〜 t(n−2)

のように,自由度 n−2 の t 分布に従うことを利用して回帰係数の検定が行える.すなわち, 自由度 n−2 の t 分布の 97.5%点を t0 とすると,

|t | > t0 → 帰無仮 説を有意水準 5 %で棄却(回帰関係が有意に認められる)
|t | ≦ t0 → 帰無仮説を棄却しない(回帰関係が認められない)

と定式化できる.
回帰係数の信頼区間

 回帰係数の標準誤差 s b を用いて, 回帰係数 b の信頼区間がつくれる.すなわち, 自由度 n−2 の t 分布の 97.5%点を t0 とすると, 回帰係数 b の 95%信頼区間の幅 d は,d = t0 s b となるので, 95%信頼区間は,

b^ − t0 s bbb^ + t0 s b

となる.

例題

 女子学生の入試得点(x)と初年度成績(y)のデータにおいて求めた回帰式

yab x

において,xy は回帰関係に無いという帰無仮説

H0b = 0

の検定を行え,また,回帰係数 b の95%信頼区間を求めよ.

平方和分解と分散分析

 回帰式により, 従属変数 y のデータ yi は,

yiy^i + (y^iyi ) = 回帰値 + 残差

のように分解される.この分解に対応して従属変数データの総平方和 ST は,

ST = Σiy iy- ) 2 = Σiy^iy- ) 2 + Σiy iy^i ) 2 = SR + Se
総平方和 = 回帰平方和 + 残差平方和

のように分解される.これを平方和の分解という.この分解に対応して自由度は,
n−1 = 1 + n−2
と分解される.

 データが直線回帰式でよく説明できるのは,回帰平方和が大きく,残差平方和 が小さい場合である.総平方和のうち回帰平方和で説明される割合を決定係数,もしくは 重相関係数の2乗といい,

決定係数(重相関係数の2乗)= R2 =(回帰平方和)/(総平方和)

で定義される.なお,重相関係数 R とは,データ y i と回帰値 y^i との間の相関係数である.これより, 以下の分散分析表ができる.

回帰分析の分散分析表
変動因平方和自由度平均平方F 値
回帰 SR 1 SR F = SR/se2
残差 Se n−2 se2 = Se/n−2  
全体 ST n−1    

分散分析による F 検定

従属変数 y が説明変数 x の回帰関係にないという 帰無仮説,

H0b = 0,

を考える.帰無仮説のもとでは,回帰平均平方 SR と残差分散 se2 がともに誤差 σ2 の不偏推定量になるので, その比 F 値が,

F = SR/se2 〜 F(1,n−2),

という F 分布に従うことを利用して検定ができる.すなわち,分子,分母 自由度が 1,n−2 である F 分布 F(1,n−2)の95%点を F0 とすると,

F > F0 → 帰無仮説を有意水準 5 %で棄却(回帰関係が有意に認められる)
F ≦ F0 → 帰無仮説を棄却しない(回帰関係が認められない)

と定式化できる.

F 分布

 U が自由度 m の χ2 分布に従い (U 〜 χ2(m)), また,V 〜 χ2(n)と 分布し,UV が互いに独立であるとする.このとき, 2つの χ2 分布する確率変数をそのおのおのの自由度 で割った量の比を F 値といい,

F = (U/m)/(V/n)

は自由度 m,n の F 分布に従い,F 〜 F(m, n) と表記する. m を分子の自由度,n を分母の自由度という.

 ところで,回帰係数の推定値 b^ をその 標準誤差 sb で割った t 値は, 回帰関係がないという帰無仮説 H0

H0:b=0
のもとで自由度 n − 2 の t 分布に従う,すなわち,
tb^/sb 〜 t(n−2)
となる.この関係において,
t 2 〜 F(1, n−2)
が成り立つ.つまり,t 分布をより一般化したのが F 分布である.
この F 分布を用いた F 検定が,回帰分析や分散分析でよく用いられる.

例題

 女子学生の入試得点(x)と初年度成績(y)のデータにおいて求めた回帰式

yab x

において,分散分析表を作り,回帰式に意味が無いという帰無仮説の検定を行え.また,この回帰関係の 決定係数(重相関係数の2乗:R2)を求めよ. ただし,自由度 1,11 の F 分布の 95 %点は 4.84,99%点は 9.65 である.
Copyright (C) 2008, Hiroshi Omori. 最終更新:2008年12月18日