2008.7.17

前期試験の解説

標準正規分布累積確率表
z の値 0.0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1.0
累積確率   0.500   0.540   0.579   0.618   0.655   0.691   0.726   0.758   0.788   0.816   0.841
1.1 1.2 1.3 1.4 1.5 1.6 1.64 1.7 1.8 1.9 1.96 2.0 2.58 3.0
  0.864   0.885   0.903   0.919   0.933   0.945   0.95   0.955   0.964   0.971   0.975   0.977   0.995   0.999

問題1

あるクラスの漢字テスト成績の一部は,
74,53,68,60,62,55,70,62
であった.このデータの標本平均と標本標準偏差を求めよ.

データ数:n = 8
標本平均:x- = (74 + 53 + 68 + 60 + 62 + 55 + 70 + 62)/8 = 504/8 = 63

上の計算表より, 標本分散:s2 = 370/7 = 52.86.標本標準偏差:s = √52.86 = 7.27

問題2

ある大学での 900 名による英語テストの平均は 62 点,標準偏差が 7.5 点であった.A 君の得点は 74 点であった. 成績分布が正規分布に従っているとすると, A 君より成績のよい学生は何名ぐらいいるか.

標準化得点: z = (x - μ)/σ = (74 - 62)/7.5 = 1.6
表から z > 1.6 となる確率: Pr[ z > 1.6 ] = 1 - Pr[ z < 1.6 ] = 1 - 0.945 = 0.055
A 君より成績がよいのは学生の 0.055(5.5%): 900 × 0.055 = 49.5,約 49 〜 50 名

問題3

問題2の大学(平均 62 点,標準偏差 7.5 点の正規分布)において, 実は特別の英語特訓を適当に選んだ 16 名に対して行っていた. 特訓を受けた学生の平均得点は 66 点であった.

問1 特訓を受けた学生英語得点の母平均の95%信頼区間を求めよ.

 大学の学生全体が特訓を受けたとした場合の英語得点を μ とする.標準偏差は特訓の有無にかかわらず σ = 7.5 と 考える. そこからランダムにサンプリングした n = 16 名の平均得点が x- = 66 であった.
 学生個人の得点 xi の標準偏差が σ なので,平均得点 x- の 標準偏差(標準誤差)は,σ/√n = 7.5/√16 = 1.875 である.
 これより母平均 μ の信頼区間は,
x- - 1.96 × σ/√n < μ < x- + 1.96 × σ/√n
66 - 1.96 × 1.875 < μ < 66 + 1.96 × 1.875
66 - 3.675 < μ < 66 + 3.675
62.325 < μ < 69.675
である.

問2 英語特訓に効果がないという帰無仮説の検定を行え.

 英語特訓に効果がないときは,特訓した場合考えられる母平均 μ が,現在の平均得点 62 点と変わりがない と考えられる.これより,
帰無仮説 H0:μ = 62(英語特訓に効果なし)
となる.帰無仮説のもとで,特訓を受けた学生の平均得点 x- は,平均 62 標準偏差 σ/√n の 正規分布に従う,すなわち,
x- 〜 N(62,σ/√n)
のでこれを標準化した z は,
z = (x- - 62)/(σ/√n) = √n(x- - 62)/σ 〜 N(0,1)
と標準正規分布に従う.標準正規分布表から検定ができる.
 検定統計量 |z| は,
|z| = √n|x- - 62|/σ = √16 | 66 - 62 |/7.5 = 16/7.5 = 2.13
2.13 は標準正規分布の 97.5%点(有意水準両側 5%)の 1.96 よりは大きく, 99.9%点(有意水準両側 1%)の 2.58 よりは小さい.よって,5%有意である.

問3 検定結果などから,英語特訓に効果があったかどうかを考察せよ.

 検定は,有意水準 5%で,特訓に効果がないという帰無仮説を棄却した.これより,英語特訓に効果 があることが統計的に確かめられた.
 一方,問1の母平均 μ の 95%信頼区間が学生全体の平均 62 点をふくんでいないので,特訓により期待される 平均 μ は,学生全体の平均 62 と有意に異なり,特訓に効果が認められたといえる.

問題4

以下の事項を簡単に説明せよ

問1 サンプリング

母集団の特徴を調べるときに,コストなどの面で全数調査が難しいときがある.このような場合,母集団の 一部の成員を選び,選ばれた個体の特徴を調べる.これをサンプリング(標本抽出)という.このとき, 選ばれた個体に偏りが出ないように,ランダムサンプリング(無作為抽出)を行うことが重要である.

問2 メディアン

中央値ともいう.数量で表現されるデータが得られたとき,データを大きさの順に並べて,その中位に位置した データの値.データが奇数個の場合はちょうど中位のデータの値であり,偶数個の場合は,データを大きさで半分 に分け,値の小さなグループの最大値と値の大きなグループの最小値との平均値とする.
 平均と同様データ分布の位置情報を代表するが,所得分布のようにデータ分布が左右に歪んでいるときは, 平均よりメディアンの方が分布の実体をより代表していると言える.

問3 有意水準

標本に対して統計的検定を行い判断を下したとき,2種類の過誤(間違い)がある. 第1種の過誤と呼ばれているのは,帰無仮説が真の(正しい)とき誤って帰無仮説を棄却することであり, 第2種の過誤は,帰無仮説が偽の(間違っている)とき誤って帰無仮説を受諾することである.
 統計的検定において,第1種の過誤の確率を有意水準といい,これを制御して検定方式を組み立てている. 有意水準には,通常,5%や 1%がよく用いられる.

6.比率に関する検定

 製品の不良率,政権への支持率,テレビ視聴率などの比率に関する統計的推論を取り扱う. 比率に関して基礎となる二項分布を学び,それを正規分布に近似して統計的推論を行うことを学ぶ.

6-1.二項分布

 成功確率 p の事象を n 回試行したときの成功回数 r の分布
r 〜 B(n, p) と書く.
 成功回数が r となる確率 Pr[r ] は,n 回の試行で r 回成功する 場合の数が nCr 通りで,r 回成功し n−r 回失敗するので,

Pr[r ] = nCr pr (1−p)n−r

となる.

例題

A 選手は 3 割バッターである.ある試合で 5 回打席に立ったときときのヒット数の分布を求める.
この場合,p=0.3,n=5である.

 これより,ヒット数の分布は以下の表のように書ける.

  ヒット数      0       1       2       3       4       5   
確 率       0.16807          0.36015          0.3087          0.1323       0.02835       0.00243   

一般に,二項分布などの離散確率分布は,取ることができる値 xi ごとに,その値をとる 確率 pi,Σ pi = 1, が定義されている.つまり,

  x1     x2     …     xn  
  確 率     p1   p2   …   pn

の形で表現される.このとき,確率分布の平均と分散は,
平均: x- = x1p1 + x2p2 + … + xnpn = Σixipi
分散: s2 = (x1 - x-)2p1 + (x1 - x-)2p1 + … + (xn - x-)2pn = Σi(xi - x-)2pi
と定義される.

 これより,ヒット数の平均と分散は,

平均: x- = 0*0.16807 + 1*0.36015 + 2*0.3087 + 3*0.1323 + 4*0.02805 + 5*0.00243 = 1.5
分散: s2 = (0−1.5)2*0.16807+(1−1.5)2*0.36015 +(2−1.5)2*0.3087
+ (3−1.5)2*0.1323+(4−1.5)2*0.02805 +(5−1.5)2*0.00243 = 1.05

と計算される.実は,成功確率 p の事象を n 回行ったときの二項分布 B(n,p) の平均と分散は,
平均: x- = np = 5*0.3 = 1.5, 分散: s2 = np(1 - p) = 5*0.3*0.7 = 1.05
となることがわかる.
Copyright (C) 2008, Hiroshi Omori. 最終更新:2008年 9月17日