統計学の基礎(9.25)

2008.7.17

前期試験の解説

標準正規分布累積確率表
z の値 0.0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1.0

累積確率 0.500 0.540 0.579 0.618 0.655 0.691 0.726 0.758 0.788 0.816 0.841

1.1 1.2 1.3 1.4 1.5 1.6 1.64 1.7 1.8 1.9 1.96 2.0 2.58 3.0

0.864 0.885 0.903 0.919 0.933 0.945 0.95 0.955 0.964 0.971 0.975 0.977 0.995 0.999

標準正規分布累積確率表
z の値	0.0	0.1	0.2	0.3	0.4	0.5	0.6	0.7	0.8	0.9	1.0
累積確率	0.500	0.540	0.579	0.618	0.655	0.691	0.726	0.758	0.788	0.816	0.841
1.1	1.2	1.3	1.4	1.5	1.6	1.64	1.7	1.8	1.9	1.96	2.0	2.58	3.0
0.864	0.885	0.903	0.919	0.933	0.945	0.95	0.955	0.964	0.971	0.975	0.977	0.995	0.999

問題１

あるクラスの漢字テスト成績の一部は，

74，53，68，60，62，55，70，62

であった．このデータの標本平均と標本標準偏差を求めよ．

データ数：n = 8
標本平均：x^- = (74 + 53 + 68 + 60 + 62 + 55 + 70 + 62)/8 = 504/8 = 63

上の計算表より，標本分散：s² = 370/7 = 52.86．標本標準偏差：s = √52.86 = 7.27

問題２

ある大学での 900 名による英語テストの平均は 62 点，標準偏差が 7.5 点であった．A 君の得点は 74 点であった．成績分布が正規分布に従っているとすると， A 君より成績のよい学生は何名ぐらいいるか．

標準化得点： z = (x - μ)/σ = (74 - 62)/7.5 = 1.6
表から z > 1.6 となる確率： Pr[ z > 1.6 ] = 1 - Pr[ z < 1.6 ] = 1 - 0.945 = 0.055
A 君より成績がよいのは学生の 0.055（5.5％）： 900 × 0.055 = 49.5，約 49 ～ 50 名

問題３

問題２の大学（平均 62 点，標準偏差 7.5 点の正規分布）において，実は特別の英語特訓を適当に選んだ 16 名に対して行っていた．特訓を受けた学生の平均得点は 66 点であった．

問１　特訓を受けた学生英語得点の母平均の95％信頼区間を求めよ．

　大学の学生全体が特訓を受けたとした場合の英語得点を μ とする．標準偏差は特訓の有無にかかわらず σ = 7.5 と考える．そこからランダムにサンプリングした n = 16 名の平均得点が x^- = 66 であった．
　学生個人の得点 x_i の標準偏差が σ なので，平均得点 x^- の標準偏差（標準誤差）は，σ/√n = 7.5/√16 = 1.875 である．
　これより母平均 μ の信頼区間は，

x^- - 1.96 × σ/√n ＜ μ ＜ x^- + 1.96 × σ/√n
66 - 1.96 × 1.875 ＜ μ ＜ 66 + 1.96 × 1.875
66 - 3.675 ＜ μ ＜ 66 + 3.675
62.325 ＜ μ ＜ 69.675

である．

問２　英語特訓に効果がないという帰無仮説の検定を行え．

　英語特訓に効果がないときは，特訓した場合考えられる母平均 μ が，現在の平均得点 62 点と変わりがないと考えられる．これより，

帰無仮説　H₀：μ = 62（英語特訓に効果なし）

となる．帰無仮説のもとで，特訓を受けた学生の平均得点 x^- は，平均 62 標準偏差 σ/√n の正規分布に従う，すなわち，

x^- ～ N（62，σ/√n）

のでこれを標準化した z は，

z = (x^- - 62)/(σ/√n) = √n(x^- - 62)/σ ～ N（0，1）

と標準正規分布に従う．標準正規分布表から検定ができる．
　検定統計量 |z| は，

|z| = √n|x^- - 62|/σ = √16 | 66 - 62 |/7.5 = 16/7.5 = 2.13

2.13 は標準正規分布の 97.5％点（有意水準両側 5％）の 1.96 よりは大きく， 99.9％点（有意水準両側 1％）の 2.58 よりは小さい．よって，5％有意である．

問３　検定結果などから，英語特訓に効果があったかどうかを考察せよ．

　検定は，有意水準 5％で，特訓に効果がないという帰無仮説を棄却した．これより，英語特訓に効果があることが統計的に確かめられた．
　一方，問１の母平均 μ の 95％信頼区間が学生全体の平均 62 点をふくんでいないので，特訓により期待される平均 μ は，学生全体の平均 62 と有意に異なり，特訓に効果が認められたといえる．

問題４

以下の事項を簡単に説明せよ

問１　サンプリング

母集団の特徴を調べるときに，コストなどの面で全数調査が難しいときがある．このような場合，母集団の一部の成員を選び，選ばれた個体の特徴を調べる．これをサンプリング（標本抽出）という．このとき，選ばれた個体に偏りが出ないように，ランダムサンプリング（無作為抽出）を行うことが重要である．

問２　メディアン

中央値ともいう．数量で表現されるデータが得られたとき，データを大きさの順に並べて，その中位に位置したデータの値．データが奇数個の場合はちょうど中位のデータの値であり，偶数個の場合は，データを大きさで半分に分け，値の小さなグループの最大値と値の大きなグループの最小値との平均値とする．
　平均と同様データ分布の位置情報を代表するが，所得分布のようにデータ分布が左右に歪んでいるときは，平均よりメディアンの方が分布の実体をより代表していると言える．

問３　有意水準

標本に対して統計的検定を行い判断を下したとき，２種類の過誤（間違い）がある．第１種の過誤と呼ばれているのは，帰無仮説が真の（正しい）とき誤って帰無仮説を棄却することであり，第２種の過誤は，帰無仮説が偽の（間違っている）とき誤って帰無仮説を受諾することである．
　統計的検定において，第１種の過誤の確率を有意水準といい，これを制御して検定方式を組み立てている．有意水準には，通常，5％や 1％がよく用いられる．

６．比率に関する検定

　製品の不良率，政権への支持率，テレビ視聴率などの比率に関する統計的推論を取り扱う．比率に関して基礎となる二項分布を学び，それを正規分布に近似して統計的推論を行うことを学ぶ．

6-1．二項分布

　成功確率 p の事象を n 回試行したときの成功回数 r の分布
r ～ B(n, p) と書く．
　成功回数が r となる確率 Pr[r ] は，n 回の試行で r 回成功する場合の数が _nC_r 通りで，r 回成功し n－r 回失敗するので，

Pr[r ] ＝ _nC_r p^r (1－p)^n－r

となる．

例題

A 選手は 3 割バッターである．ある試合で 5 回打席に立ったときときのヒット数の分布を求める．
この場合，p＝0.3，n＝5である．

5打数ノーヒットの確率：Pr[0]
ヒットが出ない確率は，1－0.3＝0.7なので，求める確率は，Pr[0] ＝ 0.7⁵ ＝ 0.16807
5打数1安打の確率：Pr[1]＝₅C₁ p(1－p)⁴ ＝5×0.3×0.7⁴＝1.5×0.2401＝0.36015
5打数2安打の確率：Pr[2]
解答：Pr[2]＝₅C₂ p²(1－p)³ ＝ (5*4)/(2*1)×0.3²×0.7³＝ 0.3087
5打数3安打の確率：Pr[3]＝₅C₃ p³(1－p)² ＝(5*4*3)/(3*2*1)×0.3³×0.7²＝10×0.027×0.49＝0.1323
5打数4安打の確率：Pr[4]＝₅C₄ p⁴(1－p) ＝5×0.3⁴×0.7＝3.5×0.0081＝0.02835
5打数5安打の確率：Pr[5]＝p⁵＝0.3⁵＝0.00243

　これより，ヒット数の分布は以下の表のように書ける．

ヒット数 0 1 2 3 4 5

確　率 0.16807 0.36015 0.3087 0.1323 0.02835 0.00243

ヒット数	0	1	2	3	4	5
確　率	0.16807	0.36015	0.3087	0.1323	0.02835	0.00243

一般に，二項分布などの離散確率分布は，取ることができる値 x_i ごとに，その値をとる確率 p_i，Σ p_i ＝ 1，が定義されている．つまり，

値 x₁ x₂ … x_n

確　率 p₁ p₂ … p_n

値	x₁	x₂	…	x_n
確　率	p₁	p₂	…	p_n

の形で表現される．このとき，確率分布の平均と分散は，

平均： x^- = x₁p₁ + x₂p₂ + … + x_np_n = Σ_ix_ip_i
分散: s² = (x₁ - x^-)²p₁ + (x₁ - x^-)²p₁ + … + (x_n - x^-)²p_n = Σ_i(x_i - x^-)²p_i

と定義される．

　これより，ヒット数の平均と分散は，

平均： x^- = 0*0.16807 ＋ 1*0.36015 ＋ 2*0.3087 ＋ 3*0.1323 ＋ 4*0.02805 ＋ 5*0.00243 = 1.5
分散： s² = (0－1.5)²*0.16807＋(1－1.5)²*0.36015 ＋(2－1.5)²*0.3087
＋ (3－1.5)²*0.1323＋(4－1.5)²*0.02805 ＋(5－1.5)²*0.00243 = 1.05

と計算される．実は，成功確率 p の事象を n 回行ったときの二項分布 B(n，p) の平均と分散は，

平均： x^- = np = 5*0.3 = 1.5，分散： s² = np(1 - p) = 5*0.3*0.7 = 1.05

となることがわかる．

2008.7.17

前期試験の解説

問題１

問題２

問題３

問１ 特訓を受けた学生英語得点の母平均の95％信頼区間を求めよ．

問２ 英語特訓に効果がないという帰無仮説の検定を行え．

問３ 検定結果などから，英語特訓に効果があったかどうかを考察せよ．

問題４

問１ サンプリング

問２ メディアン

問３ 有意水準