2009.4.23

東京国際大学

統計学の基礎


テーマパークの利用状況に対する先週の回答結果
選択肢   1    2     3    4     5    計  
問1:東京ディズニーランド  39 36  11 1  7 94
問2:東京ドームシティ  7  16  20 7  35 85
問3:八景島シーパラダイス  1  9  24 18  27 79
問4:ナムコ・ナンジャタウン  9  14  18 11  25 77
 表にしてまとめると,テーマパーク個別にみるよりは,利用度の違いがわかりやすくなる.
 さらに,下図のようにグラフにするとより分かりやすい.
 回答者総数に違いがあるのでグラフがでこぼこして見にくい.そこで百分率にすると,利用度 分布がわかり,テーマパークによる利用度の違いがより明瞭になる.
 
 上図をみると,ディズニーランドはリピーターの割合が40%もあり,学生に非常に支持されている. また,ディズニーランドに興味がない学生もあまりいないことがわかる.
 これに対し,シーパラダイスは,ここから遠いせいもあるかも知れないが,リピーターの割合が非常に少なく, 一度行けば十分と思われているようだ.
 一方,ドームシティとナンジャタウンの利用度分布は似ていて,一部にコアな利用者がいるが,かなりの 学生からは無視されているようだ.

設問

 テーマパークの利用度調査データのまとめ方についての意見や感想を掲示板に投稿せよ.
問5の先週の回答結果
選択肢   1    2     3    4     5    計  
回答者数  6  9  8 5  8 36
 
先週の投稿例
 

2. 質的データと量的データ

 統計学で取り扱う値は,変数という考え方で分類できる.

2-1. 変数

質的変数

量的変数

2-2. 測定

 対象に何らかの標識を与える操作(尺度化).データを取ること.

3. データのまとめ方

3-1.データ表

 収集されたデータは,以下のようにまとめられる.各列が変数を表し,各行が調査や実験対象である標本(サンプル) を表す.

データ表の例(甘いもの,辛いものは,好き1,嫌い5の5段階評価)
標本個体性別年齢(才)身長(cm)体重(kg)甘いもの辛いもの
サンプル123172 6523
サンプル218180 7655
サンプル320160 5251
サンプル420169 6044
サンプル522158 4911
サンプル619163 6051

設問

上のデータ例で,変数「甘いもの」は以下のどの尺度に該当すると思うか. 以下から選び, 選択肢回答テスト第1問に携帯から送信せよ.
 1.名義尺度    2.順序尺度    3.間隔尺度    4.比例尺度  

3-2.質的データ

 カテゴリーごとにサンプル数を集計する.(先週の集計結果)

3-3.量的データ

度数分布表

 階級ごとにデータを分類して階級ごとの頻度を計算.結果をヒストグラムで表示.
あるクラスの英語得点データ
36, 70, 56, 68, 76, 60, 50, 63, 62, 42, 64, 60, 50, 68, 71, 67, 50, 65, 67, 57,
72, 64, 61, 66, 46, 80, 46, 51, 59, 32, 55, 65, 65, 52, 57, 64, 23, 57, 53, 54,
38, 71, 57, 69, 77, 61, 51, 64, 63, 43, 65, 61, 51, 69, 72, 68, 53, 66, 68, 58,
73, 65, 62, 67, 47, 81, 47, 52, 59, 33, 56, 66, 67, 52, 58, 65, 24, 58, 54, 55

階級幅を20にして度数分布表を作成
得点0 - 2021 - 4041 - 6061 - 8081 - 100
人数0634 391

階級幅を変えてヒストグラムを書いてみると,
eigo1 eigo2
eigo3 eigo4

設問

上のグラフの中で,どれが一番見やすいと思うか.以下から選び, 選択肢回答テスト第2問に携帯から送信せよ.
 1.階級幅 = 20    2.階級幅 = 10    3.階級幅 = 5    4.階級幅 = 2    5.どれも同じ  
 
上の回答の理由を掲示板に投稿せよ.

4. 量的データの代表値

4-1.データと統計量

データ数(サンプルサイズ):n
データ値:x1x2,…,xn
英語得点データでは,n = 80
統計量:データから計算される値

4-2.データの中心的な位置を表す統計量

(標本)平均:x-

例題1
A さんの 5 教科のテスト得点は,国語 65 点,数学 30 点,英語 50 点, 社会 55 点,理科 35 点であった.平均得点を求めよ.
 
解答例:x- = (65+30+50+55+35)/5 = 235/5 = 47,−>答:47点

中央値(メディアン)

 データの真ん中の値 −> 奇数:ちょうど真ん中,偶数:真ん中に最も近い2値の平均.
例題2
A さんのテスト得点の中央値を求めよ.
 
解答例:得点を小さい順に並べると,30,35,50,55,65,である.真ん中は50.−>答:50点
注)国,数,英,社の4教科のメディアンは,小さい順に並べて,30,50,55,65,となる. 真ん中の値がないので,その両側の値50と55の平均値52.5とする.

最頻値(モード)

 ヒストグラムの山(最も頻度の高い階級)
 英語得点の5点階級幅ヒストグラムでは61−65点がモードである.
Copyright (C) 2008, Hiroshi Omori. 最終更新:2009年 4月23日