統計学の基礎

２. 質的データと量的データ

３. データのまとめ方

４. 量的データの代表値

2-1. 変数

2-2. 測定

3-1．データ表

3-2．質的データ

3-3．量的データ

4-1．データと統計量

4-2．データの中心的な位置を表す統計量

設問

質的変数

量的変数

設問

度数分布表

設問

（標本）平均：x^-

中央値（メディアン）

最頻値（モード）

2009.4.23

東京国際大学

テーマパークの利用状況に対する先週の回答結果

　表にしてまとめると，テーマパーク個別にみるよりは，利用度の違いがわかりやすくなる．
　さらに，下図のようにグラフにするとより分かりやすい．

　回答者総数に違いがあるのでグラフがでこぼこして見にくい．そこで百分率にすると，利用度分布がわかり，テーマパークによる利用度の違いがより明瞭になる．
　

　上図をみると，ディズニーランドはリピーターの割合が40％もあり，学生に非常に支持されている．また，ディズニーランドに興味がない学生もあまりいないことがわかる．
　これに対し，シーパラダイスは，ここから遠いせいもあるかも知れないが，リピーターの割合が非常に少なく，一度行けば十分と思われているようだ．
　一方，ドームシティとナンジャタウンの利用度分布は似ていて，一部にコアな利用者がいるが，かなりの学生からは無視されているようだ．

　テーマパークの利用度調査データのまとめ方についての意見や感想を掲示板に投稿せよ．

問５の先週の回答結果

選択肢	１	２	３	４	５	計
回答者数	6	9	8	5	8	36

先週の投稿例

学び残しがあるまま大学生になっているというのには賛同しますが，中学から学びなおす高校もあるくらいだから追いつかないでしょう．
本当に調べたいならば全ての大学から，成績上位層中堅層下位層から選んだうえで試験させるべきです．
39.8という数値が漢字検定でのみの数値であることにも不信感があります．
無作為という手段に問題があります．たまたま苦手な方ばかりだったのかも知れません．偏りがちな手法です．
何故簡単な漢字を平仮名にすることがあるのかと普通に暮らしていて思います．読めないだろから平仮名にするのでは悪循環を産んでいます．
共同通信社の主張には納得がいきません．漢字は学ぶものでなく日常で覚えるもの．社会側の読ませるという努力が足らないのだと思います．
漢字が苦手だと決めつけすぎてしまっているかもしれないが携帯ばかり使ってるのでは主張に納得するかも知れない．
携帯やパソコンで簡単に変換できちゃうから書く能力が落ちているんじゃないか．
自分は漢字書けないし読めないので（共同通信社の主張は）否めない．
無作為抽出だからこそ平均値が出て説得力があると考える．
大学のレベル別に同じ人数で，漢字検定２級を受けてもらう．
中学生と高校生等みんな同じ試験内容にすべき．そこで統計を取った方がいい．

　統計学で取り扱う値は，変数という考え方で分類できる．

順序なしカテゴリー：性別（男女），職業（公務員，会社員，学生，主婦，無職など）
順位的変数：成績（優，良，可，不可），嗜好（好き，嫌い），選考（はい，どちらでもない，いいえ）

離散的（自然数）：世帯数，交通事故数（場合の数がそれほど多くない）
連続的（実数）：長さ，身長，重さ，売り上げ（連続的とみなせる）

　対象に何らかの標識を与える操作（尺度化）．データを取ること．

名義尺度：対象をカテゴリーに分ける（順序なしの質的変数に割り付けること）
順序尺度：対象を順序つきのカテゴリー（順位変数）に分けること．
間隔尺度：年次，温度（セ氏）など．数値間の差（引き算）に意味がある．
比例尺度： 0が存在する（意味がある）．質量（重さ），長さ，価格，絶対温度．
引き算ばかりでなく，比例（割り算）にも意味がある．

　収集されたデータは，以下のようにまとめられる．各列が変数を表し，各行が調査や実験対象である標本（サンプル）を表す．

データ表の例（甘いもの，辛いものは，好き１，嫌い５の５段階評価）
標本個体性別年齢(才) 身長(cm) 体重(kg) 甘いもの辛いもの
サンプル１男 23 172 65 2 3
サンプル２男 18 180 76 5 5
サンプル３女 20 160 52 5 1
サンプル４男 20 169 60 4 4
サンプル５女 22 158 49 1 1
サンプル６女 19 163 60 5 1
：：：：：：：

データ表の例（甘いもの，辛いものは，好き１，嫌い５の５段階評価）
標本個体	性別	年齢(才)	身長(cm)	体重(kg)	甘いもの	辛いもの
サンプル１	男	23	172	65	2	3
サンプル２	男	18	180	76	5	5
サンプル３	女	20	160	52	5	1
サンプル４	男	20	169	60	4	4
サンプル５	女	22	158	49	1	1
サンプル６	女	19	163	60	5	1
：	：	：	：	：	：	：

上のデータ例で，変数「甘いもの」は以下のどの尺度に該当すると思うか．以下から選び，選択肢回答テスト第１問に携帯から送信せよ．

　１．名義尺度　　

　２．順序尺度　　

　３．間隔尺度　　

　４．比例尺度　　

　カテゴリーごとにサンプル数を集計する．（先週の集計結果）

　階級ごとにデータを分類して階級ごとの頻度を計算．結果をヒストグラムで表示．

あるクラスの英語得点データ

36, 70, 56, 68, 76, 60, 50, 63, 62, 42, 64, 60, 50, 68, 71, 67, 50, 65, 67, 57,
72, 64, 61, 66, 46, 80, 46, 51, 59, 32, 55, 65, 65, 52, 57, 64, 23, 57, 53, 54,
38, 71, 57, 69, 77, 61, 51, 64, 63, 43, 65, 61, 51, 69, 72, 68, 53, 66, 68, 58,
73, 65, 62, 67, 47, 81, 47, 52, 59, 33, 56, 66, 67, 52, 58, 65, 24, 58, 54, 55

階級幅を20にして度数分布表を作成
得点 0 - 20 21 - 40 41 - 60 61 - 80 81 - 100
人数 0 6 34 39 1

階級幅を20にして度数分布表を作成
得点	0 - 20	21 - 40	41 - 60	61 - 80	81 - 100
人数	0	6	34	39	1

階級幅を変えてヒストグラムを書いてみると，

上のグラフの中で，どれが一番見やすいと思うか．以下から選び，選択肢回答テスト第２問に携帯から送信せよ．: 　
上の回答の理由を掲示板に投稿せよ．

データ数（サンプルサイズ）：n
データ値：x₁，x₂，…，x_n
英語得点データでは，n = 80
統計量：データから計算される値

例題１: A さんの 5 教科のテスト得点は，国語 65 点，数学 30 点，英語 50 点，社会 55 点，理科 35 点であった．平均得点を求めよ．; 　; 解答例：x^- = (65＋30＋50＋55＋35)/5 = 235／5 ＝ 47，－＞答：47点

　データの真ん中の値－＞奇数：ちょうど真ん中，偶数：真ん中に最も近い２値の平均．

例題２: A さんのテスト得点の中央値を求めよ．; 　; 解答例：得点を小さい順に並べると，30，35，50，55，65，である．真ん中は50．－＞答：50点
注）国，数，英，社の4教科のメディアンは，小さい順に並べて，30，50，55，65，となる．真ん中の値がないので，その両側の値50と55の平均値52.5とする．

問１：東京ディズニーランド

問２：東京ドームシティ

問３：八景島シーパラダイス

問４：ナムコ・ナンジャタウン

　ヒストグラムの山（最も頻度の高い階級）
　英語得点の５点階級幅ヒストグラムでは61－65点がモードである．