2011.5.09

携帯解答サイト: http://lbm.ab.a.u-tokyo.ac.jp/~omori/k/

4-3.データのちらばりの程度を表す統計量

いま,2つの重量データ,X = (5, 6, 8, 9)kg と Y = (12, 4, 10, 2)kg があったとする.X の標本平均 \bar{X} と Y の標本平均 \bar{Y} を計算してみると,

\bar{X} =\frac{1}{4}(5+6+8+9)=\frac{28}{4} = 7{\rm kg}, \ \bar{Y} = \frac{1}{4}(12+4+10+2)=\frac{28}{4}=7{\rm kg} 

となりどちらも同じである.XY の違いをみると,X の方が Y よりもデータが平均値 7 に近い値をとっている,つまり,X の方が Y より個々のデータがより近い値を取っていることがわかる.これを表現する概念としてデータのちらばりがある.X の方が Y よりちらばりが小さい.これを表す値として分散や標準偏差がある.

標本分散: s2

s^2 = \frac{1}{n-1} \{ (x_1 - \bar{x})^2 + (x_2 -\bar{x})^2 + \cdots + (x_n-\bar{x})^2 \} = \frac{1}{n-1} \sum_i(x_i-\bar{x})^2

n - 1:標本分散の自由度.データ数は n で,データ全体では n の自由度(値が自由に変われるデータの個数)を持つが,標本分散を計算するときに標本平均 \bar{x} が固定されるので,自由度が 1 つ減って n - 1 となった.

(標本)標準偏差(SD, Standard Deviation): s

標本分散の平方根.平均と同じ単位で,データのちらばりの程度を表す.
重量データ X kg の分散と標準偏差を求めてみよう.
標本分散:

s^2_X = \frac{1}{4-1}\{(5-7)^2 + (6-7)^2 + (8-7)^2 +(9-7)^2 \} = \frac{1}{3}\{(-2)^2 +(-1)^2 +1^2 +2^2 \}=

\frac{1}{3}(4+1+1+4)=\frac{10}{3}=3.33 \ {\rm kg}^2 

標本標準偏差:{\rm SD}_X = s_X = \sqrt{10/3} = 1.83 \ {\rm kg}
標本分散 s2 はデータの2乗を計算するので 3.33 kg2 と単位も kg の2乗となり標本平均と直接計算することはできないが,標準偏差 SD は 1.83 kg と標本平均 7 kg と 同じ単位をもつので直接計算することができる.すなわち,データの多くの部分が含まれる範囲を,

標本平均 ± 標準偏差= \bar{X} \pm {\rm SD}_X = 7 \pm 1.83 kg

と表すことができる.
 ところで,標本分散は以下のように表でまとめると計算しやすい(と思う).

X の分散(平均 7)
データ     5       6       8       9   平方和  
偏差 -2 -1 1 2  
偏差平方 4 1 1 4 10
標本分散:s2X = 10/3 = 3.33
標準偏差:SDX = \sqrt{3.33} = 1.83
       
Y の分散(平均 7)
データ     12       4       10       2   平方和  
偏差 5 -3 3 -5  
偏差平方 25 9 9 25 68
標本分散:s2Y = 68/3 = 22.7
標準偏差:SDY = \sqrt{22.7} = 4.76

これより,

\bar{X} \pm {\rm SD}_X = 7 \pm 1.83 = 5.17 \sim 8.83 {\rm kg}  \\

\bar{Y} \pm {\rm SD}_Y = 7 \pm 4.76 = 2.24 \sim 11.76 {\rm kg}
となり,X より Y の方が値の範囲が広いことが標準偏差の値で示される.

Copyright (C) 2010, Hiroshi Omori. 最終更新:2011年 5月08日