女児数    |    0 |    1 |    2 |    3 |    4 |    5 |    6 |
---|---|---|---|---|---|---|---|
度数 |    7    |    45    |    181    |    478    |    829    |    1112    |    1343    |
   女児数    |    7 |    8 |    9 |    10 |    11 |    12 |    合計 |
度数 |    1033    |    670    |    286    |    104    |    24    |    3    | 6115    |
ヒント:サイコロでは 5 か 6 の目が出る確率は p0 = 1/3 と考えたが, このデータでは男か女なので p0 = 1/2 である.
注)推定精度は,推定値の平均 mv や標準偏差(標準誤差)sd を求め,そこから正規近似により,未知 母数 θ の 95 %信頼区間(Wald 信頼区間)として,
ヒント:m = 50,k = 50 のときは,
> m <- 50 # 標識をつけた数 > n <- 450 # 標識をつけられていない数 > k <- 50 # 再捕獲数 > x <- rhyper(1000, m, n, k) # 超幾何分布に従う乱数1000抽出 > estimate <- k * m / x # 個体数推定値列ベクトル > table(estimate) #推定値の階級分け estimate 192.307692307692 208.333333333333 227.272727272727 250 1 2 5 7 277.777777777778 312.5 357.142857142857 416.666666666667 26 59 110 187 500 625 833.333333333333 1250 193 182 137 58 2500 Inf 30 3 > quantile(estimate, c(0.05, 0.1, 0.5, 0.9, 0.95)) # 分位点(パーセンタイル) 5% 10% 50% 90% 95% 312.5000 352.6786 500.0000 833.3333 1250.0000
となり,真値は 500頭なのに推定頭数が無限大(Inf)になったケースが 3回あった.無限大に 発散するケースは少ないほどよい.また,推定値分布の分位点から全体のケースのうちの 90%が 312.5 から 1250までの間に含まれていた.この区間の幅が短いほど推定精度がよいことになる.
たとえば,m = 30,k = 70 のときは,
> m <- 30 # 標識をつけた数 > n <- 470 # 標識をつけられていない数 > k <- 70 # 再捕獲数 > x <- rhyper(1000, m, n, k) # 超幾何分布に従う乱数1000抽出 > estimate <- k * m / x # 個体数推定値列ベクトル > table(estimate) #推定値の階級分け estimate 190.909090909091 210 233.333333333333 262.5 1 4 7 30 300 350 420 525 71 129 168 208 700 1050 2100 Inf 187 137 48 10 > quantile(estimate, c(0.05, 0.1, 0.5, 0.9, 0.95)) # 分位点(パーセンタイル) 5% 10% 50% 90% 95% 300 300 525 1050 2100となり,推定値が無限大に発散したケースは 10回で先ほどより増えた.また, 推定値の 90%区間は,300から2100で,これも先ほどより幅が長くなった.これより, この組み合わせはよくないことがわかる.
上のデータをポアソン分布と負の二項分布にあてはめ,どちらの分布のあてはまりがよいか
考察せよ.ただし,'5 以上'は 5 とみなすとする.(正確ではない.)
ヒント:ポアソン分布へのあてはめは,上の死亡記事件数の例と同じである.
負の二項分布へのあてはめは,データの平均と分散が負の二項分布の平均と分散と等しいと考えることにより,
負の二項分布のパラメータの推定ができる.これをモーメント法による分布パラメータの推定という.
なお,負の二項分布の確率密度は dnbinom(x, n, p) で与えられる.
すなわち,データの平均が m,分散が v であったとする.負の二項分布の平均は n(1 - p)/p, 分散は n(1 - p)/p2 であるので,これらを等しいとおいた連立方程式,
を解けば負の二項分布のパラメータ n,p の値が m,v で表せる.
夏作物では周辺部分は,隣接個体が少ないことから競合が少なく,また受光や風通し
がよくなったりして圃場内部の個体より生育条件が有利になることがある.これを周辺効果 (border effect) という.
周辺効果の影響を避けるため,圃場実験では周囲の1〜2畦や4〜5株のデータは解析から外すことが多い.
ここで取り上げたデータは,畦1が西側,1行目が北側境界であった.
周辺効果の有無を確認してみよう.これは、データの行平均、列平均を求め境界に近い部位が他の部位より大きいかを比較検討すればよい.
特定した周辺部分のデータを除いたときの、
平均、標準偏差、25%分位点、メディアン、75%分位点を求めよ.
また、このデータを正規分布にあてはめ,あてはまりの変化を考察せよ.
また,この栽培試験では 2 粒撒きであったが,NA のデータ欠損は何らかの個体の異常により、発芽しなかったか生育途中で枯死したものである.従って,異常に発育の悪い個体は、その個体自体に何らかの問題が
あったため発育不良になったものと考えられる.このため,正常に生育した個体の平均値
を知るためには極端に生育の悪い個体を取り除く必要がある.極端に生育悪い個体(たとえば20以下)を取り除くと,平均、標準偏差、25%分位点、メディアン、75%分位点
はどうなるか.さらに、正規分布へのあてはめはどうなるか.
ヒント:
# 周辺部分の削除として、たとえば、 1 - 4 行目と 1 - 2 列のデータ以外を使うときは daizu2 <- as.vector(daizu.mat[-(1:4), -(1:2)]) # とすればよい. # また,異常に生育の悪い個体を除く(普通のを残す)には, daizu3 <- daizu2[daizu2>20] # のようにすればよい.