統計学 第 17 回 講義 母平均の区間推定 Part- 016 年 6 14 ( )3 限 担当教員 : 唐渡 広志 ( からと こうじ ) 研究室 : 経済学研究棟 4 階 43 号室 email: kkarato@eco.u toyama.ac.jp website: http://www3.u toyama.ac.jp/kkarato/ 1
講義の目的 標本平均は正規分布に従うという性質を いて, 集団の平均を推定する 法を理解する 質的データ (0-1 型変数 ) の平均である標本 率から, 率の区間推定を う 法について理解する 推定誤差と調査に必要なサンプルサイズについて理解する 分散 ( 標準偏差 ) が未知の場合の区間推定の 法について理解する keywords: 中 極限定理, 信頼区間, 推定誤差,t 分布, 率の区間推定 参考書 砂 pp.17 148 居 pp.145 17 屋 pp.171 19
復習 二項分布と正規分布 (1) 試行回数が また, 互いに独立な 二項分布 i 1の二項分布 B1, pにしたがう互いに独立な 個の確率変数の和 B, pに等しい 個の確率変数の平均 1 の分布は,, pにしたがう確率変数 を で割った値 の分布に等しい の分布は, 二項分布 B ただし, ~ B, p p, V p p E 1 E V 1 E 1 V 1 p p 1 p1 p p 1 p p 1 ~ N p, p 中 極限定理の考え より, 成功 率 ()/ は正規分布に近づく 3
復習 二項分布と正規分布 () は何を意味するか? : 成功回数を示す確率変数 : 試行回数 成功する割合 ( 率 ) を す確率変数 例. サイコロを 60 回投げて 6 が x 回出る割合の分布 確率 0.00 0.04 0.08 0.1 60 ~ N 1 6, 1 6 60 5 6 で近似できる 0.0 0.1 0. 0.3 0.4 実現値 4
例 1 コインを 50 回投げて表が出る回数の割合の分布はどのような分布に近似できるか? 50 50 : 50 回投げて表が出る回数の割合 ( 比率 ) p 1 p ~ N p, 50 の平均値 50 50 ~ 0.5 0.5 N0.5, 50 コインを 50 回投げて表が出る回数の割合の分布は, 平均 0.5, 分散 0.5 0.5/50 の正規分布に近似できる 5
例 6 xx に放映されたあるテレビ番組の真の視聴率 ( 本当はわからない ) が10% であるとしよう 600 世帯を対象に視聴率調査を う場合, 600 世帯中その番組を た の割合 ( 率 ) はどのような分布で近似できるか? 調査数 = 600, p = 0.1で る回数 ( 成功回数 ) の分布 B(600,0.1) 1 1 見た 0 見なかった 600 中 た 数の分布 600 B ~ 600,0.1 Pr Pr 1 1 0.1 0 0. 9 1 1 B ~ 1,0.1 p 1 p ~ N p, 600の平均値 600 600 0.1 0.9 ~ N0.1, 600 調査をすれば平均的にみて 10% ぐらいの視聴率がありそうだが, それよりも かったり, 低かったりすることもある ( 誤差がある ) しかしその平均視聴率の分布は正規分布に近似させて考えることができる 6
視聴率 () / の分布 60 60 ~ 0.1 0.9 N0.1, 600 確率 0.00 0.01 0.0 0.03 0.04 0.05 ±3% ぐらいまでの誤差はありうる 0.04 0.06 0.08 0.10 0.1 0.14 0.16 視聴率 真の視聴率は 10% (p = 0.1) であるが,600 世帯の標本調査では 9.4% になったり,11.6% になったりすることがある しかしながらその標本調査の結果は正規分布の実現値の つとみなすことができる 7
母比率の区間推定 (1) 真の割合 ( 母比率 ) p の分布から 人調査するときの標本比率 は p 1 p 正規分布にしたがう ~ N p, 真の割合 p のことを 集団 率 ( 率 ) とよぶ 中 極限定理の考え から標本の 率も正規分布に近似することができる 標本 率の例 例 1. A 県で通勤 通学に 家 を利 している の割合例. 5 歳 性の有配偶率 ( 結婚している の割合 ) 例 3. B 市の下 道処理普及率 ( 下 道処理されている世帯の割合 ) 例 4. 6 1 放送の 河ドラマの視聴率 ( た の割合 ) など 8
母比率の区間推定 (): 例. 視聴率 標本抽出 集団 ( ある番組を たか, なかったか ) = 1の 項分布 B(1, p) [ 平均 p, 分散 p(1-p) の分布 ] た = 1 Pr ( = 1) = p なかった =0 Pr ( = 0) = 1 p 600 世帯を調査 値変数 Pr 1 p p x 集団分布 0 1 率 p id 調査結果 i 1 た 1 なかった 0 質的データは {0, 1} の 値変数に変換して分析する 600 なかった 0 合計 i = 66 視聴世帯数 値変数の標本平均を標本比率とよぶ 平均 0.11 標本 率 視聴率 : 標本比率 100% 9
母比率の区間推定 (3): 例. 視聴率 復習 B 1, p と同じ分布 p ~ N p, 1 にしたがう互いに独立な 個の確率変数の平均値の分布は p 視聴世帯数の分布 母集団を二項分布, ~ B p で考えてみる. なかった ( 失敗 ) 1 p p た ( 成功 ) 1 p 0 p 1 0 1 0 1 1 世帯 世帯 600 世帯 10
母比率の区間推定 (4): 例. 視聴率 標本平均 ( 標本 率 ) の分布は正規分布で近似できる p1 p p ~ N p, を標準化すると: Z ~ N p1 p 標準正規分布における95% の範囲 0,1 Pr 1.96 p p 1 p 1.96 ( 不等式を整理 ) 1.96 0.95 p 1 p p1 p p 1.96 ここで, p は p に一致する 1 p 1 をに置き換えることができる が十分に大きいとき, ( 詳細は補助資料を参照 ) 率 p の 95% 信頼区間 1.96 1 1 p 1.96 11
例題 1 視聴率 例.V 社が 600 世帯を対象に, あるテレビ番組の視聴世帯数を調べたところ 66 世帯が ていたことがわかった 真の視聴率 ( 視聴世帯の 率 ) を信頼係数 95% のもとで区間推定しなさい サイズ: 600 66 標本比率 視聴率 : 0.11 600 標準正規分布の.5% 臨界値 1.96 95% 信頼区間 Pr a p b 0. 95 下側信頼限界 : a 1.96 1 0.111.96 0.11 0.89 600 0.085 上側信頼限界 : b 1.96 1 0.11 0.89 0.111.96 0. 135 600 95% 信頼区間 : 0.085 p 0.135 1
練習問題 () 本銀 が 4000 世帯を対象に 現在のくらし向き について調査したところ 38% の世帯が ゆとりがなくなってきた と回答した ゆとりがなくなってきた 世帯の 率の 95% 信頼区間を求めなさい 13
推定誤差 1.96 1.96 標準正規分布における 95% の確率 1.96 1.96 なので, は 1. 96 の範囲で推定誤差を持つ を母平均の推定誤差とよぶ 00の母集団から 100の標本を抽出するときの の分布 の分布 00 N 0, 100 0.005 0.015 ~ 00 N, 100 0.005 0.015 測定誤差の範囲 500 550 600 650? 1.96 00 100-50 0 50 39. 1.96 00 100 39. 14
推定誤差を小さくするにはサンプルをどれだけ増やせばよいか? 推定誤差 を小さくするには 1. 96 つまり を大きくすればよい を小さくすればよい 例. 100, 00のときの推定誤差は 39. [ 万円 ] それでは, 信頼係数が0.95のとき, 推定誤差の範囲を 30[ 万円 ] 以内に するにはどれぐらいのサンプルサイズ があればよいか? 推定誤差の上限 ( 下限 ) の値 1.96 が30以下になっていればよい 30 1. 96 1.96 30 1.96 00 30 170.7 結論 信頼係数 0.95 のもとで, 推定誤差を 30 万円以内にするには, 少なくとも,171 以上のサンプルが必要 (170 だとちょっと りない ) 15
信頼係数とサンプルサイズ 信頼係数 100% サンプル サイズの決め方 のもとで, 推定誤差を : 以内に抑えるために必要な epsilo イプシロン 信頼係数 : 信頼係数 : 信頼係数 : 0.90 0.95 0.99 1.645 1.96.576 例. = 00 の 集団から標本をとるとき 推定誤差を [ 万円 ] 以下におさえるた め必要なサンプルサイズ 信頼係数 0.9 0.95 0.99 50 = 44 6 107 30 11 171 95 0 71 385 664 10 1,083 1,537,655 5 4,330 6,147 10,618 1 108,41 153,664 65,43 0.1 10,84,100 15,366,400 6,543,104 0.01 1,08,410,000 1,536,640,000,654,310,400 推定誤差を をより さくしようとすると, 追加的に必要となるサンプルサイズを 躍的に増 させる必要がある 16
練習問題 (3) ある県の 齢者の 1 のテレビ視聴時間について, 推定誤差を信頼係数 95 % のもとで 1 分以内に抑えたい 最低限必要なサンプル サイズを計算しなさい ただし, 標準偏差は = 0 [ 分 ] であることがわかっているものとする 17
例. 標本比率における推定の精度とサンプルサイズ B 新聞社の世論調査によると,A 内閣の現在の 持率は 50% であるという 信頼係数 95% のもとで, 真の内閣 持率を区間推定しなさい 信頼区間 0.7 0.6 0.5 0.4 0.3 35 1 0 0 0 0 4 0 0 1 0 0 0 上側信頼限界 下側信頼限界 推定精度と調査労 のトレードオフ 0 0 0 サンプルサイズ 下側 上側 標本比率 信頼限界信頼限界 (0.5) との差 30 0.31 0.679 0.179 50 0.361 0.639 0.139 100 0.40 0.598 0.098 00 0.431 0.569 0.069 400 0.451 0.549 0.049 1000 0.469 0.531 0.031 000 0.478 0.5 0.0 4000 0.485 0.515 0.015 6000 0.487 0.513 0.013 8000 0.489 0.511 0.011 10000 0.490 0.510 0.010 = 1,000 の誤差は約 3 % 誤差を % 以内にするには =,000 以上にサンプルを増やす必要がある また, 誤差を 1 % 以内にするには = 10,000 以上必要となる 4 0 0 0 18
母比率の推定誤差 (1) 標準正規分布における 95% の確率 p ただし は p 1.96 1 1 pを 1 で置き換えている 測定誤差を 以下に抑えるには 1.96 p 1.96 1.96 p1 p の範囲で推定誤差をもつ 1 1.96 1 視聴率調査 ( 例題 1) での推定誤差 1.96 信頼係数 95% のもとで推定誤差を 0.01( 視聴率 1% ) 以下に抑える 1 1.96 0.01 0.111 0.11 3760. 9 少なくとも 3761 世帯の調査が必要 19
標本比率の推定誤差 () 必要なサンプルサイズは 調査前 に必要な情報 1.96 1 1 0.00 0.10 0.0 0.30 標本 率がわからない状態で推定誤差を考える必要がある 1 0.0 0. 0.4 0.6 0.8 1.0 の最大値を考えることによって 高めのサンプルサイズを確保しておく 1 0. 5 0.5 のとき最大値 必要なサンプルサイズ 1.96 0.5 視聴率調査 ( 例題 1) での推定誤差 : 標本 率が未知 ( 調査前 ) 1.96 0.01 0.5 9604 0
練習問題 (4) 5 歳以上 30 歳未満の男性労働者を対象に, 現在の仕事にどのくらい満 しているかどうかを調べたい 信頼係数 95% のもとで, 仕事に満 している の割合 の推定誤差を 5% 以内に抑えるために必要なサンプルサイズを求めなさい 答え : 少なくとも =385 1
例題. 母標準偏差 ( 母分散 ) が未知の場合 C 社の5 ( 祝 を除く ) の株価変化率 [%] を1 毎に調べたところ次のデータが得られた { i } = { 3., 1.3, 1.7, 0.9, 0.3, 1.5, 1.4,.3, 3.6, 1.8, 4.1, 0.4, 1.7, 0.0, 3.0,.5, 1.3,.3, 1.9,.1,.0} 変化率の 平均や 分散は未知であるが, 集団は正規分布であると考える 平均 の 95% 信頼区間を推定しなさい 問題点 分散 ( 標準偏差 ) の値がわからない ただし, 正規分布である サンプルサイズはそれほど きくない ( = 1) 標本標準偏差 s を 標準偏差 の推定値として代 することもできる サンプル サイズが 分に きければ, 標本平均の分布を正規分布に近似して考えることができるが, さい場合には ( たとえ 集団が正規分布であったとしても ) 正規分布を利 した区間推定はできない
を s で置き換えた分布 が既知 Z ~ N 0,1 の値がわかっている場合, 正規分布で考えることができる. の分布は が未知 t s x ~ 自由度 1のt 分布 を s[ 標本標準偏差 ] で置き換えた t は, もはや N 0,1 にしたがわない t は自由度 1のt 分布と呼ばれる確率分布にしたがう 標本標準偏差 : s x i 1 由度 3
t 分布 : 標準正規分布よりも若干ばらつきが大きい分布 0.0 0.1 0. 0.3 0.4 t 分布の確率密度関数 N(0,1) 由度 4の t 分布 の分布 5 s x の分布 p 由度 1 の t 分布 s x m 1: 自由度 : ガンマ関数 -4-0 4 t 0を中 とする左右対称な分布である 由度の値によって分布の形が変わる 由度が きくなると,t 分布は標準正規分布に近づく 由度 で N(0,1) に 致 由度が さいと, 標準正規分布に べてばらつきが きくなる 4
復習 自由度とは S xx i1 自由度は 1 すなわち, i 偏差 乗和の計算には において意味のある情報の数は 1 個だけある,,,, 1 ところが, このうち 1 個まで値がわかっていれば, 残り1 個は自動的に値が決まってしまう 自由度は 1である 個の偏差が必要 1 個の偏差のうち 自由な値をとりうるのは 1 個だけ である i 0 なので 標本分散 s x 自由度 1 i は, ばらつきの指標である偏差 乗和を 1 で割った値である 5
t 分布における臨界値 : t, m 自由度 4 の t 分布 t A 05 Pr 0. p4 0.0 0.1 0. 0.3-4 - 0 4 t 自由度 10 の t 分布 A =.776 側確率 :.5% A t 0.05, 4 側確率 ( 有意 準 ).776 由度 信頼係数 95% の区間推定で利 p10 0.0 0.1 0. 0.3 0.4 B =.8 t B 05 Pr 0. B t 0.05, 10.8-4 - 0 4 t 注意. t 分布の臨界値は 由度によって異なる 6
t 分布における 95% の範囲 自由度 4のt 分布において, Pr A t A 0.95となるAの値 A t 0.05,4.776 両側 5%: 自由度 4 0.0 0.1 0. 0.3.5% -.776 95%.776.5% A -4-0 4 t0.05,4.776 A t 0.05,4.776 7
練習問題 (5) [ 1]: 自由度 7の t 分布において Pr t A 0. 05 となるAの値を求めなさい. A t 0.05, 7 [ ]: 自由度 4のt 分布においてPr B t B 0. 90 となるBの値を求めなさい. B 臨界値 8
練習問題 (6) [ 1]: 自由度 4のt 分布において, Pr t C 0. 005 となるC の値を求めなさい. C [ ]: 自由度 18のt 分布において, Pr t D 0. 975 となるDの値を求めなさい. D 9
母分散 が未知のときの母平均の区間推定 例題 ( 情報の整理 ) 母分散 が未知なので, 自由度 m 95% 信頼区間を考える Pr t0.05,0 t0.05, 0 s 1 0 の t 0.95 分布上での この式を満たす の範囲 ( 95% 信頼区間 ) は t 0.05,0 sx t0.05,0 t0.05, 0.086 より 下側信頼限界 : 上側信頼限界 : t t 0.05, 1 0.05, 1 s x s x s x.09 0.58.086 1.09 0.58.086 1 1.53 0.37 以上より95% 信頼区間は 1.53 0.37 30
練習問題 (7) ある 場が製造している腕時計 電池の寿命を調べるために,30 個だけランダムに選んで検査したところ以下の結果が得られた 過去の調査から寿命はほぼ正規分布になることがわかっている 電池の寿命の 平均を 99% 信頼係数のもとで区間推定しなさい 寿命データ = {0.65, 1.71, 1.11, 1.73, 1.35, 1.11, 1.81, 0.49, 1.4, 1.5, 1.03, 1.33, 1.19, 1.76, 1.89, 1.58, 1.1, 1.54, 1.4, 1.79, 1.5, 1.47, 1.35, 1., 1.64, 1.54, 1.76, 1.74,.03, 1.79} [ 単位 : 1 万時間 ] 標本平均 : 標本標準偏差 : sx サンプル サイズ 1.438 [ 万時間 ] 0.358 : 30 31
母平均推定のまとめ 分散 が既知の場合 サンプルサイズが きい場合 ( 30 が 安 ) 集団分布が正規分布でなくとも, 標本平均を正規分布に近似して区間推定を うことができる サンプルサイズが さい場合 ( < 30) 集団分布が正規分布ならば, 標本平均を正規分布に近似して区間推定を うことができる 集団分布が正規分布でないならば, 推定できない ( 標本平均を正規分布に近似できない ) 分散 が未知の場合 サンプルサイズが きい場合 ( 30 が 安 ) 集団分布が正規分布ならば,t 分布または正規分布に近似して区間推定を うことができる 集団分布が正規分布でないならば, 標本平均を正規分布に近似して区間推定を うことができる サンプルサイズが さい場合 ( <30) 集団分布が正規分布ならば,t 分布を利 して区間推定を うことができる 集団分布が正規分布でないならば, 推定できない ( 標本平均を正規分布に近似できない ) 3