講義の目的 サンプルサイズの大きい標本比率の分布は正規分布で近似できることを理解します 科目コード 130509, 130609, 110225 統計学講義第 19/20 回 2019 年 6 月 25 日 ( 火 )6/7 限 担当教員 : 唐渡広志 ( からと こうじ ) 研究室 : email: website: 経済学研究棟 4 階 432 号室 kkarato@eco.u-toyama.ac.jp http://www3.u-toyama.ac.jp/kkarato/ 推定誤差をある一定範囲内にするために必要なサンプルサイズを求める方法について学びます 標本分散の分布について学びます 母分散を区間推定する方法について学びます 分布について学びます 二つの正規母集団の母分散の比を区間推定する方法について学びます key words: 標本平均の分布, 中心極限定理, 区間推定 参考書 : 宮川 pp.181-242, 白砂 pp.118-139, 大屋 pp.139-174, 山本 pp. 104-137, 鳥居 pp.131-172 1 2 復習 標本平均の分布 標本平均は分布をもつ 母集団から抽出される 1 組の標本から計算できる標本平均は一つだけであるが, 多数の組の標本がある場合には, 標本平均は様々な値をとるものと考えることができる サンプルサイズが十分に大きいとき, 標本平均の分布は正規分布に近似できる 中心極限定理 平均, 分散の同一の母集団分布から抽出した,,, の標本平均は, サンプルサイズが十分に大きいならば, 平均, 分散 の正規分布に近似することができる ~, 観測データから計算できる標本平均は正規分布, の実現値 の一つである 復習 母集団分布とサンプルサイズ 区間推定を行うときの標本平均の分布 母集団はどのような分布か? 母標準偏差は既知か未知か? サンプルサイズは十分に大きいか否か? 大標本の目安 : 30 または 100 とする場合もある 母集団分布の形 母標準偏差が既知母標準偏差が未知 大標本小標本大標本小標本 正規分布正規分布正規分布 非正規分布 正規分布による近似 なし t 分布または正規分布による近似 正規分布による近似 t 分布 なし 3 4
標本比率の分布 (1) 標本が二項データ率 を示している : 0 または 1 からなるときの平均は 標本比 例. [ 視聴率の調査 ]NHK 大河ドラマ 西郷どん の視聴率は 9.6% であった (2018 年 11 月全国個人視聴率調査の結果, 有効回答数 2,310 人 ) 標本比率の分布 (2) 二項変数は二項分布 1, にしたがうので, ~, である ( 真の視聴率 [ 母比率 ] がである TV 番組について, 人を調査するとき見ていた人数の分布 ) このとき の期待値は, 分散は 1 である が十分に大きいとき, 和の分布は正規分布に近づくので ~, 1 標本抽出母集団二項分布 B(1, p) 番組を見た 1 Pr (X 1) p 見なかった 0 Pr (X 0) 1 p 二項分布の成功比率のことを 母比率 とよぶ 調査結果 X i 1 見た 1 2 見なかった 0 2310 見なかった 0 合計 S X i 222 平均 222 2310 0.096 5 であり, 視聴率 も正規分布で近似できる : ~, 1 したがって, を標準化すると 1 ~ 0,1 6 標本比率の分布 (3) 標本比率の分布 (4) 例. 西郷どん の視聴率は 9.6%, 有効回答数 2,310 人 0.096, 2310 調査によって得られた 0.096 は正規分布の実現値の一つであると考えられる 例題 1. 富山県の女性 (25~29 歳 ) の有配偶率は 38% である ( 総務省 国勢調査 ) ランダムに 400 人選び, 配偶者がいるかどうかを調べるものとしよう 母比率を 0.38 と考えるとき,400 人の有配偶率はどのような分布で近似できるか? 母比率 0.38 サンプルサイズ 400 標本の有配偶率 ~ 0.38,.. 7 8
標本比率の分布 (5) 例題 2. 家庭の生活状況について 前年に比べて暮らし向きが良くなった かどうかを調査するものとしよう 良くなった と考える人の真の比率 [ 母比率 ] を 0.2 とするとき,900 人の調査によって得られる 良くなった と考える人の標本比率はどのような分布で近似できるか? 母比率 0.2 サンプルサイズ 900 標本の有配偶率 ~ 0.2,.. 母比率の区間推定 (1) 標本比率 はが十分に大きいとき正規分布に近似できるので : 1 ~ 0,1 このとき, 標準正規分布において 95% の範囲は次の確率で示される 1.96 1.96 0.95 1 不等式を整理すると次が得られる 1.96 + 1.96 ここで, を標本比率の 標準誤差 とよぶ したがって, 信頼限界を求めるには, 未知の母比率を推定しておく必要がある 9 10 母比率の区間推定 (2) 不等式の 2 乗をとり, について整理する : 1 1.96 1 + 1.96 2 + 1.96 + 0 に関する2 次不等式の判別式 + + に対して と符号条件は次のように書ける : 4 1.96 1 + 1.96 > 0 > 0 より二つの異なる実数解をもつので, となる信頼区間 ( 下側信頼限界, 上側信頼限界 ) が存在する 母比率の区間推定 (3) またはとして, 解の公式を利用してについて解くと 2 + 1.96 2 ± 4 1.96 2 1 + 1.96 1 + 1.96 サンプルサイズが十分に大きい場合には,. 0 より ± 1.96 1 信頼区間は は次のように書き直すことができる :.96 1 + 1.96 1 母比率の区間推定における標本比率の標準誤差は より計算する 11 12
母比率の区間推定 (4) 例題 1. 富山県の女性 (25~29 歳 ) についてランダムに 400 人選び, 配偶者がいるかどうかを調べたところ有配偶者は 156 人であった 母比率 ( 配偶者がいる人の真の割合 ) を信頼係数 95% のもとで区間推定しなさい 母比率の区間推定 (5) 例題 2. 家庭の生活状況について 前年に比べて暮らし向きが良くなった かどうかを900 人について調査したところ, 良くなった と考える人の割合は 21% であった 母比率 ( 良くなった と考える人の真の割合 ) を信頼係数 95% のもとで区間推定しなさい 0.39 より信頼限界は.96 + 1.96 1 1 より, 信頼区間は 0.342 0.39.96 0.39 + 1.96 0.438 である 0.39 0.61 400 0.39 0.61 400 0.342 0.438 0.21 より信頼限界は 1.96 1 + 1.96 より, 信頼区間は 0.183 0.21.96 0.21 + 1.96 0.237 である 0.21 0.79 900 0.21 0.79 900 0.183 0.237 13 14 練習問題 (1) NHK 大河ドラマ 西郷どん の視聴率は 9.6% であった (2018 年 11 月全国個人視聴率調査の結果, 有効回答数 2,310 人 ) 母比率 ( 真の視聴率 ) を信頼係数 95% のもとで区間推定しなさい 練習問題 (2) 統計学受講者 56 人についてスマートフォンの種類を尋ねたところ,44 人が ios (iphone) であった この結果を大学生の iphone 占有率に関する標本調査とみなして, 母比率を信頼係数 95% のもとでの母平均を区間推定しなさい 15 16
母比率の推定誤差 (1) 標準正規分布において 1.96 1.96 である確率は 95% であり, 標本比率を標準化した も標準正規分布にしたがうので.96 1.96 であり, 1 1.96 1.96 母比率の推定誤差 (2) 標準誤差の設定方法は2 通り考えられる : i. 母比率の代わりに標本比率 を利用する ii. 標準誤差が最大となる 0.5 を利用する 推定誤差を以下にするために必要なサンプルサイズ 1.96 より. 1 と同値である これを 1.96 1 i の場合. 1 ii の場合. 0.25 と書く を ( 信頼係数 95% での ) 推定誤差 とよぶ 17 18 母比率の推定誤差 (3) 例題 1. 富山県の女性 (25~29 歳 ) の有配偶率を推定するために, 信頼係数 95% のもとでの推定誤差を 1% 以内にしたい 最低限必要なサンプルサイズを求めなさい [i] 400 の場合の標本比率が 0.39 であったのでこれを利用する : 1.96 0.01 0.39 0.61 9139.166 練習問題 (3) 大学生が所有するスマートフォンについて iphone の占有率を調査する 信頼係数 95% のもとでの母比率の推定誤差を 5% 以内にしたい 次の [i] [ii] の場合について最低限必要なサンプルサイズを求めなさい [i] 統計学受講者 56 人の標本比率 44 56を母比率の参考にする場合 [ii] 母比率を 0.5 とする場合 少なくとも [ii] 0.5 とする場合 : 9140 のサンプルサイズが必要 1.96 0.01 0.5 0.5 9604 少なくとも 9604 のサンプルサイズが必要 19 20
母分散の推定 母平均を推定するために標本平均が利用されるのと同様, 母分 散を推定するために標本分散 が利用される ただし, は偏差 2 乗和を示す 標本は変動するので, 標本分散もいろいろな値をとる可能性を持っていると考えることができる つまり, 標本分散は分布を持つ 標本分散の期待値と分散 * 期待値 分散 標本分散は平均的に見て母分散に等しく, 母分散やサンプルサイズ の値に応じて散らばりが決まる 標本分散をで計算すると, 期待値はとは等しくならない ( が小さい場合は特に ) サンプルサイズが大きくなれば, 標本分散の分散はゼロに近づくの でとは大きな違いはない 21 標本分散の分布 (1) 演習問題 -2 (4 月 23 日 ) 問 5 演習問題 -2 の提出者は 65 人 4 の標本が 65 組得られた 母集団 標本 復元抽出 4 456,400,336,366 389.5, 2649.0 22 標本分散の分布 (2) 標本分散の分布 (3) 有限母集団 母平均 358.0 万円 母分散 3997.3 母標準偏差 63.2 万円 4 の 標本平均の平均 は母平均に近い値をとり, かつ 標本平均の分散 は母分散を 4 で割った値に近いをとる 母集団 標本サイズは 4 ( 標本数は 65) 平均 358.0 の平均 : 357.02( 分散 809.86) 分散 3997.3 の平均 : 3686.61( 分散 8373098) 標本分散 の分布 受講者番号 4 の標本が 65 組得られた 65 個の 65 個の 標本平均標本分散 (1) 456 400 336 366 389.50 2649.00 (2) 484 365 366 400 403.75 3126.92 実は標本分散の分布はカイ 2 乗分布と関連性がある (65) 472 240 364 365 360.25 8994.92 平均 356.51 345.51 358.26 367.78 357.02 3686.61 分散 3167.91 3478.75 3936.16 3131.02 809.86 8373098 65 個の 65 個の の平均の分散 0 5000 10000 15000 20000 23 24
復習 カイ 2 乗分布 (1) Y 標準正規分布にしたがう個の確率変数,,, の 2 乗和を + + + とおくとき, は自由度のカイ 2 乗分布にしたがう : 0.0 0.2 0.4 0.6 0.8 1.0 1.2 ~χ, の期待値, 分散 ~,, のとき, と書 ける : 0 2 4 6 8 10 Y Y 0.0 0.2 0.4 0.6 0.8 1.0 1.2 ~χ 自由度 1 のカイ 2 乗分布自由度 2 のカイ 2 乗分布自由度 3 のカイ 2 乗分布 + 0 2 4 6 8 10 Y Y 0.0 0.2 0.4 0.6 0.8 1.0 1.2 + + χ 1 χ 2 χ 3 0 2 4 6 8 10 Y 25 復習 カイ 2 乗分布 (2) 母分散がの正規母集団から抽出したサイズの標本における標本 分散を とするとき, は自由度 のカイ2 乗分布にしたがう ~χ なぜか? ~,, 1,2,, のとき, ~χ ( ) より, ~χ (1) なので, は χ ( ) にし たがう確率変数から χ (1) にしたがう確率変数を引いた変数なので自由度 のカイ2 乗分布にしたがう 26 復習 カイ 2 乗分布 (3) カイ 2 乗分布の有意確率と臨界値 (1) 標本分散 の分布 4 2649.00 3997.3 1.988 受講者番号 (1) の 4 の標本分散 2649.00 3997.3 0.00 0.05 0.10 0.15 0.20 0.25 0.30 自由度 3 のカイ 2 乗分布 χ (3) 3 自由度 3 のカイ 2 乗分布 Pr χ χ. 3 0.025 自由度 3 のカイ 2 乗分布 Pr χ χ. 3 0.025 0 5000 10000 15000 20000 0 2 4 6 8 10 は自由度 のカイ 2 乗分布における実現値と考えることができる である点に注意 27 0 5 10 15 20 0 5 10 15 20 χ. 3 0.2158 上側 ( 右側 ) から覆った面積が 97.5% となる値 χ. 3 9.35 上側 ( 右側 ) から覆った面積が 2.5% となる値 28
カイ 2 乗分布の有意確率と臨界値 (2) χ は α を上側有意確率, を自由度とするときの臨界値 95% の範囲 ( 3 のとき ) Pr χ. 3 χ χ. 3 0.95 Pr 0.2158 9.35 0.95 母分散の95% 信頼区間 母分散の区間推定 (1) 母分散がの正規母集団からサンプルサイズの標本を抽出し, その標本分散がであるとき, 信頼係数 95% のもとでの母分散の信頼区間は次のようになる χ. ( ) χ. ( ) 0.2158 9.35 自由度 3 のカイ 2 乗分布.. 例. 標本分散 2649.00 850 36826 0.95 0.2158 5 9.3500 15 20 29 0 5 10 15 20 0 5 10 15 20 χ. χ. 30 母分散の区間推定 (2) 例題 1. 正規母集団から 16 の標本を抽出し, 標本分散を計算したところ 0.42 であった 母分散を信頼係数 95% のもとで区間推定しなさい 自由度 15 標本分散 0.42 偏差 2 乗和 15 0.42 6.3 臨界値 χ. (15) 27.5, χ. (15) 6.26 信頼区間. ( ). ( ).... 0.229 1.006 31 母分散の区間推定 (3) 例題 2. 統計学受講者 ( 女性 ) 21 人の身長は標本平均 157.9 cm, 標本標準偏差 5.2 cm であった 女子大学生の身長の母集団は正規分布であるものとして, 母分散を信頼係数 99% のもとで区間推定しなさい 自由度 20 標本分散 5.2 27.04 偏差 2 乗和 20 27.04 540.8 臨界値 χ. (20) 40.0, χ. (20) 7.43 信頼区間. ( ). ( ).. 13.52 72.79.. 32
練習問題 (4) ある株式会社の株価の変化率を 30 日間計測したところ, 標本標準偏差は 2 % であった 株価の変化率は正規分布にしたがうと仮定して, 母分散を [1] 信頼係数 95% のもとで区間推定しなさい [2] 信頼係数 99% のもとで区間推定しなさい 母標準偏差の区間推定 母分散がの正規母集団からサンプルサイズの標本を抽出し, その標本分散がであるとき, 信頼係数 95% のもとでの母標準偏差の信頼区間は次のようになる χ. ( ) χ. ( ) 33 34 分布 (1) カイ 2 乗分布にしたがう二つの確率変数を, とし, それぞれの自由度が, であるとする ( ~χ, ~χ ) このとき ~, 分子の自由度, 分母の自由度の分布 分布 (2) 分布表を参照 例. 分子の自由度 3, 分母の自由度 20 の 分布と臨界値, 両側 5% の臨界値 ( 上側 2.5%, 下側 2.5%) 両側 10% の臨界値 ( 上側 5%, 下側 5%) 0.0 0.2 0.4 0.6 0.8 1.0 自由度 2, 10 自由度 3, 10 自由度 3, 100 0 2 4 6 8 ~, 35 f() 0 2 4 6 8. 3,20 0.0706 下側. 3,20 3.86 上側 f() 0 2 4 6 8. 3,20 0.1155 下側. 3,20 3.10 上側 36
分布 (3) 例. 二つの正規母集団,,, からそれぞれサンプルサイズ, の標本を抽出し, その標本分散を, と書く は自由度 の, は自由度 のカイ2 乗分布にしたがうので,, とおくと ~, 分布, は二つの標本の分散比に関連した分布になっている 分布, の実現値を 値 とよぶ 分子の自由度, 分母の自由度 の分布 37 分布 (4) 例. 二つの正規母集団の分散が等しい場合 ( 等分散 ): 二つの正規母集団が,,, のとき であるから,, ~, 例. 二つの株式会社 (A 社,B 社 ) の株価収益率は正規分布にしたがい, 母分散はどちらも等しく 4 であるとしよう それぞれ サンプルサイズ 21 で株価収益率の標本分散を計算したとこ ろ次が得られた 3.97, 3.69 このとき, 値は.. 実現値である 1.075 であり, この値は分布 20,20 の 38 分布 (5) 分布とその実現値 ( 母分散が等分散の場合の標本分散の比 ) 20,20 分布 (6) 逆数の 分布 確率変数 が自由度, の 分布にしたがうとき, 確率変数の逆数 1 は自由度, の 分布にしたがう つまり : ~, 1 ~, f() 例.. 3,20 0.0706. 20,3. 14.17 2.5% 2.5% 3,20 20,3 0 2 4 6 8 f() f(),.. 1.075 0 2 4 6 8 0 5 10 15 20 39 40
分布 (7) t 分布と 分布の関係 自由度の t 分布にしたがう確率変数の 2 乗は, 分子の自由度 1, 分母の自由度 の 分布にしたがう 1 1 ~ 1, 母分散の比の区間推定 (1) ~, より自由度, の 分布における信頼係数 95% のもとでの 母分散の比 の信頼区間は : Pr.,., 0.95 ±. 10 1,10 ±2.228 4.96.,., 10 1,10 下側 2.5% 臨界値 標本分散比 上側 2.5% 臨界値 標本分散比 0.025 0.025 0.05-2.228 0 2.228 T. 10 2.228 0 2 4 6 8 10 12. 1,10 4.96 41 42 母分散の比の区間推定 (2) 例. 二つの株式会社 (A 社,B 社 ) の株価収益率は正規分布にしたがって いる ( 母分散は未知 ) それぞれサンプルサイズ 21 で株価 収益率の標本分散を計算したところ次が得られた 母分散の比の区間推定 (2) 20,20 3.97, 3.69 0.929 両側 5% の臨界値は [ 下側 ]. 20,20 0.4058, [ 上側 ]. 20,20 2.46 なので,95% 信頼区間は 0.4058 0.929 2.285 0.929. 20,20 0.4058 0 2 4 6 8. 20,20 2.46 0.377 2.285 95% 信頼区間 0.377 2.285 43 44
練習問題 (5) 二つの株式会社 (C 社,D 社 ) の株価収益率は正規分布にしたがうものとする それぞれサンプルサイズ 11, 18 で株価収益率の標本分散を計算したところ次が得られた 1.6, 2.4 信頼係数 95% のもとで母分散の比 を区間推定しなさい 区間推定のまとめ 1 区間推定とは ある一定の信頼係数 (90, 95, 99% などの確率 ) のもとで母平均や母分散を含む範囲である 信頼区間 を求めること 母比率の区間推定 サンプルサイズが十分に大きい場合は, 標準正規分布を利用して母比率の区間推定を行うことができる このとき, 標本比率 の標準誤差は 1 より計算する 母分散 ( 母標準偏差 ) の区間推定 母分散がの正規母集団から抽出したサイズの標本における 標本分散を とするとき, は自由度 のカイ2 乗分布にしたがう また, 自由度 のカイ2 乗分布を利用し て母分散 ( ないし母標準偏差 ) の区間推定を行うことがで きる 45 46 区間推定のまとめ 2 確率分布と標本分布の関係 母分散の比の区間推定 母分散が の正規母集団および母分散が の正規母集団からそ れぞれサンプルサイズ, の標本を抽出し, その標本分散を, とするとき, は分子の自由度, 分母の自由度 の 分布, にしたがう, を利用して母分散の比の区間推定を行うこと ができる 超幾何分布,, 有限母集団非復元抽出 ベルヌーイ分布 1, 二項分布, 正規分布, 標準正規分布 0,1 カイ 2 乗分布 χ λ ポアソン分布 λ λ 大 大 t 分布 47 分布, 1, 48
Excel 自習 カイ 2 乗分布の下側有意確率を求める関数 chisq.inv(a,m) a: 下側有意確率,m: 自由度 例. 下側有意確率 1 上側有意確率とする chisq.inv(0.95,1) χ. 1 3.84 が得られる chisq.inv(0.025,3) χ. 3 0.2158 が得られる 分布の下側有意確率を求める関数 f.inv(a,m1,m2) a: 下側有意確率,m1: 分子の自由度, m2: 分母の自由度 例. 下側有意確率 1 上側有意確率とする f.inv(0.975,3,20). 3,20 3.86 が得られる f.inv(0.05,2,10). 2,10 0.0516 が得られる 49