統計学 第 17 回 講義 母平均の区間推定 Part-1 014 年 6 17 ( )6-7 限 担当教員 : 唐渡 広志 ( からと こうじ ) 研究室 : 経済学研究棟 4 階 43 号室 email: kkarato@eco.u-toyama.ac.j website: htt://www3.u-toyama.ac.j/kkarato/ 1
講義の目的 標本平均は正規分布に従うという性質を いて, 集団の平均を推定する 法を理解する. keywords: 中 極限定理, 標本平均の分布, 区間推定, 信頼区間 参考書 砂.17 148 居.145 17 屋.171 19
1 復習 標本平均の分布と正規分布 ( 中心極限定理 ) 例 集団 平均, 分散 0.001 0.003 0.005 集団はどのような分布でもよい Exoetial Distributio 0 100 00 300 400 500 600 0.0 0.5 1.0 1.5 0.0 0.1 0. 0.3 0.4 0.5 0 1 3 4 5 0.00 0.05 0.10 0.15 0.0 0 4 6 8 10 x -1.0-0.5 0.0 0.5 1.0 1.5.0 標本抽出 ~ N, ~ N 0,1 ( 十分に大きい ) 個の観測データ 0.1 0. 0.3 計算される標本平均 は正規分布 における ( 数ある ) 実現値の一つ -4-0 4 z 3
復習 標本平均の分布と正規分布 ( 中心極限定理 ) 実際には 集団全体の特徴はよくわからない しかしながら標本調査を うことができる 集団がどのような分布であったとしても, ある程度のサンプルサイズを持った標本があれば, その標本平均は正規分布の実現値の つと考えることができる どのようなデータであっても, そのデータから計算できるたった つの標本平均の背後には正規分布が控えていることを理解する 平均, 分散 作られる標本平均 の母集団分布からサンプルサイズ の標本を抽出して は平均, 分散 の正規分布にしたがう ~ N, 4
復習 二項分布と正規分布 (1) 5 の分布に等しい で割った値をにしたがう確率変数の分布は, 二項分布個の確率変数の平均にしたがう互いに独立な試行回数がの二項分布 B B, 1, 1 1 V E 1 1 1 1 中心極限定理の分布平均値 V V E E 1 1 1 1 1 1 の分布 V E B 1,, ~ ただし, N 1, ~
復習 二項分布と正規分布 () は何を意味するか? : 成功回数を示す確率変数 : 試行回数 成功する割合 ( 率 ) を す確率変数 例. サイコロを 60 回投げて 6 が x 回出る割合の分布 確率 0.00 0.04 0.08 0.1 60 1 N 6 60 1 5 ~ 6, 6 で近似できる 0.0 0.1 0. 0.3 0.4 実現値 6
例 1 30 個のサイコロを同時に投げるときの出目の平均値の分布 1個のサイコロの出目の期待値は 3.5, ~ N, 分散 35 1 30 個の平均値 ~ N3.5, 1 30 35 1 7
実験. 30 個のサイコロを同時に投げたときの標本平均の分布 (500 回の繰り返し実験 ) 140 10 100 80 60 40 0 0 ~ N 3.5, 1 30 35 1 で近似できる 8 1.0-1. 1.-1.4 1.4-1.6 1.6-1.8 1.8-.0.0-..-.4.4-.6.6-.8.8-3.0 3.0-3. 3.-3.4 3.4-3.6 3.6-3.8 3.8-4.0 4.0-4. 4.-4.4 4.4-4.6 4.6-4.8 4.8-5.0 5.0-5. 5.-5.4 5.4-5.6 5.6-5.8 5.8-6.0 標本 10 の標本平均 = 3.33 標本 1 の標本平均 = 3.53 1 回の標本調査で得られる標本平均はたった つだけど, その背後には正規分布が控えている. データとして得られる標本平均は正規分布の実現値の つであると考える
例 30 歳代独 性の貯蓄額は平均 600 万円, 標準偏差 400 万円の 集団分布にしたがうという 30 歳代独 性 100 をランダムに選び, 平均貯蓄額を計算するとき, その平均値はどのような分布に近似できるか 密度 0.0000 0.0006 0.001 集団分布 600, 400 0 500 1000 1500 000 500 貯蓄額 [ 万円 ] 標本抽出 標本平均の分布 ( 正規分布 ) 密度 0.000 0.004 0.008 400 ~ N 600, 100 400 500 600 700 800 貯蓄額 [ 万円 ] 9
例 3 コインを 50 回投げて表が出る回数の割合の分布はどのような分布に近似できるか? 50 50 : 50 回投げて表が出る回数の割合 ( 比率 ) 1 ~ N, 50 の平均値 50 50 ~ 0.5 0.5 N50, 50 10
例 4 6 xx に放映されたあるテレビ番組の真の視聴率 ( 本当はわからない ) が10% であるとしよう 600 世帯を対象に視聴率調査を う場合, 600 世帯中その番組を た の割合 ( 率 ) はどのような分布で近似できるか? 調査数 = 600, = 0.1で る回数 ( 成功回数 ) の分布 B(600,0.1) 1 1 見た 0 見なかった Pr Pr 1 1 0.1 0 0. 9 1 1 B ~ 1,0.1 600 中 た 数の分布 600 B ~ 600,0.1 35 ていたかもしれないし,83 ていたかもしれない 調査しないとわからない 標本変動 600 の平均値 1 ~ N, 600 600 0.1 0.9 ~ N0.1, 600 調査をすれば平均的にみて 10% ぐらいの視聴率がありそうだが, それよりも かったり, 低かったりすることもある ( 誤差がある ) 11
視聴率 () / の分布 60 60 ~ 0.1 0.9 N0.1, 600 確率 0.00 0.01 0.0 0.03 0.04 0.05 ±3% ぐらいまでの誤差はありうる 0.04 0.06 0.08 0.10 0.1 0.14 0.16 視聴率 真の視聴率は 10% ( = 0.1) であるが,600 世帯の標本調査では 9.4% になったり,11.6% になったりすることがある しかしながらその標本調査の結果は正規分布の実現値の つとみなすことができる 1
復習 標本平均の分布 30 歳代独 性の貯蓄額は平均 600 万円, 標準偏差 400 万円の 集団分布にしたがうという 30 歳代独 性 100 をランダムに選び, 平均貯蓄額を計算するとき, その平均値はどのような分布に近似できるか 貯蓄額は母平均 600, 分散 ただし, 母集団は正規分布ではないかもしれない 100人の貯蓄額の標本平均をとおくと, 中心極限定理の 近似できる 400 考え方により, その分布は平均, 分散 ~ 400 N 600, 100 の分布をしている. の正規分布に 問題 : これから計算する標本平均が 700万円を超える確率は何 % か? 13
標本平均の分布と確率 (1) 母平均, 母分散 を とおく の母集団からサイズの標本を抽出し, その標本平均 がA以上である確率 Pr A Pr Z と標準化して, 標準正規分布表からその確率を求める 標準化のときの注意点 A を計算するには, 標本平均 の分散は 中 極限定理 なので, 標準偏差は である. ~ N, ~ N 0,1 標準化された標本平均は標準正規分布にしたがう 14
例題 1 30 歳代独 性の貯蓄額は平均 600 万円, 標準偏差 400 万円の 集団分布にしたがうという 30 歳代独 性 100 をランダムに選び, 平均貯蓄額を計算するとき, その平均値が700 万円を超える確率を計算しなさい 情報の整理 600, 400 400, 100 Pr 700 700 600 Pr Z 400 100 Pr Z.5 0.5 Pr 0.5 0.4938 0.006 0 標準化 Z.5 標準正規分布表を利 As. 平均値が 700 万円を超える確率は 0.6% 15
標本平均が 700 万円を超える確率 平均 = 600 万円, 標準偏差 = 400 万円の 集団分布 ( 点線 ) 100の標本平均 の分布 ( 実線 ) 400 ~ N 600, 100 0 500 1000 1500 000 500 ~ 400 N 600, 100 0.00 0.006 Pr 700 450 500 550 600 650 700 750 Pr Z 確率は標準化して考える 700 600 Pr 400 100 Z.5 16
練習問題 (1) 例題 1 のケースで平均貯蓄額が 650 万円以上である確率を計算しなさい 17
例題. 標本平均と確率 () 都市に隣接した A 市に住む就業者の通勤時間は平均 55 分, 標準偏差 0 分の 集団分布にしたがうという 就業者 81 をランダムに選び, 平均通勤時間を計算するとき, その平均値が60 分以内である確率を計算しなさい. Pr 60 Pr Z Pr Z 0.5 Pr 60 55.5 0 0 0.5 0.4878 0.9878 81 Z.5 標準化 As. その平均値が 1 時間以内である確率は 98.78% 18
練習問題 () [1]. 平均 563 万円, 分散 4000 の年収の 集団分布から =100 の標本を抽出するとき,100 の標本平均が 570 万円以上である確率は? []. 平均 563 万円, 分散 4000 の年収の 集団分布から =40 の標本を抽出するとき, 40 の標本平均が 570 万円以上である確率は? 19
例題 3. 標本平均の分布と臨界値 都市に隣接した A 市に住む就業者の通勤時間は平均 55 分, 標準偏差 0 分の 集団分布にしたがうという 就業者 11 をランダムに選び平均通勤時間を計算するとき, その平均値がA 分以下である確率が.5% であるような A の値を計算しなさ い. 0.05 55 A P z 0.05 0 11 A 55 1.96 0 11 P A A 55 1.96 0 11 51.4 分 ( 平均通勤時間が 51.4 分以下である確率は.5%) 0
練習問題 (3) 30 歳代独 性の貯蓄額は平均 600 万円, 標準偏差 400 万円の 集団分布にしたがうという 30 歳代独 性 100 をランダムに選び, 平均貯蓄額を計算するとき, その平均値が B 万円以上である確率が.5% であるような B の値を計算しなさい. 1
母平均の推定 集団分布 平均 :? 分散 : 標本抽出 点推定 : 観測データから つの推定値を計算して, 平均や 分散を推定する 法. 標本平均を計算して, 平均の推定量とする. 標本分散を計算して, 分散の推定量とする. 推定 : 平均 はどのような値か? 区間推定 : 平均や 分散が 95%(99%) の確率で存在するような範囲を求める 法.
復習 臨界値と有意な値 臨界値と確率 きわめて稀な値 であると判断される境界の値のことを臨界値(Critical Value) とよぶ. 臨界値以上の値は, 分布の平均に べてきわめて きな値である. したがって, 臨界値を定めている確率は 常に さな値である (5%,.5%, 1%, 0.1% など ) 有意な値 臨界値以上の値のことを有意な値とよぶ. そのようにめったに起こらないほど きい値であることを 有意に きい と表現する. または, 有意である と表現する. 区間推定は有意でない値の集合を つけることであり, そのために両端の臨界値を求めなければならない.5% めずらしい値 ( 有意な値 ) 平均 が95% の 確率で る範囲.5% めずらしい値 ( 有意な値 ) 臨界値 ( 有意でない値 ) 臨界値 3
母集団分布の例 例.A 市の 40 歳既婚 性の 供の数 に関する 集団分布 の実現値 確率 x i Pr( = x i ) 0 0.15 1 0.50 0.30 3 0.04 4 0.01 合計 1 E 0 0.15 1 0.50 0.30 3 0.04 4 0.01 1.6 V 0 1.6 0.15 1 1.6 0.50 1.6 0.30 3 1.6 0.04 4 1.6 平均 分散 0.63 標準偏差 V 0.63 0.795 0.01 4
標本の例 集団分布 の実現値確率 x i Pr( = x i ) 0 0.15 1 0.50 0.30 3 0.04 4 0.01 合計 1 母平均 1.6 母分散 母標準偏差 0.795 0.63 標本 { i } = { 1, 0, 1,,,1 } サイズ = 64 の標本を抽出 たまたま得られた値 ( 標本変動 ) 標本平均 標本分散 s 標本標準偏差 1.1 0.68 s 0.86 点推定値 5
区間推定 (1) 例.A 市の 40 歳既婚 性の 供の数 に関する 集団分布 集団分布 平均 :? 分散 : わかっていること 64, 1.1, 0.63 0.795 分散 はわかっているものと仮定 ( この仮定が成 しないケースは後で扱う ) 標本抽出 サンプル サイズ 64 調べたいこと 母平均 が95% の確率で存在する ような範囲 95% 信頼区間 : Pr a b 0. 95 64 の標本平均 1.1 標本抽出を何回も繰り返したとき, は 95% の確率で上記の区間に含まれる 6
区間推定 () Ste-1 標本平均を標準正規分布に直して考えてみる 0.63 ~ N, より, 64 0.63 64 Pr 1.96 が95% で存在する範囲は 0.63 64 0.63 64 ~ 1.96 0.95 N 0,1 であるから Ste- 確率関数の不等式を について解くと 0.63 0.63 1.96 1.96 64 64 a b 7
区間推定 (3) 8 1.95 8 0.795 1.96 1.1 64 0.63 1.96 1.1 0.905 8 0.795 1.96 1.1 64 0.63 1.96 1.1 b a 信頼区間 はの 母平均 % 95 1.95.905 0 下限と上限の値を計算する. Ste-3
区間推定 (4) 95 % 信頼区間 母分散 ( 母標準偏差 ) の母集団分布からサイズの標本を抽出し, 標本平均を とする このとき母平均 の95% 信頼区間は次の式から 求める 1.96 1.96 9
例題 4. 区間推定 ランダムに 30 歳代独 性を 100 を選び平均貯蓄額を計算したところ,570 万円であった 貯蓄額の 平均 の 95% 信頼区間を求めなさい ただし, 標準偏差は = 00 万円であることがわかっている わかっていること 570, 100, 00 区間推定 a 1.96 570 1.96 00 10 530.8 b 1.96 570 1.96 00 10 609. 30 歳代独 性の貯蓄額の 平均 の 95% 信頼区間は 530.8 609. 30
練習問題 (4) B 市に住む就業者をランダムに 64 を選び平均通勤時間を計算したところ,50 分であることがわかった.B 市における通勤時間の 平均 の 95% 信頼区間を求めなさい ただし, 標準偏差は = 0 [ 分 ] であることがわかっているものとする 31
言葉の定義 : 信頼区間, 信頼限界, 信頼係数, 信頼区間 Pr 1.96 1.96 下側信頼限界上側信頼限界 0.95 信頼係数 1.96, 1.96 を信頼区間とよぶ. 信頼区間の下限を下側信頼限界, 上限を上側信頼限界とよぶ. 信頼区間を定めている確率を信頼係数とよぶ. 3