統計学 第 16 回 講義 母平均の区間推定 Part-1 016 年 6 10 ( ) 1 限 担当教員 : 唐渡 広志 ( からと こうじ ) 研究室 : 経済学研究棟 4 階 43 号室 email: kkarato@eco.u-toyama.ac.jp website: http://www3.u-toyama.ac.jp/kkarato/ 1
講義の目的 標本平均は正規分布に従うという性質を いて, 集団の平均を推定する 法を理解する keywords: 中 極限定理, 標本平均の分布, 区間推定, 信頼区間 参考書 砂 pp.17 148 居 pp.145 17 屋 pp.171 19
p1 p 復習 標本平均の分布と正規分布 ( 中心極限定理 ) 例 0 集団 平均, 分散 0.001 0.003 0.005 集団はどのような分布でもよい Expoetial Distributio 0 100 00 300 400 500 600 0.0 0.5 1.0 1.5 0.00 0.10 0.0 0.30 1 3 4 5 6 0.00 0.05 0.10 0.15 0.0 0 4 6 8 10 x -1.0-0.5 0.0 0.5 1.0 1.5.0 標本抽出 ~ N, ~ N 0,1 ( 十分に大きい ) 個の観測データ 計算される標本平均 は正規分布 における ( 数ある ) 実現値の一つ 0.1 0. 0.3-4 - 0 4 z 3
標本平均を 1000 回計算するときの分布 集団分布 = の平均の分布 = 5 の平均の分布 = 30 の平均の分布 0 1 3 4 5 6 0 1 3 4 5 6 Expoetial Distributio 0 100 00 300 400 500 600 0.001 0.003 0.005-1.0-0.5 0.0 0.5 1.0 1.5.0 4 0.0 0.5 1.0 1.5 p 0.00 0.10 0.0 0.30 0 50 100 00 0 50 100 00 0 50 100 00 0 1 3 4 5 6 0 1 3 4 5 6 0 100 00 300 400 0 100 00 300 400 0 100 00 300 400 0 00 400 600 800 0 00 400 600 800 0 00 400 600 800 0 50 150 50 350 0 50 150 50 350 0 50 150 50 350-0.5 0.0 0.5 1.0 1.5-0.5 0.0 0.5 1.0 1.5-0.5 0.0 0.5 1.0 1.5
復習 標本平均の分布と正規分布 ( 中心極限定理 ) 実際には 集団全体の特徴はよくわからない しかしながら標本調査を うことができる 集団がどのような分布であったとしても, ある程度のサンプルサイズを持った標本があれば, その標本平均は正規分布の実現値の つと考えることができる どのようなデータであっても, そのデータから計算できるたった つの標本平均の背後には正規分布が控えていることを理解する 平均, 分散 の母集団分布からサンプルサイズの標本を抽出して 作られる標本平均 は平均, 分散 の正規分布にしたがう ~ N, の分散は ではなく, であることに注意 5
例 1 30 歳代独 性の貯蓄額は平均 = 600 万円, 標準偏差 = 400 万円の 集団分布にしたがうという 30 歳代独 性 100 をランダムに選び, 平均貯蓄額を計算するとき, その平均値はどのような分布に近似できるか 密度 0.0000 0.0006 0.001 集団分布 600, 400 0 500 1000 1500 000 500 貯蓄額 [ 万円 ] 標本抽出 標本平均の分布 ( 正規分布に近似 ) 密度 0.000 0.004 0.008 400 ~ N 600, 100 400 500 600 700 800 貯蓄額 [ 万円 ] 6
例 1. A 市内における全就業者の通勤時間の 集団分布は, 平均が = 35 分, 標準偏差が = 18 分である 就業者 56 の通勤時間を調査するとき, その標本平均は平均 35, 分散 18 /56 の正規分布に近似できる ~ N 35, 18 56. B 市内のあるバス停に来るバスの到着時刻のラッシュ時の誤差分布は, 平均 8 分, 標準偏差 分である 平 の 40 間に渡ってバス停の到着時刻を調査するとき, その標本平均は平均 8, 分散 /40 の正規分布に近似できる ~ N 8, 40 7
例 3 = 30 個のサイコロを同時に投げるときの出 の平均値は平均 3.5, 分散 (1/3)*(35/1) の正規分布に近似できる 30 個のサイコロを同時に投げるときの出目の平均値の分布 1個のサイコロの出目の期待値は 3.5, 分散 35 1 ~ N, 30 個の平均値の分布 ~ N3.5, 1 30 35 1 8
実験. 30 個のサイコロを同時に投げたときの標本平均の分布 (500 回の繰り返し実験 ) 試 回数 #1 # #3 #4 #5 #6 #7 #8 #9 #10 #11 #1 #13 #14 #15 #16 #17 #18 #19 #0 #1 # #3 #4 #5 #6 #7 #8 #9 #30 平均値 1 3 1 4 6 6 6 1 3 6 1 1 1 1 1 3 4 3 3 3 6 3 3 6 5 6 3. 6 1 5 5 6 3 5 3 5 1 1 3 3 4 3 6 1 1 6 1 5 5 5 5 1 1 3.3 3 5 4 3 4 5 4 6 5 4 5 5 6 1 1 5 5 6 6 6 4 4 5 3 1 1 5 3.9 4 5 5 4 1 6 3 3 5 5 6 1 5 3 4 5 5 5 5 6 4 5 6 3 3.8 5 6 4 6 3 6 5 5 3 1 6 4 3 6 6 5 6 4 5 3 1 6 3 1 5 5 4 4 500 3 3 6 3 1 4 1 3 5 3 1 6 3 3 6 4 3 4 4 4 4 4 3 5 5 1 1 5 13.36 30 の が500個 9
実験. 30 個のサイコロを同時に投げたときの標本平均の分布 (500 回の繰り返し実験 ) 140 10 100 80 60 40 0 0 ~ N 3.5, 1 30 35 1 で近似できる 10 1.0-1. 1.-1.4 1.4-1.6 1.6-1.8 1.8-.0.0-..-.4.4-.6.6-.8.8-3.0 3.0-3. 3.-3.4 3.4-3.6 3.6-3.8 3.8-4.0 4.0-4. 4.-4.4 4.4-4.6 4.6-4.8 4.8-5.0 5.0-5. 5.-5.4 5.4-5.6 5.6-5.8 5.8-6.0 標本 1 の標本平均 = 3. 標本 5 の標本平均 = 4 1 回の標本調査で得られる標本平均はたった つだけど, その背後には正規分布が控えている データとして得られる標本平均は正規分布の実現値の つであると考える
標本平均の分布における確率 30 歳代独 性の貯蓄額は平均 600 万円, 標準偏差 400 万円の 集団分布にしたがうという 30 歳代独 性 100 をランダムに選び, 平均貯蓄額を計算するとき, その平均値はどのような分布に近似できるか 貯蓄額は母平均 600, 分散 ただし, 母集団は正規分布ではないかもしれない 100人の貯蓄額の標本平均をとおくと, 中心極限定理の 近似できる 400 考え方により, その分布は平均, 分散 ~ 400 N 600, 100 の分布をしている. の正規分布に 問題 : これから計算する標本平均が 700万円を超える確率は何 % か? 11
標本平均の分布と確率 (1) 母平均, 母分散 を とおく の母集団からサイズの標本を抽出し, その標本平均 が A以上である確率 Pr A Pr Z と標準化して, 標準正規分布表からその確率を求める A を計算するには, 標準化のときの注意点 標本平均 の分散は なので, 標準偏差は である. 中 極限定理 ~ N, ~ N 0,1 標準化された標本平均は標準正規分布にしたがう 1
例題 1 30 歳代独 性の貯蓄額は平均 600 万円, 標準偏差 400 万円の 集団分布にしたがうという 30 歳代独 性 100 をランダムに選び, 平均貯蓄額を計算するとき, その平均値が700 万円を超える確率を計算しなさい 情報の整理 600, 400 400, 100, 40 400 100 標準化 Pr 700 700 600 Pr Z 40 Pr Z.5 0.5 Pr 0 Z 0.5 0.4938.5 0.006 標準正規分布表を利 As. 平均値が 700 万円を超える確率は 0.6% 13
標本平均が 700 万円を超える確率 平均 = 600 万円, 標準偏差 = 400 万円の 集団分布 ( 点線 ) 100の標本平均 の分布 ( 実線 ) 100 の平均値の分布はばらつきがかなり さい ~ 400 N 600, 100 0 500 1000 1500 000 500 図を拡 0.00 0.006 Pr 700 450 500 550 600 650 700 750 Pr Z 確率は標準化して考える 700 600 Pr 400 100 Z.5 14
練習問題 (1) 例題 1 のケースで平均貯蓄額が 650 万円以上である確率を計算しなさい 15
例題. 標本平均と確率 () 都市に隣接した A 市に住む就業者の通勤時間は平均 55 分, 標準偏差 0 分の 集団分布にしたがうという 就業者 81 をランダムに選び, 平均通勤時間を計算するとき, その平均値が60 分以内である確率を計算しなさい Pr 60 情報の整理 55, 0 0, 81 0 81 0 9 45 50 55 60 65 標本平均の分布 Pr Z.5 標準化 Pr 60 60 55 Pr Z 0 81 Pr Z.5 0.5 Pr 0 0.5 0.4878 0.9878 Z.5-4 - 0 4 As. その平均値が 1 時間以内である確率は 98.78% 標本平均の分布 16
練習問題 () [1]. 平均 563 万円, 分散 4000 の年収の 集団分布から =100 の標本を抽出するとき,100 の標本平均が 570 万円以上である確率は? []. 平均 563 万円, 分散 4000 の年収の 集団分布から =40 の標本を抽出するとき, 40 の標本平均が 570 万円以上である確率は? 17
例題 3. 標本平均の分布と臨界値 都市に隣接した A 市に住む就業者の通勤時間は平均 55 分, 標準偏差 0 分の 集団分布にしたがうという 就業者 11 をランダムに選び平均通勤時間を計算するとき, その平均値がA 分以下である確率が.5% であるような A の値を計算しなさい.5% A 分 48 50 5 54 56 58 60 6 標本平均の分布 標準化.5% 1.96-4 - 0 4 情報の整理 : P A 0.05 A 55 P 0.05 z 0 11 A 55 1.96 0 11 A 55 1.96 55, 0 0 11 51.4 0, 11 平均通勤時間が 51.4 分以下である確率は.5% 分 標本平均の分布 18
練習問題 (3) 30 歳代独 性の貯蓄額は平均 600 万円, 標準偏差 400 万円の 集団分布にしたがうという 30 歳代独 性 100 をランダムに選び, 平均貯蓄額を計算するとき, その平均値が B 万円以上である確率が.5% であるような B の値を計算しなさい. 19
母平均の推定 集団分布 平均 :? 分散 : 標本抽出 点推定 : 観測データから つの推定値を計算して, 平均や 分散を推定する 法 標本平均を計算して, 平均の推定値とする 標本分散を計算して, 分散の推定値とする 標本標準偏差を計算して, 標準偏差の推定値とする 推定 : 平均 はどのような値か? 区間推定 :95%(99%) の確率で 平均や 分散を含む範囲を求める 法 0
復習 臨界値と有意な値 臨界値と確率 きわめて稀な値 であると判断される境界の値のことを臨界値(Critical Value) とよぶ したがって, 臨界値を定めている確率は 常に さな値である (5%,.5%, 1%, 0.1% など ) 有意な値 ( 分布の右裾 )[ 臨界値 ] 以上の値 ( きわめて きい値 ) のことを有意な値とよぶ ( 分布の左裾 ) [ 臨界値 ] 以下の値 ( きわめて さい値 ) のことを有意な値とよぶ そのようにめったに起こらないほど きい値であることを 有意に きい 有意に さい と表現する または, 有意である と表現する. 区間推定は有意でない値の集合を つけることであり, そのために両端の臨界値を求めなければならない.5% めずらしい値 ( 有意な値 ) 95% の確率で母平均 を含む範囲.5% めずらしい値 ( 有意な値 ) 臨界値 ( 有意でない値 ) + 臨界値 1
母集団と標本 例.A 市の 40 歳既婚 性の 供の数 に関する 集団分布 の実現値確率 x i Pr( = x i ) 0 0.15 1 0.50 0.30 3 0.04 4 0.01 合計 1 母平均 1.6 母分散 0.63 母標準偏差 0.795 標本 { i } = { 1, 0, 1,,,1 } サイズ = 64 の標本を抽出 たまたま得られた値 ( 標本変動 ) 標本平均 標本分散 s s 標本標準偏差 点推定値 1.1 0.68 s x 0.86 0.63 1.1は N 1.6, の実現値の一つと考えることができる 64
区間推定 (1) 例.A 市の 40 歳既婚 性の 供の数 に関する 集団分布 集団分布 平均 :? 分散 : 標本抽出 サンプル サイズ 64 わかっていること 64, 1.1, 0.63 調べたいこと 0.795 分散 はわかっているものと仮定 ( この仮定が成 しないケースは後で扱う ) 母平均 が95% の確率で存在する ような範囲 95% 信頼区間 64 の標本平均 1.1 標本抽出を何回も繰り返したとき, は 95% の確率で上記の区間に含まれるという考え 区間推定とは, 信頼区間を求めること 3
区間推定 () Step-1 標本平均を標準正規分布に直して考えてみる 0.63 ~ N, より, 64 0.63 64 Pr 1.96 が95% で存在する範囲は 0.63 64 0.63 64 ~ 1.96 0.95 N 0,1 であるから Step- 確率関数の不等式を について解くと 0.63 0.63 1.96 1.96 64 64 a b 4
区間推定 (3) 5 1.95 8 0.795 1.96 1.1 64 0.63 1.96 0.905 8 0.795 1.96 1.1 64 0.63 1.96 b a 信頼区間 はの 母平均 % 95 1.95.905 0 下限と上限の値を計算する. Step-3
区間推定 (4) 95 % 信頼区間 母分散 ( 母標準偏差 ) の母集団分布からサイズの標本を抽出し, 標本平均をとする このとき母平均 の95% 信頼区間は次の式から 求める 1.96 1.96 6
例題 4. 区間推定 ランダムに 30 歳代独 性を 100 を選び平均貯蓄額を計算したところ,570 万円であった 貯蓄額の 平均 の 95% 信頼区間を求めなさい ただし, 標準偏差は = 00 万円であることがわかっている わかっていること 570, 100, 00 区間推定 a b 1.96 1.96 570 1.96 570 1.96 00 10 00 10 530.8 609. 30 歳代独 性の貯蓄額の 平均 の 95% 信頼区間は 530.8 609. 7
練習問題 (4) B 市に住む就業者をランダムに 64 を選び平均通勤時間を計算したところ,50 分であることがわかった.B 市における通勤時間の 平均 の 95% 信頼区間を求めなさい ただし, 標準偏差は = 0 [ 分 ] であることがわかっているものとする 8
言葉の定義 : 信頼区間, 信頼限界, 信頼係数, 信頼区間 Pr 1.96 1.96 下側信頼限界上側信頼限界 0.95 信頼係数 1.96, 1.96 を95% 信頼区間とよぶ 信頼区間の下限を下側信頼限界, 上限を上側信頼限界とよぶ 信頼区間を定めている確率を信頼係数とよぶ 9
信頼係数と信頼区間 信頼係数 90 % の信頼区間 1.645 1.645 Pr 1.645 1.645 0.90 なので 信頼係数 99 % の信頼区間.576.576 Pr.576.576 0.99 なので 30
信頼係数 ( 標準正規分布 ) Pr 1.645 Z 1.645 0. 90 Pr 1.645 1.96 Z 1.96 0. 95 1.96-4 - 0 4-4 - 0 4 Pr.576 Z.576 0. 99.576-4 - 0 4 標準正規分布表には正確な数値が されていないが, 臨界値は を使 する 信頼係数 90% 1.645 信頼係数 99%.576 31
練習問題 (5) ある県の 齢者 11 をランダムに抽出して,1 のテレビ視聴時間を調査したところ, 標本平均は 8 分であった. 信頼係数 90%,95% および 99 % のもとで, 齢者の視聴時間の 平均を区間推定しなさい. ただし, 標準偏差は = 0 [ 分 ] であることがわかっているものとする. 3