統計学 第 回 講義 仮説検定 Part-3 06 年 6 8 ( )3 限 担当教員 唐渡 広志 ( からと こうじ ) 研究室 経済学研究棟 4 階 43 号室 email kkarato@eco.u-toyama.ac.j webite htt://www3.u-toyama.ac.j/kkarato/
講義の目的 つの 集団の平均 ( 率 ) に差があるかどうかを検定する 法を理解します keyword: 仮説検定, 帰無仮説, 対 仮説, 有意 準, 検定統計量, 棄却域 参考書 砂. 75 90 居. 9 屋. 93 5
母比率の差の検定 (), つの地域において,9 歳の 性を対象に配偶者の有無を調査したところ次の結果が得られた 地域 と地域 の婚姻率には差があるといえるだろうか 有意 準 5% で検定しなさい 婚姻率には差があるといえるだろうか の婚姻率と の婚姻率の差の検定 地域 の真の婚姻率を を検定 H H 0 : :, 地域 を とおくとき との婚姻率に差はない との婚姻率に差はある 3
配偶者がいる人の割合 [%]( 女性 ) 9 歳 4 歳 9 歳 34 歳 39 歳 44 歳 49 歳 54 歳 59 歳 64 歳 新潟県.7 8.9 50.7 67.0 7.7 76.6 8. 8.6 8.6 77.0 富 県. 7.3 5.3 69.5 75.3 79.6 83. 84.0 8.3 78.0 川県.6 7.0 50.4 68.6 73.8 76.5 80.5 8.7 80. 76.4 福井県. 8. 5. 7. 78.5 80.8 8.8 84.6 8.4 76.6 梨県 0.9 7.4 50.6 68.8 73.8 76.8 80.4 8.3 79.6 76. 野県.8 7.5 50.9 68.3 73.9 77.8 8. 8.9 8. 78.8 岐 県.6 8.7 53. 70.3 76.0 79.0 8.9 83.7 8.7 78.9 静岡県.3 9.4 53.5 68.4 73.8 75.5 79.3 8.9 80.5 76.7 愛知県.9 7.7 54. 70.5 75. 77.4 80.0 8.5 80.8 77.7 三重県. 0.5 5.9 70.4 75.0 77.9 8. 83.7 8.6 78.7 滋賀県.6 7.6 5.5 70.7 77. 80.3 84.6 84.9 84.0 80. 国勢調査 ( 総務省 )00 年 4
母比率の差の検定 () 集団 地域 の9 歳 性婚姻率 母比率 : 母分散 : 試 回数 回の 項分布,, 集団 地域 の 9 歳 性婚姻率 母平均 : 母分散 : 標本抽出標本抽出 サンプル サイズ 80 サンプル サイズ 0 それ以外 = 0,,,,,, 結婚している = 標本比率 標本の婚姻率 標本比率 標本の婚姻率 i j 90 80 0.5 66 0 0.55 5
6 母比率の差の検定 (3) N N, ~,, ~ N V V V E, ~ 0, ~, N 標準化するとを検定するために, ( 比率の差 ) の分布を考える H 0 : 0 V V V 注意 差の分散は分散の和になる標本 率の分布 ( 中 極限定理 )
7 母比率の差の検定 (4) 合併標本比率 のもとでの検定統計量は以上より, より計算する. ( 合併標本比率 ) はただし, の分散を次のように書き換えることができる を定義 を仮に正しいと考えて, 合併標本比率 0 : : 0 0 j i H H と を合わせた婚姻率 ( 地域の区別なく求める標本 率 ) C z L 0 C z U 棄却域は両側にとる 0, ~ N
8 母比率の差の検定 (5) 0.849 0.0589 0.05 0.48 0.5 0 80 0.55 0.5 : 検定統計量 つの地域で婚姻率に差があるとはいえない 結論 を採択しない を棄却しない 判定 検定統計量は棄却域に入らないので :, : H 0 H 0.5 300 56 0 80 66 90 : j i 合併標本比率両側検定なので絶対値で棄却域を考える
練習問題 () サッカー 本代表のある国際 会における試合の視聴率は関東地区で 33 %, 関 地区で 7 % だった 関東と関 で視聴率に差があったと えるか 有意 準 5% で検定しなさい ただし, 標本サイズはどちらの地区も,000 であるとする 9
0
母平均の差の検定
母平均の差の検定 () 営の就職斡旋業者が 社に登録した の 年間の転職者数と, 登録してから実際に内定するまでの期間は以下の表のようになった 内定までの期間に男 差はあるだろうか. 有意 準 5% で検定しなさい ( 男 の内定までの平均期間を利 して有意差を検定 ) 期間 [ ] サンプルサイズ 平均 標準偏差 男性 = 353 34 4 性 = 87 9 39
求職期間の男女別分布 0.40 求職期間の分布 0.30 女性 相対度数 0.0 男性 男性女性 0.0 0.00
母平均の差の検定 () 集団, の平均は異なっているか? 集団 男性 転職者内定までにかかった期間 母平均 母分散 : : 集団 性 転職者内定までにかかった期間 母平均 母分散 : : 標本抽出 標本抽出 サンプル サイズ 353 サンプル サイズ 87,,,,,, 分に きいサイズの標本 34, 4 9, 39 x y 4
5 母平均の差の検定 (3) 男女それぞれの内定期間の標本平均は以下の分布にしたがう 母平均の差を調べるために, 標本平均の差がどのような分布かを調べる. を検定すればよい したがって, 内定期間に差があるかどうかを検証するにはもし, 男性 女性の内定期間の母平均が全く同じならば 0 : 0 : 0 H H N N, ~,, ~ 中心極限定理 V V E E E が十分に大きいとき ) は次の正規分布にしたがう ( このとき標本平均の差, N, ~ ( 両側検定 ) 差の分散 は 分散の和 になる
6 母平均の差の検定 (4) y x y x y x H N 0 0 : 0, ~,,, 検定統計量を正しいと仮定するとを標準化する. に置き換えてをが十分に大きいとき検定統計量棄却域 検定統計量検定統計量およびならば ) 棄却域は両側検定なので,( 有意水準が y x y x.96.96 5%
母平均の差の検定 (5) 情報の整理 353, 87, 34, 4, 4, 39 x y 棄却域 検定統計量 x y 34 9 4 39 353 87 5 9.0 5 5.387.78 判定検定統計量は棄却域に るので, 帰無仮説を棄却して, 対 仮説を採択する 結論 : 内定期間は男 で有意に異なる 7
練習問題 (3) 白砂.8 下表は の のカロリー摂取量を, 宅 と 宅外 に分けて調査した結 果である この結果から, 宅 は 宅外 より, のカロリー摂取量が多いと えるか 有意 準 % で検定 ( 右 側検定 ) しなさい 宅 宅外 サンプル サイズ = 400 = 400 標本平均 84 kcal 85 kcal 標本標準偏差 54 kcal 7 kcal x y 仮説 H H 0 : : 0 0 8
情報の整理 仮説の設定 棄却域 検定統計量 検定 結論 9
母平均の差の検定 (6) つの正規 集団の 分散が未知でサンプルサイズが きくない場合の 平均の差の検定 ある地域の持家世帯における 住宅あたり延べ 積 m は 集団 の標本 : 990 年 ( = 9), 平均 90 m, 標準偏差 38 m 集団 の標本 : 00 年 ( = 33), 平均 97 m, 標準偏差 40 m であった この 0 年間で住宅の延べ 積は変化したと えるか 延べ 積は正規分布にしたがい, と の 分散が等しいと仮定して有意 準 5% で両側検定をしなさい H 0 : 0を検証するために の分布を考える必要がある V サンプルサイズが小さいので 等分散の仮定 を x に, を が仮に成立しているとすると y に置き換えて分析できない 0
母平均の差の検定 (7) yy xx S S の推定等分散 j j yy i i xx S S, に置き換えるとを の分布自由度検定統計量 t ~ なのでのとき yy xx S S E
母平均の差の検定 (8) 数値例 9, 33, 90, 97, 38, 40 S xx 9 38 4043, S 33 40 500 S x Syy xx 4043 500 9 33 yy x 963 60 y 57. y 検定統計量 9 90 97 33 7 0.064857. 7 9.948 0.704 棄却域 t 0.05,60 または t 0.05,60 判定 結論 t 0.05,60.000 より, 検定統計量は棄却域に入らない 帰無仮説を棄却できないので, 対立仮説を採択しない 0 年間で住宅の延べ 積が変化したとは えない
練習問題 (4) 勤続年数について つの業種の 40 歳代の労働者それぞれを調査したところ以下の結果が得られた 集団 の標本 : 製造業 ( = 4), 平均. 年, 標準偏差 3.6 年 集団 の標本 : 情報通信業 ( = 3), 平均 4.5 年, 標準偏差 3.4 年であった 業種によって勤続年数に違いがあるかどうか, 有意 準 5% で両側検定をしなさい S S 4, 3,., 4.5, 3.6, 3.4 xx yy 臨界値は t x 4 3 Sxx Syy y 45, 0.05.04 3.6 3.4 x 98.08 54.3 98.08 54.3 4 3 y 55.4 45.756 3
4
対応のある 組の平均の差の検定 () 例. ある 場における製造製品は, 最終的には従業員による 作業によって完成する いま, 製造過程を 幅に 直し効率化を図った か 後, 製造過程の 直し前後の従業員の作業効率性 ( 時間当たり製造個数 ) を調査したところ以下が得られた id 直し後 直し前差 id 直し後 直し前差 d d 5 3 8 69 79-0 90 95-5 9 5 08 7 3 58 44 4 0 04 0 4 7 4 3 40 35 5 5 4 0 3 6 7 6 96 95 3 98 83 5 7 3 3 0 4 07 5 8 50 5-5 50 37 3 9 8 4 4 6 40 3 9 0 37 4-5 7 07 93 4 96 85 8 5 7-80 64 6 9 78 63 5 3 50 40 0 30 57 47 0 4 09 07 3 6 6 0 5 3 95 8 6 43 43 0 平均 6.6 0.0 6.5 7 34 3 3 標準偏差 5.4 3. 7.8 差の定義 d i 製造過程の 直しによって従業員の作業効率は まったと えるか? 有意 準 5% で仮説検定する i i 5
対応のある 組の平均の差の検定 () 集団 ( 直し後 ) 母平均 母分散 集団は正規分布を想定 集団 ( 直し前 ),,,,, d, d,,, : : d d d : 差の平均 : 差の標準偏差 母平均 母分散 : : 検定統計量 : H d d : 0 のもとで ~ 自由度 のt 分布 0 d d 6
対応のある 組の平均の差の検定 (3) 仮説 H H 0 : : 0 0 効率性が まったかどうかを検証するので, 右 側検定を う 検定統計量 H 0 : 0 のもとで d d d d ~ 自由度 のt 分布 棄却域 t 0.05, d d t : 自由度 の分布における片側 5% 臨界値 0.05, t 判定 検定統計量が棄却域に るとき,H 0 を棄却,H を採択 7
対応のある 組の平均の差の検定 (4) 情報の整理 3, d 6.548, d 7.835 d 6.548 3 検定統計量 4. 64 7.835 d 棄却域 臨界値は t 0. 697 より.05,30.697 d d 判定 検定統計量 4.64 は臨界値.697 よりも きいので棄却域に る H 0 を棄却し,H を採択する 対応のない 組の平均の差と なした場合の検定と 較 対応のあるデータは同 個体の 較をしているので, 個 差が消える ( ばらつきが さくなる ) d / が さい 検定統計量は きな値となる 6.58 0.03 6.548 検定統計量. 059 ( 有意でない ) 5.4 3.3 38.39 x y 3 3 グループごとに集計しているためばらつきが きい 8
練習問題 (5) 売業に勤める 0 歳代男性労働者 7 を対象にリーマンショック前後 (008--009 年 ) の か 当たり残業時間を調べたところ 008 年平均 5.9 時間 009 年平均.7 時間であった 時点の差の平均は 4. 時間, 差の標準偏差は.7 時間であった リーマンショック前後で残業時間に変化があったかどうかを, 有意 準 5% で両側検定しなさい ヒント: d d 4..7 7 9
まとめ 検定統計量 ~ 分布 率の差の検定 H 0 : 0 ~ N 0, 平均の差の検定対応のないグループの 較 H0 : 0 x y ~ N 0, 標本 ~ 自由度 の t 分布 標本, 分散未知 平均の差の検定対応のあるグループの 較 H0 : 0 d d ~ 自由度 のt 分布 30