統計学 Ⅱ(06) 0 章 0 章 統計学の基本的な考え方 データ = 母集団から抽出された標本とみなす 実際に標本抽出されたデータ 視聴率, 失業率 そうでないデータ GDP, 株価, 為替レート, 試験の得点 このようなデータも母集団からの標本とみなす ( 母集団を想定する ) cf. 例題 0

Similar documents
Microsoft PowerPoint - statistics pptx

基礎統計

Microsoft PowerPoint - stat-2014-[9] pptx

母平均 母分散 母標準偏差は, が連続的な場合も含めて, すべての個体の特性値 のすべての実現値 の平均 分散 標準偏差であると考えてよい 有限母集団で が離散的な場合, まさにその意味になるが, そうでない場合も, このように理解してよい 5 母数 母集団から定まる定数のこと 母平均, 母分散,

Microsoft PowerPoint - Statistics[B]

EBNと疫学

<4D F736F F D208EC08CB18C7689E68A E F AA957A82C682948C9F92E82E646F63>

統計学 Ⅱ( 章 ( 区間推定のシミュレーション 母平均 μ の区間推定 X ~ N, のとき X T ~ 自由度 1の t分布 1 自由度 -1のt 分布の97.5% 点 :t.975 P t T t この式に T を代入する t.975 母集団

Microsoft PowerPoint - statistics pptx

統計学 Ⅱ8-9 章 確率分布 確率の条件 8 ページ p: 確率関数 p は の関数とみなせる 確率分布 : すべてのに関する = または p の分布 グラフや表で表わすことが多い サイコロの例 : 計 縦軸は p または = 棒の幅は 線 確率 p.. = / / / / / / サイコロの目の

<4D F736F F D208EC08CB18C7689E68A E F1939D8C E82E646F63>

Microsoft PowerPoint - 基礎・経済統計6.ppt

Microsoft PowerPoint - statistics pptx

不偏推定量

<4D F736F F D2090B695A8939D8C768A E F AA957A82C682948C9F92E8>

講義「○○○○」

情報工学概論

ビジネス統計 統計基礎とエクセル分析 正誤表

<4D F736F F D208EC08CB18C7689E68A E F193F18D8095AA957A C C839395AA957A814590B38B4B95AA957A2E646F63>

<4D F736F F D208D A778D5A8A778F4B8E7793B CC A7795D2816A2E646F6378>

Microsoft PowerPoint - sc7.ppt [互換モード]

Python-statistics5 Python で統計学を学ぶ (5) この内容は山田 杉澤 村井 (2008) R によるやさしい統計学 (

_KyoukaNaiyou_No.4

Microsoft PowerPoint slide2forWeb.ppt [互換モード]

24 7 I., X, x X. Radom Samplig with Replacemet ( ) 1,.,, 1 X 1, 2 X 2,..., X., X 1, X 2,..., X ( ).,.,,. Estimate of Populatio Parameters ( ),..,,.. 7

Microsoft Word - appendix_b

第7章

統計学の基礎から学ぶ実験計画法ー1

モジュール1のまとめ

森林水文 水資源学 2 2. 水文統計 豪雨があった時, 新聞やテレビのニュースで 50 年に一度の大雨だった などと報告されることがある. 今争点となっている川辺川ダムは,80 年に 1 回の洪水を想定して治水計画が立てられている. 畑地かんがいでは,10 年に 1 回の渇水を対象として計画が立て

統計学 - 社会統計の基礎 - 正規分布 標準正規分布累積分布関数の逆関数 t 分布正規分布に従うサンプルの平均の信頼区間 担当 : 岸 康人 資料ページ :

ii 2. F. ( ), ,,. 5. G., L., D. ( ) ( ), 2005.,. 6.,,. 7.,. 8. ( ), , (20 ). 1. (75% ) (25% ). 60.,. 2. =8 5, =8 4 (. 1.) 1.,,

ファイナンスのための数学基礎 第1回 オリエンテーション、ベクトル

<4D F736F F D208EC08CB18C7689E68A E F193F18D8095AA957A C C839395AA957A814590B38B4B95AA957A2E646F63>

統計的データ解析

自動車感性評価学 1. 二項検定 内容 2 3. 質的データの解析方法 1 ( 名義尺度 ) 2.χ 2 検定 タイプ 1. 二項検定 官能検査における分類データの解析法 識別できるかを調べる 嗜好に差があるかを調べる 2 点比較法 2 点識別法 2 点嗜好法 3 点比較法 3 点識別法 3 点嗜好

講座内容 第 1 週 データサイエンスとは 第 2 週 分析の概念と事例ビジネス課題解決のためのデータ分析基礎 ( 事例と手法 )1 第 3 週 分析の具体的手法ビジネス課題解決のためのデータ分析基礎 ( 事例と手法 )2 第 4 週 ビジネスにおける予測と分析結果の報告ビジネス課題解決のためのデー

禁無断転載 第 3 章統計的手法に用いられる分布 All rights reserved (C) 芳賀 第 1 節我々の身の回りにある代表的分布と性質 1. 分布の表わし方我々の身の回りにある全てのものは ばらつきを持っています 収集したデータを分析していくためには このばらつきがどのような分布にな

Microsoft PowerPoint - 測量学.ppt [互換モード]

Microsoft PowerPoint - データ解析基礎2.ppt

第 3 回講義の項目と概要 統計的手法入門 : 品質のばらつきを解析する 平均と標準偏差 (P30) a) データは平均を見ただけではわからない 平均が同じだからといって 同一視してはいけない b) データのばらつきを示す 標準偏差 にも注目しよう c) 平均

24 6 I., X, x X. Radom Samplig with Replacemet ( ) 1,.,, 1 X 1, 2 X 2,..., X., X 1, X 2,..., X ( ).,.,,. Estimate of Populatio Parameters ( ),..,,.. 6

3章 度数分布とヒストグラム

RSS Higher Certificate in Statistics, Specimen A Module 3: Basic Statistical Methods Solutions Question 1 (i) 帰無仮説 : 200C と 250C において鉄鋼の破壊応力の母平均には違いはな

したがって ばらつきを表すには 偏差の符号をなくしてから平均化する必要がある そのひとつの方法は 1 偏差の絶対値を用いることである 偏差の絶対値の算術平均を 平均偏差 という ( )/5=10.8 偏差の符号を取るもうひとつの方法は 2それを2 乗することです 偏差の2 乗の算

Excelによる統計分析検定_知識編_小塚明_5_9章.indd

3章 度数分布とヒストグラム

Microsoft PowerPoint - 代表値と散布度.ppt [互換モード]

平成 7 年度数学 (3) あるゲームを 回行ったときに勝つ確率が. 8のプレイヤーがいる このゲームは 回ごとに独 立であるとする a. このゲームを 5 回行う場合 中心極限定理を用いると このプレイヤーが 5 回以上勝つ確率 は である. 回以上ゲームをした場合 そのうちの勝ち数が 3 割以上

untitled

0415

FdData中間期末数学3年

Microsoft Word - apstattext04.docx

確率分布 - 確率と計算 1 6 回に 1 回の割合で 1 の目が出るさいころがある. このさいころを 6 回投げたとき,1 度も 1 の目が出ない確率を求めよ. 5 6 /6 6 =15625/46656= (5/6) 6 = ある市の気象観測所での記録では, 毎年雨の降る

Microsoft Word - Stattext11.doc

Microsoft PowerPoint - A1.ppt [互換モード]

切片 ( 定数項 ) ダミー 以下の単回帰モデルを考えよう これは賃金と就業年数の関係を分析している : ( 賃金関数 ) ここで Y i = α + β X i + u i, i =1,, n, u i ~ i.i.d. N(0, σ 2 ) Y i : 賃金の対数値, X i : 就業年数. (

Microsoft Word - Stattext12.doc

スライド 1

Probit , Mixed logit

Microsoft PowerPoint - データ解析基礎4.ppt [互換モード]

抽出方法 : 層化 2 段無作為抽出法 調査時期 合計調査数 有効回収数 回収率 年度 調査実施時期 合計調査数 有効回収数 回収率 ( 内新規 ) ( 内新規 ) ( 内新規 ) 2003 年 2003(H15) 年 2 月 2,000 2,000 1,418 1, % 71.1%

Excelによる統計分析検定_知識編_小塚明_1_4章.indd

Microsoft PowerPoint - Lecture 10.ppt [互換モード]

(3) 検定統計量の有意確率にもとづく仮説の採否データから有意確率 (significant probability, p 値 ) を求め 有意水準と照合する 有意確率とは データの分析によって得られた統計値が偶然おこる確率のこと あらかじめ設定した有意確率より低い場合は 帰無仮説を棄却して対立仮説

Microsoft PowerPoint - 14都市工学数理ノンパラ.pptx

データ解析

視聴率の仕組みについて学び 本題に入っていきたい 第 1 項視聴率調査の仕組み視聴率には 世帯視聴率と個人視聴率の2 種類があり一般的にニュースで取り上げる場合は世帯視聴率を用いている 今回は 世帯視聴率について追究していきたい 現在 世帯視聴率調査を行っている有力会社が ビデオリサーチ 1つのみで

Microsoft PowerPoint - e-stat(OLS).pptx

スライド 1

切断安定分布による資産収益率のファットテイル性のモデル化とVaR・ESの計測手法におけるモデル・リスクの数値的分析

3 世帯属性ごとのサンプルの分布 ( 両調査の比較 参考 3) 全国消費実態調査は 相対的に 40 歳未満の世帯や単身世帯が多いなどの特徴がある 国民生活基礎調査は 高齢者世帯や郡部 町村居住者が多いなどの特徴がある 4 相対的貧困世帯の特徴 ( 全世帯との比較 参考 4) 相対的貧困世帯の特徴とし

Microsoft Word - Stattext13.doc

解答のポイント 第 1 章問 1 ポイント仮に1 年生全員の数が 100 人であったとする.100 人全員に数学の試験を課して, それらの 100 人の個人個人の点数が母集団となる. 問 2 ポイント仮に10 人を抽出するとする. 学生に1から 100 までの番号を割り当てたとする. 箱の中に番号札

Microsoft PowerPoint - Inoue-statistics [互換モード]

untitled

統計Ⅰ 第1回 序説~確率

日経平均株価の推移 ( 円 ) 5,, 15, 1, 5, ( データ ) 日経 NEEDS 3 日本株価の推移 (1 年 1 月 =1) 5 日経平均 TOPIX JASDAQ ( データ ) 日

青焼 1章[15-52].indd

PowerPoint プレゼンテーション

布に従う しかし サイコロが均質でなく偏っていて の出る確率がひとつひとつ異なっているならば 二項分布でなくなる そこで このような場合に の出る確率が同じであるサイコロをもっている対象者をひとつのグループにまとめてしまえば このグループの中では回数分布は二項分布になる 全グループの合計の分布を求め

(.3) 式 z / の計算, alpha( ), sigma( ) から, 値 ( 区間幅 ) を計算 siki.3<-fuctio(, alpha, sigma) elta <- qorm(-alpha/) sigma /sqrt() elta [ 例 ]., 信頼率 として, サイ

3. 株式投資の リスクとリターン 経済統計分析 (2015 年度春学期 )

経済統計分析1 イントロダクション

スライド 1

カイ二乗フィット検定、パラメータの誤差

Microsoft Word - apstattext05.docx

経営統計学

統計学 Ⅰ(8) 累積度数 : ある階級以下に含まれる度数の合計 階級 度数 相対度数累積度数 累積相対度数 点以上 ~ 点未満.. ~.. ~. 7. ~ 6..6 ~. 6.8 ~ ~ ~ ~ ~.. ~.. 合計. - -

関東地区テレビ視聴率調査の仕様変更について ~サンプル拡張とタイムシフト測定~

母集団と標本

Microsoft Word - Stattext07.doc

はじめに Excel における計算式の入力方法の基礎 Excel では計算式を入力することで様々な計算を行うことができる 例えば はセルに =SQRT((4^2)/3+3*5-2) と入力することで算出される ( 答え ) どのような数式が使えるかは 数式

日心TWS

9. 統計学I

基礎統計

Excelによる統計分析検定_知識編_小塚明_1_4章.indd

平均値 () 次のデータは, ある高校生 7 人が ヵ月にカレーライスを食べた回数 x を調べたものである 0,8,4,6,9,5,7 ( 回 ) このデータの平均値 x を求めよ () 右の表から, テレビをみた時間 x の平均値を求めよ 階級 ( 分 ) 階級値度数 x( 分 ) f( 人 )

相対的貧困率等に関する調査分析結果について

Microsoft Word - 【確定版】H27都道府県別生命表作成方法

Transcription:

統計学 Ⅱ(06) 0 章 0 章 0 章標本抽出と標本分布. 母集団と標本 () 視聴率調査 () 有限母集団と無限母集団 (3) データと母集団. 標本抽出法 () 全数調査と標本調査 () 無作為抽出と有意抽出 (3) 単純無作為抽出法 (4) 層別抽出法 (5) 多段抽出法 (6) 系統抽出法 (7) その他の抽出法 3. 標本平均 の標本分布 () 標本平均の標本分布の例 () 標本平均 の標本分布の平均 (3) 標本平均の標本分布の分散 (4) 有限母集団からの標本平均 の標本分布 4. 統計量の標本分布と比率への応用 () 標本分布の考え方 () 統計量とパラメータ, 推定量と推定値 (3) 標本比率の標本分布 (4) 標本比率の標本分布の平均と分散 5. 中心極限定理 () 母集団分布が正規分布の場合 () 中心極限定理 (3) 中心極限定理の応用 6. t 分布 () t 統計量とt 分布 () t 分布表 7. 歪度統計量と尖度統計量の分布 母集団と標本 () 視聴率調査 名古屋地区である番組をみた人がどのくらいの割合かを表す例 ある番組の視聴率が0% であった 名古屋地区の0% の人が, その番組を見ていた? 教科書 4-3 ページ 自分は調査されていない名古屋地区に住んでいる人すべてを調査してない 参考 視聴率調査は ビデオリサーチによる http//www.videor.co.jp/ide.htm 名古屋地区全体 ( 愛知, 岐阜, 三重の大部分 )................... 視聴率調査のしくみ 標本抽出 推定 調査世帯 (600 世帯 )..... 0% の視聴率?% あくまでも調査した 本当に知りたいが視聴率 ( わからない ) 世帯の0% 視聴率調査の対象 人 口 世帯数 愛知県 7,40,79,933,80 名古屋市,63,894,0,7 岐阜県,080,773 737,5 三重県,854,74 704,607 三県合計,8,89 4,44,50 資料 総務省 平成 年国勢調査 視聴率の調査対象エリアは,3 県のすべてではない 愛知県の30 市 6 郡 7 町, 岐阜県の4 市 4 郡 4 町, 三重県の5 市 郡 4 町 対象は約 375 万 千世帯 ( 約 9 万 千人 ) 600 0.0006 0.06% しか調査していない 375000 抽出率 母集団と標本 母集団 (populatio) 本当にしりたい対象 (e. 視聴率の名古屋地区全体 ) 通常は, 調査不可能 費用, 時間, 労力 標本 (sample) 実際に知ることができる対象 (e.600 世帯 ) 特定の調査対象を何らかの基準によって選ぶ ほとんどの統計調査は, 標本調査 標本から得られた結果 = データ 標本調査における課題 母集団から, どのように標本を選ぶか 標本抽出法 (0 章 ) 標本の結果から, 母集団を情報をどのように予想するか 統計的推論 推定 ( 章 ),( 仮説 ) 検定 ( 章 ) () 有限母集団と無限母集団 母集団の大きさ N 標本の大きさ ( データの個数 ) 視聴率調査母集団の大きさNは有限 有限母集団 全数調査をすれば, 母集団の情報を知ることができる 無限母集団 母集団の大きさNが無限 サイコロでの目が出る確率を推定する ある工場で生産される電球の寿命時間の平均を推定する Nが有限であっても, Nが十分大きければ無限母集団とみなす 第 章 (4-5 ページ ) 参照

統計学 Ⅱ(06) 0 章 0 章 統計学の基本的な考え方 データ = 母集団から抽出された標本とみなす 実際に標本抽出されたデータ 視聴率, 失業率 そうでないデータ GDP, 株価, 為替レート, 試験の得点 このようなデータも母集団からの標本とみなす ( 母集団を想定する ) cf. 例題 0. 理由 データ = 標本とみなすことによって様々な統計的手法を適用することができる () 全数調査と標本調査 全数調査 ( センサス ) 母集団全体を調査する 実施はむずかしい 標本抽出法 費用, 時間 例 総務省 国勢調査 経済センサス 標本調査 母集団のすべてではなく, その一部を調査する ほとんどが標本調査 教科書 3-38 ページ 視聴率調査 標本調査の例 関東 関西 名古屋地区 600 世帯 ( 名古屋地区は以前は50 世帯 ) 九州, 札幌, 仙台地区など 00 世帯 失業率 総務省 労働力調査 母集団 全国の5 歳以上人口 ( 約 億 千万人 ) 標本 約 0 万人 家計の所得 貯蓄など 総務省 家計調査 母集団 全国の約 508 万世帯 ( 平成 年国勢調査による ) = 二人以上の世帯 (3506 万世帯 )+ 単身者世帯 (5 万世帯 ) 標本 約 9000 世帯 二人以上の世帯 8076 世帯 + 単身者世帯 673 世帯 その他ほとんどの調査 ( 内閣支持率, 様々なアンケート調査, 民間給与実態統計調査 ) () 無作為抽出と有意抽出 抽出される標本 母集団を代表するものでなければならない 特定の集団に偏った標本はよくない例 視聴率調査で, 特定の年齢層だけを標本に選ぶ 街頭インタビュー 大統領選挙の例 特定の人に偏らないように, 標本をいかに抽出するかを考える ランダムサンプリングと有意抽出 偏りのない標本をどのように抽出するか くじびきの原理で抽出 ランダム サンプリング ( 無作為抽出法 ) 無作為 ( 確率的 ) に標本を抽出 有意抽出 ( ランダム サンプリング以外の抽出 ) 確率的に標本抽出するのではない 恣意的に標本を抽出 街頭インタビュー, ヒアリング インターネットによる調査 調査対象を募集する ( モニター募集など ) 偏った標本なので, 母集団の推定が効率的に行えない ランダム サンプリングから得られた標本だと, 標本から母集団への推定がうまくいく 独立性を確保できる (3) 単純無作為抽出法 偏りのない標本を抽出する 特定の人が選ばれやすくならないようにする どの標本も選ばれる確率が等しくなるように標本を抽出する =くじびきの原理 単純無作為抽出法 (Simple Radom Samplig) SRS, シンプル ランダム サンプリング 単にランダム サンプリングと呼ぶこともある

統計学 Ⅱ(06) 0 章 0 章 ( 単純 ) 無作為抽出の抽出方法. 母集団に番号をつける. 母集団の番号ぶんだけのくじをつくる 3. よくかきまぜて, 調査する数 ( 標本の大きさ ) だけくじをひく 4. 選ばれた番号を標本として, 調査対象とする 乱数の利用 実際はくじのかわりに, 乱数 ( 表 ) が用いられる 乱数における数字 (e. 34ページ表 0 ) 数字の並び方に特定の規則はない 出やすい数字はない ケタの数0 9までの0 個の数字の出てくる頻度はほぼ同じ ケタの数00 99までの00 個の数字が出てくる頻度はほぼ同じ以下同様に,3ケタ,4ケタ 並びやすい数字はない e. のあとに が出やすいなどはない ( のあとの数字は, どの数字もほぼ同じ頻度で出現する ) ランダム サンプリングの例 ( 例 ) 母集団 400 人から5 人の標本を選ぶ. 母集団に,,,400の番号を振る. 乱数表の適当な箇所をスタート地点に選ぶ ( サイコロを振る, 目をつぶって指をあてる ) e. サイコロを 回振ったら5と3が出た 5 行目,3 個目の数字からスタート 3. スタート地点から3ケタずつ数字を拾う 母集団の大きさが400で3ケタだから 40よりも大きい数字だったら飛ばす 400 以下の数字が5 個出てくるまで数字を拾っていく 9,035,(44),0,309,(98),33 Ecelでの乱数発生 RAND 関数,RANDBETWEEN 関数 乱数で同じ番号が出てきたら? 同じ番号が選ばれた場合の対処の仕方. 回目 ( あるいはそれ以上 ) 以降は飛ばす 重複を許さない抽出 ( 非復元抽出 ). 同じ番号の人は 人分とみなす 重複を許す抽出 ( 復元抽出 ) どちらの方法でもよい 実際には重複を許さない抽出がとられることが多い ( 同じ人は選ばない 理論的には重複を許す抽出の方が正しい 有限母集団と無限母集団の項を参照 有限母集団における抽出 復元抽出と非復元抽出の例 簡単な例 母集団 =5 人 ( 有限母集団 ) 視聴率調査を考え,5 人のうち3 人が母集団標本 a ある番組を見ていたとする b 母集団の視聴率 =0.6 c 人の標本を抽出する p 0.6 d e 重複を許さない抽出 ( 非復元抽出 ) 人目を抽出するとき, 母集団の視聴率は0.6 もしbが選ばれたら, 人目を抽出するときの母集団視聴率は0.5 同一の母集団視聴率から標本を選べない 重複を許す抽出 ( 復元抽出 )無限母集団と同じ 人目を抽出しても, 母集団に戻して 人目を抽出する 常に同一の視聴率から標本を抽出でき, 独立性も確保される (iid) 復元抽出と非復元抽出 有限母集団における標本の選び方 同じ対象を重複して選んでもよい 重複を許す抽出 ( 復元抽出 )無限母集団と同じ 同じ対象を 度選ぶことはしない 重複を許さない抽出 ( 非復元抽出 ) 非復元抽出だと iid にならない 同一の母集団からの抽出 iid 独立性 復元抽出の方が理論的には望ましい ただしNが十分大きければ, 非復元抽出でも,iidと考えることができる 3

統計学 Ⅱ(06) 0 章 0 章 ランダム サンプリングの問題点 ランダム サンプリング偏りのない標本抽出の基本 しかし, 結果として, 偏った標本となり得る ( くじなので, 何が起こるのかはわからない.e. 女子だけが選ばれる ) 母集団を代表する保障はない 母集団の完全なリストも必要になる ランダム サンプリングを若干修正した標本抽出法が考えられている 層化 ( 層別 ) 抽出法 多段抽出法 系統抽出法 実際には, これらの方法がよく用いられている (4) 層化抽出法 ( 層別抽出法 ) 事前に母集団をいくつかのグループ ( 層 ) に分ける 各グループ ( 層 ) ごとにランダム サンプリングを行う 標本の大きさは, 母集団の各層の大きさに比例させる 母集団に関する事前の情報を利用する................... 母集団 ランダムサンプリング ランダムサンプリング ランダムサンプリング ランダムサンプリング 層化抽出法..... 標本 e. 学生の通学時間調査 全学の男女比が 8 であれば 00 人の標本をとるとすると 男 60 人, 女 40 人の標本 結果として, 偏った標本になることはない しかし, 純粋なシンプル ランダム サンプリングとは異なる 層化抽出法におけるグループ ( 層 ) 分析の結果に大きな影響を与えると思われる主な属性で, 母集団をグループ分けをする 都市階級 地域 事業所規模 ( 従業員規模 ) 性別 年齢 大きな影響を与えない属性は用いない 層は細かくしすぎない 例 総務省 家計調査 県庁所在地, 政令指定都市, 都市階級と地域によって, 市町村を層別して抽出 ( 都道府県はなく, 県庁所在地 ) 国税庁 民間給与実態統計調査 従業員規模によって, 事業所を抽出 (5) 多段抽出法 地域を先に抽出する ( ランダム サンプリングによる ) e. 市町村の抽出 調査区の抽出 選ばれた地域の中で, ランダムサンプリングによって, 世帯 個人を抽出する 多段抽出法の利点 調査地域が散らばらない 時間 費用などの面から効率的 母集団の完全なリストは必要ない 例. 総務省統計局 家計調査 市町村の抽出 国勢調査の調査区を抽出 世帯を抽出 市町村の抽出は層化抽出 層化 3 段抽出 (6) 系統抽出法 母集団に割り振られた番号を, 一定の間隔で選んでいく 例 800 人から0 人を選ぶ 800 0=40 人に 人ずつ抽出する ~40, 4~80, 8~0,,76~800からそれぞれ 人を抽出 最初の番号を,から40の中から乱数で選択 e.7 7,57,97,,777を標本として抽出 より一般的に 間隔 = 母集団の大きさ 標本の大きさ m N / 最初の番号は乱数で選択 (~mよりつ選択 =K) 選択された乱数に間隔を加えていく 系統抽出法 = 等間隔抽出法 K, K m, K m,, K ( ) m 系統抽出法の例 視聴率調査 ( ウェブサイト参照 ) 4

統計学 Ⅱ(06) 0 章 0 章 (7) その他の標本抽出法 確率比例抽出法 RDD 様々な標本調査法については, 島崎哲彦 大竹延幸編 (03) 社会調査の実際 学文社 などを参考のこと いずれの標本抽出法も, ランダム サンプリングが基本になっている 教科書 38-44 ページ 3 標本平均 の標本分布 基本的な考え方 データ= 母集団からの標本 知りたいのは母集団の情報 母集団から, どのように標本を選ぶか 標本抽出法 =ランダム サンプリングが基本 標本の結果から, 母集団の情報をどのように予想 ( 推定 ) するか 標本分布という考え方をもとに推定などを行う () 標本平均の標本分布の例 (38 4 ページ ) N=00 の母集団から大きさ =8 の標本を抽出 抽出される標本の組合せを考える 重複を許す抽出 繰り返し標本を抽出すると, 各標本で標本平均を計算することができる その分布を標本平均 の標 本分布という表 0, 図 0 3 母集団 N=00,, 3, 99, 00 標本 60, 4, 5 38.375 標本 5, 5, 53.65 8 標本 00 58, 38, 45 5 標本分布のイメージ 母集団.............. 標本確率変数,.... 実現値 ( データ ),,, 標本 確率変数,,, 標本 標本 の標本分布 実現する前の確率変数として, 標本平均を考える 母集団分布 の分布 = 母集団分布 母集団..............,, 標本 = データ,, の分布 = 母集団分布 データ,,, の背後に確率変数,,, を考える ( 母集団 ),,, に共通の母集団分布を想定する (iid) 標本平均 の標本分布の例 例教科書練習問題 3(6ページ ) N=4の母集団 (0,0,40,90) から =の標本を抽出 ( 重複を許す抽出 ) = N=4 0 0 0 40 90 0,0 = 0,0 5 5

統計学 Ⅱ(06) 0 章 0 章 母集団分布 母集団分布と特性値 ( 通常は未知 ) i i i -μ ( i -μ) 0 0 3 40 4 90 合計平均 分散 標準偏差 階級 度数 0-0 3 0-40 0 40-60 60-80 0 80-00 合計 4 0 母集団分布 答. 母平均 μ=35 母分散 σ =5 母標準偏差 σ=35 0 40 60 80 00 標本平均の標本分布 ( 無限母集団 ) 4 =6 通りの標本が考えられる 6 通りの 標本番号 標本 標本平均 0 0 0 0 0 5 3 0 40 0 4 0 90 45 5 0 0 5 6 0 0 0 7 0 40 5 8 0 90 50 9 40 0 0 0 40 0 5 40 40 40 40 90 65 3 90 0 45 4 90 0 50 5 90 40 65 6 90 90 90 標本平 均の標本分布 6 4 0 標本平均の標本分布 0 40 60 80 00 母集団 0,0,40,90 母平均 μ=35 母分散 σ =5 母標準偏差 σ=35 階級 度数 相対度数 0 以上 - 0 未満 4 0.5 0-40 4 0.5 40-60 5 0.35 60-80 0.5 80-00 0.065 合計 6.00 0.4 0.3 0. 0. 0 標本平均の標本分布 0 40 60 80 00 標本平均の標本分布の平均と分散 ( ) 0-35 5 5-30 900 3 0-5 5 4 45 0 00 5 5-30 900 6 0-5 65 7 5-0 00 8 50 5 5 9 0-5 5 0 5-0 00 40 5 5 65 30 900 3 45 0 00 4 50 5 5 5 65 30 900 6 90 55 305 合計 560 0 9800 平均 35 分散 6.5 標準偏差 4.75 標本平均の標本分布の平均は母平均に等しい 標本平均 平均 =35 母集団 0,0,40,90 母平均 μ=35 母分散 σ =5 母標準偏差 σ=35 の標本分布の = 母平均 μ 分散 =6.5 母分散 σ 5 標準偏差 =4.75 分散は母分散よりも小さい 平均すると, もとのデータより真ん中に集まる 標本平均 の標本分布の平均 =μ( 母平均 ) 標本平均 の標本分布 分散 = 標準偏差 = 標本平均 の標本分布の意味 によって を推定する根拠を与える 個 個の は を当てることはできない 有限母集団 ( 重複を許さない抽出 ) の場合は 44 ページ参照 (N が大きければ同じ結論 ) () 標本平均の標本分布の平均,,, iidデータ( ランダム サンプリングによる標本 ),,, iid ( 互いに独立に同一の分布に従う ) 標本平均の標本分布の平均 E( ) E ( ) E( ) E( ) E( ) E ) E( ) E( ) ( (3) 標本平均の標本分布の分散 標本平均の標本分布の分散は, 母集団分布の分散より小さい 分散の大きさ Var( ) Var ( ) Var( Var( ) Var( ) Var( ) Var( ) Var( ) Var( ) ) 6

統計学 Ⅱ(06) 0 章 0 章 実現した個々の はμと等しくない 一般的に 標本平均の標本分布の特徴 () 平均 しかし, の標本分布の平均はμに等しい 全体としてみれば ( 平均すれば ), は μ をうまくあてている をμの推定値として用いる根拠を与える 但し, 実際にはつの標本, が実現する の標本分布 標本平均の標本分布の特徴 () 分散 個々の は μ と等しくない 正確には μ を当てることはできない の標本分布の分散は を大きくすれば, 分散は小さくなる 分散が小さくなると, 実現する は μに近づいていく 標本平均の標本分布の特徴 (3) 分布の形 母集団分布は左右対称の分布 標本平均の標本分布は左右対称になる 母集団分布は左右対称のきれいな形の分布をしていなくても 標本平均の標本分布はほぼ左右対称になる 母集団分布標本平均 の標本分布 教科書 45-50 ページ 4 統計量の標本分布と比率への応用 () 標本分布の考え方 標本平均, 標本分散 y h,,, 実現値 ( データ ) の関数 データを実現させる確率変数を考える,,, は,,, から一定の確率で実現した Y=h(,,, ) も確率変数で, 確率分布をもつ= 標本分布 (samplig distributio) () 統計量とパラメータ, 推定量と推定値 統計量 Y=h(,,, ) 標本からある特性値を計算するための公式 統計量は確率変数 統計量の実現値 y=h(,,, ) 確率変数ではない ( 既知 ) パラメータ 母集団の特性値 ( 本当に知りたいこと ; 未知 ) 母 ( 集団 ) 平均, 母 ( 集団 ) 比率, 母 ( 集団 ) 分散 推定量 (estimator) パラメータを推定するための統計量 確率変数 推定値 (estimate) 推定量の実現値 確率変数ではない 母集団の情報 ( 未知 ) 母比率 p 母平均 μ 母分散 母標準偏差 パラメータと統計量の例 推定 パラメータ母集団における特性値 ( 本当に知りたい値だが, 未知 ) 確率変数 標本比率標本平均標本分散 S 標本標準偏差 統計量 標本の情報 ( 既知 ) 確率変数の実現値 pˆ S s s 7

統計学 Ⅱ(06) 0 章 0 章 比率と平均 比率は, 0 データの平均 例 コインの5 回投げたら 回表が出た, 表が出る比率 ( 割合 )=/5=0.4 i 表が出たら, 裏が出たら0をとる変数 5 回のうち 回表がでた,,0,0,0 0データの平均 0 0 0 0.4 比率 5 5 比率と平均は同じもの したがって標本分布も比率と平均ではほとんど同じ ( 母 ) 比率がpのとき 平均 p 分散 p(-p)=pq ( ただし,q=-p),0 データの平均と分散 教科書 50 ページ参照 i i i p ( i p) 0.6 0.36 0.6 0.36 3 0-0.4 0.6 4 0-0.4 0.6 5 0-0.4 0.6 合計 0. 平均 0.4 分散 0.4 p pq pがわかれば分散もわかる ( パラメータはつ ) e. p=0.8の場合, 分散 =pq=0.8 (-0.8)=0.8 0.=0.6 標本比率の標本分布 標本比率 = 標本平均 i か0をとる確率変数 i, 0 標本比率は標本平均 で表せる ただし, P ( i ) p, P ( i 0) pq i の平均 =p i の分散 =pq 標本比率の標本分布の平均と分散 ~ 標本平均の場合とほとんど同じ 平均 = 母平均 = 母比率 p 分散 = 母分散 (pq) i i (3) 標本比率の標本分布例 教科書練習問題 4,63 ページ 標本番号 標本 データ 標本比率 a a.0 a b.0 3 a c 0 0.5 4 a d 0 0.5 5 a e 0 0.5 6 b a.0 7 b b.0 8 b c 0 0.5 9 b d 0 0.5 0 b e 0 0.5 c a 0 0.5 c b 0 0.5 3 c c 0 0 0.0 4 c d 0 0 0.0 5 c e 0 0 0.0 6 d a 0 0.5 7 d b 0 0.5 8 d c 0 0 0.0 9 d d 0 0 0.0 0 d e 0 0 0.0 e a 0 0.5 e b 0 0.5 3 e c 0 0 0.0 4 e d 0 0 0.0 5 e e 0 0 0.0 合計平均 0.0 0.4 母集団 N=5 (,,0,0,0) 母比率 ( 平均 ) p=0.4 母分散 pq=0.4 0.6=0.4 ただし,q=-p 標本平均の場合と同様 p 0.4 標本比率 の標本分布平均 =0.4 = 母比率 p 分散 =0. 母分散 pq 標準偏差 =0.34 母集団 a b c d e 4 0 8 6 4 0 0 0.5 pq 0.6 0.4 標本 (4) 標本比率の標本分布の平均と分散 標本比率 の標本分布の平均 =p( 母比率 ) pq 分散 = 標準偏差 = ( q p) pq 5 中心極限定理 () 母集団分布が正規分布の場合 データ iid データであること 平均 分散 分布の形 母集団分布 正規分布 教科書 50-55 ページ の標本分布 正規分布 8

統計学 Ⅱ(06) 0 章 0 章 () 中心極限定理 母集団分布が一般の場合 データ iid データ が大きい 平均 分散 分布の形 母集団分布 の標本分布? 正規分布 母集団分布標本平均の標本分布 標本平均 の基準化 の標本分布の平均 =μ, 分散標準偏差 基準化する Z Zの平均は0, 分散は( 標準偏差は) また, は正規分布にしたがうので,Zも正規分布にしたがう= 中心極限定理 Z ~N(0,) 条件,,, iid 大きい 中心極限定理のイメージ 母集団 N.............. 標本 標本 標本 標本 N(, ) z z z z の標本分布 ~ Z~N (0,) 中心極限定理 データが独立に同一の分布から抽出され (iidデータ) 標本の大きさが十分大きいとき母集団分布がどのような形の分布でも, Z は標準正規分布 N(0,) で近似できる 母集団分布 標本平均 の標本分布 N(, ) 教科書 53 ページ Z の分布 0 N(0,) 標本比率に関する中心極限定理 標本比率の標本分布の平均 =p( 母比率 ) 分散 = 標準偏差 = pq pq Z が大きければ, は正規分布 pq N( p, ) で近似 できる を基準化 p ~N(0,) pq (3) 中心極限定理の応用 p.54 例題 0. 母集団................... 0.5% 4 % 標本 =5..... P( 0) 0 P( ) 0 0.5 P( Z ) 5 P( Z.5) 0.8944 9

統計学 Ⅱ(06) 0 章 0 章 6 t 分布 () t 統計量と t 分布 i ~N(μ,σ ) のとき iid Z ~N(0,) ただし,μ と σ は一般に未知 σを計算可能な値で置き換える標本標準偏差 S S 置き換えた値を T とする (も-で置き換える) T S S 教科書 55-6 ページ S i ( μ を推定するため ( 章で利用 ) T t 統計量 i ) t 統計量のイメージ 母集団 N.............. 標本 標本 標本 標本 の標本分布基準化 σをsで置き換え z t s z t s z t s z t s N(, ) Z~N(0,) T ~ 自由度 -のt 分布 t 統計量と t 分布 t 統計量 T は, 標準正規分布 (0,) S ではなく, 自由度 m= の t 分布に従う t 分布では, 標準正規分布より,0から離れた値をとる確率が高い ( スソの厚い分布 ) 左右対称の分布で, 平均は 0 T m S と書くこともある t 分布の形状 t 分布は, 自由度 ( データ数 ) によって形が変わる 自由度 =- ET m 0 Var 自由度が大きくなると,t 分布は標準正規分布に近づく t 分布 データが少ないとき ( 小標本 ) に利用される データ数が多ければ, 標準正規分布 N(0,) を用いて構わない ( t 分布と標準正規分布で結果に大差ない ) T m m m m () t 分布表 (435 ページ ) 各自由度に対して, P(T m < c)=0.95 などに対するcの値を与える a 0.95 自由度によって分布の形が変わるから この数字が t 分布表に入っている 例自由度 0 の場合 P(T<.8)=0.95 P(T<.764)=0.99 P(T<.8)=0.975 P(-.8 <T<.8)=0.95 0

統計学 Ⅱ(06) 0 章 0 章標本抽出と標本分布練習問題.34 ページの表 0- の乱数表を用いて, シンプル ランダムサンプリングにより 5000 人の中から 4 人の標本を抽出せよ. ただし, スタートする場所は, 当日の月を列番号, 日の下一桁を行番号として用いよ. また,Ecel の乱数の関数を利用して, 同様の抽出を行え.. 教科書の練習問題 (6 ページ ) 3. 教科書の練習問題 (6 ページ ). さらに 視聴率調査, 家計調査 についても同様の問いに答えよ. 4. 母集団が 5,3,47,87 という4つの数字からなるとき, 次の問いに答えよ. () 母集団の平均, 分散, 標準偏差を求めよ. i i i -μ ( i -μ) 5 3 3 47 4 87 合計平均 分散 標準偏差 N () この母集団から重複を許す大きさ (=) の標本を抽出することを考える. このとき, すべての可能な標本を書き出し, それぞれの標本平均を求めよ.() の標本平均を度数分布にまとめよ ( 階級は,0-0,0-40,40-60,60-80,80-00). (3) () の標本平均を度数分布にまとめよ ( 階級は,0-0,0-40,40-60,60-80,80-00). (4) () で求めた標本平均の標本分布の平均, 分散, 標準偏差を求めよ. () (3) N N i i N i 標本平均 0 以上 - 0 未満 0-40 3 40-60 4 60-80 5 80-00 ( ) 標本番号標本標本平均度数 6 7 8 9 0 3 4 5 6 合計 i

統計学 Ⅱ(06) 0 章 5. 母集団が 8,,4,44 という 4 つの数字からなるとき, 次の問いに答えよ. () 母集団の平均, 分散, 標準偏差を求めよ. () この母集団から重複を許す大きさ (=) の標本を抽出することを考える. このとき, すべての可能な標本を書き出し, それぞれの標本平均を求めよ. (3) () の標本平均を度数分布にまとめよ ( 階級は,0-0,0-0,0-30,30-40,40-50). (4) () で求めた標本平均の標本分布の平均, 分散, 標準偏差を求めよ. i i i -μ ( i -μ) 8 3 4 4 44 合計平均 (3) 標本平均 0 以上 -0 未満 0-0 0-30 30-40 40-50 合計 分散 標準偏差 度数 () 標本番号 3 4 5 6 7 8 9 0 3 4 5 6 標本 標本平均 6. 母集団が 30,50,60,70,90 という 5 つの数字からなるとき, 問 5と同様の問いに答えよ ( 階級は,0-0,0-40,40-60,60-80,80-00). 7. 母集団の大きさを N=4, 標本の大きさを = とし, 母比率を 0.5 とする ( たとえば, 視聴率調査を考え,4 人を a~d とすると,a がある番組をみた,b,c,d がみていないとする ). みた場合に, みていない場合に 0 という数値を与えるものとする. (),0 で表された母集団の平均と分散を求めよ. () この母集団から重複を許す大きさ (=) の標本を抽出することを考える. このとき, すべての可能な標本を書き出し, それぞれの標本比率を求めよ ( 次ページ ). (3) 標本比率を度数分布にまとめよ. (4) 求めた標本比率の標本分布の平均, 分散, 標準偏差を求めよ.

統計学 Ⅱ(06) 0 章 標本番号 標本 標本比率 標本比率 度数 0.0 0.5 3.0 4 合計 5 6 7 8 9 0 3 4 5 6 8. 母集団の大きさを N=5, 標本の大きさを = とし, 母比率を 0.6 とする. この母集団から重複を許す大きさ (=) の標本を抽出するとき, 問 7と同様の問いに答えよ. 9. 問 4について, この母集団から重複を許さない大きさ (=) の標本を抽出することを考える. このとき, 問 4()~(4) と同様の問いに答えよ. 0. 問 7で重複を許さない大きさ (=) の標本を抽出するとき, 問 7の ()~(4) と同様の問に答えよ.. 教科書の練習問題 6(63 ページ ). 教科書の練習問題 7(63 ページ ) 3. 教科書の練習問題 8(64 ページ ) 4. 教科書の練習問題 9(64 ページ ) 5. 次の値を満たす a を求めよ. ただし,T は自由度 8 の t 分布に従うとする. () P( T a) 0.95 () P( a T a) 0.95 (3) P( T a) 0.99 (4) P( a T a) 0.99 6. T が自由度 5 の t 分布に従う場合,6 と同じ問いに答えよ. 7. 教科書の練習問題 0(64 ページ ) 8. 次の確率を求めよ. ただし,T は自由度 の t 分布に従うとする. () P( T.78) () P(.78 T.78) (3) P( T.79) (4) P(.79 T.79) (5) P( T 3.055) (6) P( 3.055 T 3.055) 3

統計学 Ⅱ(06) 0 章 9. 次の ( ) に最もよくあてはまる記号 ( または数式 ), 語句, 数値を答えよ. ただし, 無限母集団から大きさ の標本 ( データの個数が, ただし ) を互いに独立に無作為 に抽出することを考え, 母平均を, 母分散を, 母比率を p, q p, 標本平均を, 標本分散を S とする. () ある番組の視聴率調査を 5 人に対して行い, その番組を見ていたら, 見ていなか ったら 0 という数値を与えるものとする. その結果,0,0,0,,0 というデータが得ら れた. このとき視聴率は ( a )% である. また,5 個のデータの平均は ( b ), 分散は ( c ) である. () 標本平均 の標本分布の平均は ( d ), 分散は ( e ), 標準偏差は ( f ) である. (3) 標本平均 を基準化した Z の分布の平均は ( g ), 分散は ( h ), 標準偏差は ( i ) である. (4) が十分大きければ,(3) の Z は ( j ) 分布で近似することができる. これは ( k ) 定理と呼ばれる. (5) 標本比率 の標本分布の平均は ( l ), 分散は ( m ), 標準偏差は ( ) である. ( l ) (6) 標本比率 を基準化した Z の分布の平均は ( o ), 分散は ( p ), 標 ( ) 準偏差は ( q ) である. (7) 母集団分布を正規分布とするとき, は自由度 ( r ) の ( s ) 分布に S 従う. また ( s ) 分布は, 自由度が大きい場合,( t ) 分布で近似することが できる. (8) ( u ) とは, すべての標本が等しい確率で抽出されるような標本抽出法である. (9) ( v ) とは, 母集団を地域, 都市階級, 従業員規模, 年齢などでグループ分けし, それぞれのグループで ( u ) によって標本を抽出する方法である. (0) ( w ) とは, 母集団に割り振られた番号を等間隔で選び, 標本を抽出する方法 である. 4