不偏推定量

Similar documents
EBNと疫学

講義「○○○○」

<4D F736F F D208EC08CB18C7689E68A E F AA957A82C682948C9F92E82E646F63>

モジュール1のまとめ

相関係数と偏差ベクトル

統計学 - 社会統計の基礎 - 正規分布 標準正規分布累積分布関数の逆関数 t 分布正規分布に従うサンプルの平均の信頼区間 担当 : 岸 康人 資料ページ :

<4D F736F F D208EC08CB18C7689E68A E F1939D8C E82E646F63>

<4D F736F F D2090B695A8939D8C768A E F AA957A82C682948C9F92E8>

基礎統計

第 3 回講義の項目と概要 統計的手法入門 : 品質のばらつきを解析する 平均と標準偏差 (P30) a) データは平均を見ただけではわからない 平均が同じだからといって 同一視してはいけない b) データのばらつきを示す 標準偏差 にも注目しよう c) 平均

情報工学概論

<4D F736F F D208EC08CB18C7689E68A E F193F18D8095AA957A C C839395AA957A814590B38B4B95AA957A2E646F63>

スライド 1

第4回

Microsoft PowerPoint - sc7.ppt [互換モード]

ビジネス統計 統計基礎とエクセル分析 正誤表

統計学の基礎から学ぶ実験計画法ー1

Microsoft PowerPoint - Statistics[B]

Microsoft PowerPoint - statistics pptx

Microsoft PowerPoint - stat-2014-[9] pptx

スライド 1

Python-statistics5 Python で統計学を学ぶ (5) この内容は山田 杉澤 村井 (2008) R によるやさしい統計学 (

禁無断転載 第 3 章統計的手法に用いられる分布 All rights reserved (C) 芳賀 第 1 節我々の身の回りにある代表的分布と性質 1. 分布の表わし方我々の身の回りにある全てのものは ばらつきを持っています 収集したデータを分析していくためには このばらつきがどのような分布にな

統計的データ解析

Microsoft PowerPoint - 基礎・経済統計6.ppt

Microsoft PowerPoint - statistics pptx

第7章

<4D F736F F D208EC08CB18C7689E68A E F193F18D8095AA957A C C839395AA957A814590B38B4B95AA957A2E646F63>

Microsoft PowerPoint slide2forWeb.ppt [互換モード]

Microsoft Word - å“Ÿåłžå¸°173.docx

Microsoft Word - Stattext12.doc

母平均 母分散 母標準偏差は, が連続的な場合も含めて, すべての個体の特性値 のすべての実現値 の平均 分散 標準偏差であると考えてよい 有限母集団で が離散的な場合, まさにその意味になるが, そうでない場合も, このように理解してよい 5 母数 母集団から定まる定数のこと 母平均, 母分散,

(.3) 式 z / の計算, alpha( ), sigma( ) から, 値 ( 区間幅 ) を計算 siki.3<-fuctio(, alpha, sigma) elta <- qorm(-alpha/) sigma /sqrt() elta [ 例 ]., 信頼率 として, サイ

RSS Higher Certificate in Statistics, Specimen A Module 3: Basic Statistical Methods Solutions Question 1 (i) 帰無仮説 : 200C と 250C において鉄鋼の破壊応力の母平均には違いはな

<4D F736F F D208D A778D5A8A778F4B8E7793B CC A7795D2816A2E646F6378>

Microsoft Word - Stattext07.doc

数値計算法

Microsoft Word - appendix_b

untitled

統計学 Ⅱ( 章 ( 区間推定のシミュレーション 母平均 μ の区間推定 X ~ N, のとき X T ~ 自由度 1の t分布 1 自由度 -1のt 分布の97.5% 点 :t.975 P t T t この式に T を代入する t.975 母集団

多変量解析 ~ 重回帰分析 ~ 2006 年 4 月 21 日 ( 金 ) 南慶典

スライド 1

Microsoft Word - Stattext11.doc

数値計算法

Microsoft PowerPoint - 測量学.ppt [互換モード]

Microsoft Word - apstattext04.docx

Excelにおける回帰分析(最小二乗法)の手順と出力

システムデザイン System Design

統計学 Ⅱ(06) 0 章 0 章 統計学の基本的な考え方 データ = 母集団から抽出された標本とみなす 実際に標本抽出されたデータ 視聴率, 失業率 そうでないデータ GDP, 株価, 為替レート, 試験の得点 このようなデータも母集団からの標本とみなす ( 母集団を想定する ) cf. 例題 0

Microsoft PowerPoint - e-stat(OLS).pptx

Microsoft PowerPoint - Lecture 10.ppt [互換モード]

青焼 1章[15-52].indd

はじめに Excel における計算式の入力方法の基礎 Excel では計算式を入力することで様々な計算を行うことができる 例えば はセルに =SQRT((4^2)/3+3*5-2) と入力することで算出される ( 答え ) どのような数式が使えるかは 数式

Medical3

経営統計学

Microsoft Word - Stattext13.doc

Microsoft PowerPoint - データ解析基礎4.ppt [互換モード]

PowerPoint プレゼンテーション

(3) 検定統計量の有意確率にもとづく仮説の採否データから有意確率 (significant probability, p 値 ) を求め 有意水準と照合する 有意確率とは データの分析によって得られた統計値が偶然おこる確率のこと あらかじめ設定した有意確率より低い場合は 帰無仮説を棄却して対立仮説

Microsoft PowerPoint - statistics pptx

untitled

MT2-Slides-13.pptx

経済データ分析A

異文化言語教育評価論 ⅠA 教育 心理系研究のためのデータ分析入門 第 3 章 t 検定 (2 変数間の平均の差を分析 ) 平成 26 年 5 月 7 日 報告者 :M.S. I.N. 3-1 統計的検定 統計的検定 : 設定した仮説にもとづいて集めた標本を確率論の観点から分析し 仮説検証を行うこと

したがって ばらつきを表すには 偏差の符号をなくしてから平均化する必要がある そのひとつの方法は 1 偏差の絶対値を用いることである 偏差の絶対値の算術平均を 平均偏差 という ( )/5=10.8 偏差の符号を取るもうひとつの方法は 2それを2 乗することです 偏差の2 乗の算

PowerPoint プレゼンテーション

Excelによる統計分析検定_知識編_小塚明_5_9章.indd

統計Ⅰ 第1回 序説~確率

Microsoft PowerPoint - 資料04 重回帰分析.ppt

Microsoft PowerPoint - Quality11.ppt

自動車感性評価学 1. 二項検定 内容 2 3. 質的データの解析方法 1 ( 名義尺度 ) 2.χ 2 検定 タイプ 1. 二項検定 官能検査における分類データの解析法 識別できるかを調べる 嗜好に差があるかを調べる 2 点比較法 2 点識別法 2 点嗜好法 3 点比較法 3 点識別法 3 点嗜好

カイ二乗フィット検定、パラメータの誤差

_KyoukaNaiyou_No.4

0415

基礎統計

経済統計分析1 イントロダクション

1.民営化

平成 7 年度数学 (3) あるゲームを 回行ったときに勝つ確率が. 8のプレイヤーがいる このゲームは 回ごとに独 立であるとする a. このゲームを 5 回行う場合 中心極限定理を用いると このプレイヤーが 5 回以上勝つ確率 は である. 回以上ゲームをした場合 そのうちの勝ち数が 3 割以上

ファイナンスのための数学基礎 第1回 オリエンテーション、ベクトル

Probit , Mixed logit

Microsoft Word - apstattext05.docx

森林水文 水資源学 2 2. 水文統計 豪雨があった時, 新聞やテレビのニュースで 50 年に一度の大雨だった などと報告されることがある. 今争点となっている川辺川ダムは,80 年に 1 回の洪水を想定して治水計画が立てられている. 畑地かんがいでは,10 年に 1 回の渇水を対象として計画が立て

Microsoft PowerPoint - ch04j

Microsoft Word - lec_student-chp3_1-representative

データ解析

医学 薬学分野の研究で用いられるのは推測統計学 母集団のデータ 多数データの 数学的要約 記述 記述統計学 ( 古典統計学 ) 母集団 ( 準母集団 ) 無作為抽出 標本集団のデータ 少数データの 数学的要約 記述 推測統計学 ( 近代統計学 ) 逆規定 確率的推測 記述 記述統計学調査対象集団 =

2-1 / 語問題 項書換え系 4.0. 準備 (3.1. 項 代入 等価性 ) 定義 3.1.1: - シグネチャ (signature): 関数記号の集合 (Σ と書く ) - それぞれの関数記号は アリティ (arity) と呼ばれる自然数が定められている - Σ (n) : アリ

ベイズ統計入門

様々なミクロ計量モデル†

Microsoft PowerPoint - Inoue-statistics [互換モード]

<4D F736F F F696E74202D A6D82A982B3955D89BF82CC979D89F082C9954B977682C8939D8C768A7782CC8AEE91622E B8CDD8AB B83685D>

Microsoft Word - mstattext02.docx

Microsoft PowerPoint - statistics08_03.ppt [互換モード]

Microsoft PowerPoint ppt

PowerPoint プレゼンテーション

13章 回帰分析

Microsoft PowerPoint - A1.ppt [互換モード]

win版8日目

9. 統計学I

日心TWS

Transcription:

不偏推定量 情報科学の補足資料 018 年 6 月 7 日藤本祥二

統計的推定 (statistical estimatio) 確率分布が理論的に分かっている標本統計量を利用する 確率分布の期待値の値をそのまま推定値とするのが点推定 ( 信頼度 0%) 点推定に ± で幅を持たせて信頼度を上げたものが区間推定 持たせた幅のことを誤差 (error) と呼ぶ 信頼度 (cofidece level) とは推定が当たる確率 大きい方が良いが 100% にすることは不可能 伝統的には 68%, 95%, 99% が良く使われる 品質管理の分野では 99.99966% を目標としている 100 万回のうち 3,4 回しか間違えない ( シックスシグマと呼ばれてる )

不偏推定量 標本を使った統計量で その統計量の確率分布の期待値が母数 ( 母平均, 母分散, 等 ) になるものを不偏推定量と呼ぶ 点推定には不偏推定量を使う 標本平均を表す確率変数を തX とすると തX = 1 X i i=1 തX の分布の期待値 E തX は母平均 mになる ( 中心極限定理 ) E തX = m 母平均 m の不偏推定量は標本平均 തX である 母平均 mの点推定には標本平均 xҧの値を使えばよい

母分散の不偏推定量 母分散 σ の不偏推定量はどのような統計量か? 標本 X i と母平均 m の偏差 乗の平均 1 i=1 が母分散の不偏推定量 X i m 上記統計量の分布の期待値が母分散になる E 1 i=1 X i m = σ 母平均 m は全数調査しないと分からない量 m の値が分からない状況で σ を推定したい 母平均 m から標本平均 തX に変更したらどうなる?

母平均と標本平均の偏差の違い 母集団 サンプリング 1 回目 m X i m サンプリング 回目 X X 1 തX X 4 X 3 X i തX തX サンプリングを無限回やったとして偏差 乗平均の分布の期待値を調べる 分散の不偏推定量を求めるには母平均からの偏差 ( 赤矢印 ) の 乗平均を使う必要がある. m の値は全数調査しないと分からない 仕方がないので標本平均からの偏差 ( 青矢印 ) に変更青矢印を使うと赤矢印より小さな値に偏ってしまう 偏りをなくした不偏な値に補正が必要.

標本分散 ( 不偏分散 ) 母分散の不偏推定量 E 1 i=1 X i m = σ 母平均 m ではなく標本平均 തX に変えると 1/ の部分を 1/( 1) に変えなければならない 1 E 1 X i തX = σ i=1 次の量を標本分散 ( 不偏分散 ) という s = 1 1 i=1 X i തX 標本数 が小さいときは 1/ と 1/ 1 の大きさは結構違う が大きいときはそれほど違いはない 医療統計は が小さい場合が多い なぜ 1/( 1) になるかの感覚的な理由は前ページのスライド ( 補足スライドに数学的な証明を示す )

分散を計算する関数 VAR.P (VARP Excel007 以前のバージョン ) 母集団 ( 全数調査 ) 分散を計算する関数分散は英語で variace, 母集団は英語で populatio σ = 1 N i=1 VAR.S (VAR Excel007 以前のバージョン ) 標本 ( 標本調査 ) 分散を計算する関数 全数調査では.P 付きの関数を使わないといけない 標本は英語で sample s = 1 1 i=1 N x i m x i xҧ 1 データ数 1 データ数 1 標本調査では.S 付きの関数を使わないと母集団の不偏推定量にならない 教科書 P18 に書いてある Excel 関数名は古い 007 以前のバージョンの関数名

標準偏差を計算する関数 STDEV.P (STDEVP Excel007 以前のバージョン ) 母集団 ( 全数調査 ) 標準偏差を計算する関数標準偏差は英語で stadard deviatio σ = σ = 1 N x i m i=1 STDEV.S (STDEV Excel007 以前のバージョン ) 標本 ( 標本調査 ) 分散を計算する関数 全数調査では.P 付きの関数を使わないといけない N s = s = 標本調査では.S 付きの関数を使わないと母集団の不偏推定量にならない 1 1 i=1 x i xҧ 教科書 P0 に書いてある Excel 関数名は古い 007 以前のバージョンの関数名

Excel のバージョンに関する注意 Excel は発売年でバージョン番号が付けられていて細かな仕様が違います (003,007,010,013,016) 関数に関してはバージョン 007 以前と 010 以降で大きな仕様変更がありました 関数の名前の付け方に統一性がなかったものが整理されて古いバージョンに比べて系統的に分かり易くなりました 010 以降のバージョンでも互換性を保つために 007 以前の古い関数名が使える場合があります 今後古いバージョンの関数は消えていく運命なので使わないようにした方が無難です 教科書は Excel 016/013 対応版と表紙に書いてありますが古い 007 以前の関数を使ってます ( 色々事情があるのでしょう )

t 分布 (studet s t-distributio) 中心極限定理 が大きいとき, 次の統計量 തX m σ は標準正規分布に従う が小さくても, 正規母集団のとき, 次の統計量 തX m s は自由度 f = 1 の t 分布に従う 標本数が少ない時などによく使う ( 他にも応用例がたくさんある ) 1908 年, イギリス, ギネスビール社の研究員のゴセット (studet はペンネーム ) が発見

t 分布の確率密度関数 自由度が変わると形が変わる 自由度が小さい時 中心の確率低い 裾の確率が高い 自由度が大きくなるにしたがって標準正規分布に近づいていく 理論的には自由度 で標準正規分布に一致する 実用的には自由度 30 くらいで殆ど見分けがつかない t 分布の形

自由度について 自由度 (degree of freedom) ある統計量を決めるために必要な確率変数の数 ( 自由に動かせる確率変数の数 ) 自由度 の統計量 X 1 + X + + X 自由度 の統計量 X 1 m + X m + + X m 自由度 1 の統計量 X 1 തX + X തX + + X തX 以降の説明が分からない時は自由度とは 標本数引く 1 だと丸暗記すること

= の場合 次の統計量の自由度を調べてみる X 1 തX + X തX തX = X 1 + X / を使って式変形 1 X 1 തX = X 1 X 1 + X X തX = X X 1 + X = X 1 X 1 X = X X 1 X = X 1 X = X X 1 X 1 X = Y 1 を使うと次の式が確かめられる X 1 തX + X തX = Y 1 自由に動かせる変数は Y 1 の 1 つであることが確かめられた 標本数 = の時, 確率変数は X 1, X の 個に見えるが標本分散 s や標本標準偏差 s の計算では Y 1 の 1 個しかない

= 3の場合 തX = X 1 + X + X 3 /3を使うと X 1 തX + X തX + X 3 തX = 3 X 1 + X + X 3 X 1 X X X 3 X 3 X 1 = Y 1 + Y 最後の等式で以下の置き換えを行った ( 代入して展開すれば確かめられる ) Y 1 = 1 X 1 X, Y = 1 6 X 1 + X X 3 自由に動かせる変数は Y 1 と Y の つであることが確かめら れた 標本数 = 3 の時, 確率変数は X 1, X, X 3 の 3 個に見えるが標本分散 s や標本標準偏差 s の計算では Y 1, Y の 個しかない

一般のの場合 തX = σ i=1 X i /を使うと次の式が成り立つことが確認できる 個に見えるが i=1 1 X i തX = j=1 Y j 計算途中で以下の置き換えを行った Y j = 1 j j + 1 1 個の確率変数で書き換え可能 j k=1 X k jx j Y j は 1 個の変数なので自由度は 1 である標本数 の時, 確率変数は 個に見えるが標本分散 s や標本標準偏差 s の計算では 1 個しかない

t 分布に関する EXCEL 関数 ( 入力 )t, f p( 出力 ) T.DIST t, f, TRUE 第 1 引数 :t の値第 引数 : 自由度 f の値第 3 引数 :TRUE なら累積確率を出力 FALSE なら確率密度を出力 自由度 f の t 分布 ( 入力 )p, f t( 出力 ) T.INV p, f 第 1 引数 :p の値第 引数 : 自由度 f の値 t 分布は自由度で形が変わるので自由度の情報も関数に与える必要がある t 注意 : ドットなしの TINV は Excel ver 007 以前の古いバージョンの関数です ここでのドットありの関数とは使い方が全然違います 教科書では P140 などで使ってますが 今後消えていく関数なので使わないようにしましょう

練習問題

ҧ ある地域の成人男性の平均身長を調べるために 5 人を無作為抽出して標本調査を行ったところ {167.0, 157., 17.4, 18.7, 18.0} cm であった この地域の成人男性の身長の分布は正規分布に従うとして この地域の成人男性の身長を 95% の信頼度で区間推定せよ サンプルサイズ[ 人 ], 標本平均 x[cm], ҧ 標本標準偏差 s[cm] を整理する = 5, x = 17.6, s = 10.705 信頼度 95% 自由度 4のt 値はExcel 関数 T.INV(0.975,4) 又はT.INV(0.05,4) で調べることができて t 値は.777 である x.777 ҧ m s 信頼度 95% の推定区間は次の式になる s xҧ.777 m x ҧ +.777 s 変形して導出誤差部分を計算すると次の値になる 10.705.777 =.777 13.9 s 5 [ 点推定 ]±[ 誤差 ] の形式で信頼度 95% の推定区間を答えると次のようになる m = 17.6 ± 13.9 信頼度 95% の推定区間は次の区間である 158.97 m 185.55.777