不偏推定量 - PDF Free Download

不偏推定量情報科学の補足資料 018 年 6 月 7 日藤本祥二

統計的推定 (statistical estimatio) 確率分布が理論的に分かっている標本統計量を利用する確率分布の期待値の値をそのまま推定値とするのが点推定 ( 信頼度 0%) 点推定に ± で幅を持たせて信頼度を上げたものが区間推定持たせた幅のことを誤差 (error) と呼ぶ信頼度 (cofidece level) とは推定が当たる確率大きい方が良いが 100% にすることは不可能伝統的には 68%, 95%, 99% が良く使われる品質管理の分野では 99.99966% を目標としている 100 万回のうち 3,4 回しか間違えない ( シックスシグマと呼ばれてる )

不偏推定量標本を使った統計量でその統計量の確率分布の期待値が母数 ( 母平均, 母分散, 等 ) になるものを不偏推定量と呼ぶ点推定には不偏推定量を使う標本平均を表す確率変数を തX とすると തX = 1 X i i=1 തX の分布の期待値 E തX は母平均 mになる ( 中心極限定理 ) E തX = m 母平均 m の不偏推定量は標本平均 തX である母平均 mの点推定には標本平均 xҧの値を使えばよい

母分散の不偏推定量母分散 σ の不偏推定量はどのような統計量か? 標本 X i と母平均 m の偏差乗の平均 1 i=1 が母分散の不偏推定量 X i m 上記統計量の分布の期待値が母分散になる E 1 i=1 X i m = σ 母平均 m は全数調査しないと分からない量 m の値が分からない状況で σ を推定したい母平均 m から標本平均 തX に変更したらどうなる?

母平均と標本平均の偏差の違い母集団サンプリング 1 回目 m X i m サンプリング回目 X X 1 തX X 4 X 3 X i തX തX サンプリングを無限回やったとして偏差乗平均の分布の期待値を調べる分散の不偏推定量を求めるには母平均からの偏差 ( 赤矢印 ) の乗平均を使う必要がある. m の値は全数調査しないと分からない仕方がないので標本平均からの偏差 ( 青矢印 ) に変更青矢印を使うと赤矢印より小さな値に偏ってしまう偏りをなくした不偏な値に補正が必要.

標本分散 ( 不偏分散 ) 母分散の不偏推定量 E 1 i=1 X i m = σ 母平均 m ではなく標本平均 തX に変えると 1/ の部分を 1/( 1) に変えなければならない 1 E 1 X i തX = σ i=1 次の量を標本分散 ( 不偏分散 ) という s = 1 1 i=1 X i തX 標本数が小さいときは 1/ と 1/ 1 の大きさは結構違うが大きいときはそれほど違いはない医療統計はが小さい場合が多いなぜ 1/( 1) になるかの感覚的な理由は前ページのスライド ( 補足スライドに数学的な証明を示す )

分散を計算する関数 VAR.P (VARP Excel007 以前のバージョン ) 母集団 ( 全数調査 ) 分散を計算する関数分散は英語で variace, 母集団は英語で populatio σ = 1 N i=1 VAR.S (VAR Excel007 以前のバージョン ) 標本 ( 標本調査 ) 分散を計算する関数全数調査では.P 付きの関数を使わないといけない標本は英語で sample s = 1 1 i=1 N x i m x i xҧ 1 データ数 1 データ数 1 標本調査では.S 付きの関数を使わないと母集団の不偏推定量にならない教科書 P18 に書いてある Excel 関数名は古い 007 以前のバージョンの関数名

標準偏差を計算する関数 STDEV.P (STDEVP Excel007 以前のバージョン ) 母集団 ( 全数調査 ) 標準偏差を計算する関数標準偏差は英語で stadard deviatio σ = σ = 1 N x i m i=1 STDEV.S (STDEV Excel007 以前のバージョン ) 標本 ( 標本調査 ) 分散を計算する関数全数調査では.P 付きの関数を使わないといけない N s = s = 標本調査では.S 付きの関数を使わないと母集団の不偏推定量にならない 1 1 i=1 x i xҧ 教科書 P0 に書いてある Excel 関数名は古い 007 以前のバージョンの関数名

Excel のバージョンに関する注意 Excel は発売年でバージョン番号が付けられていて細かな仕様が違います (003,007,010,013,016) 関数に関してはバージョン 007 以前と 010 以降で大きな仕様変更がありました関数の名前の付け方に統一性がなかったものが整理されて古いバージョンに比べて系統的に分かり易くなりました 010 以降のバージョンでも互換性を保つために 007 以前の古い関数名が使える場合があります今後古いバージョンの関数は消えていく運命なので使わないようにした方が無難です教科書は Excel 016/013 対応版と表紙に書いてありますが古い 007 以前の関数を使ってます ( 色々事情があるのでしょう )

t 分布 (studet s t-distributio) 中心極限定理が大きいとき, 次の統計量 തX m σ は標準正規分布に従うが小さくても, 正規母集団のとき, 次の統計量 തX m s は自由度 f = 1 の t 分布に従う標本数が少ない時などによく使う ( 他にも応用例がたくさんある ) 1908 年, イギリス, ギネスビール社の研究員のゴセット (studet はペンネーム ) が発見

t 分布の確率密度関数自由度が変わると形が変わる自由度が小さい時中心の確率低い裾の確率が高い自由度が大きくなるにしたがって標準正規分布に近づいていく理論的には自由度で標準正規分布に一致する実用的には自由度 30 くらいで殆ど見分けがつかない t 分布の形

自由度について自由度 (degree of freedom) ある統計量を決めるために必要な確率変数の数 ( 自由に動かせる確率変数の数 ) 自由度の統計量 X 1 + X + + X 自由度の統計量 X 1 m + X m + + X m 自由度 1 の統計量 X 1 തX + X തX + + X തX 以降の説明が分からない時は自由度とは標本数引く 1 だと丸暗記すること

= の場合次の統計量の自由度を調べてみる X 1 തX + X തX തX = X 1 + X / を使って式変形 1 X 1 തX = X 1 X 1 + X X തX = X X 1 + X = X 1 X 1 X = X X 1 X = X 1 X = X X 1 X 1 X = Y 1 を使うと次の式が確かめられる X 1 തX + X തX = Y 1 自由に動かせる変数は Y 1 の 1 つであることが確かめられた標本数 = の時, 確率変数は X 1, X の個に見えるが標本分散 s や標本標準偏差 s の計算では Y 1 の 1 個しかない

= 3の場合 തX = X 1 + X + X 3 /3を使うと X 1 തX + X തX + X 3 തX = 3 X 1 + X + X 3 X 1 X X X 3 X 3 X 1 = Y 1 + Y 最後の等式で以下の置き換えを行った ( 代入して展開すれば確かめられる ) Y 1 = 1 X 1 X, Y = 1 6 X 1 + X X 3 自由に動かせる変数は Y 1 と Y のつであることが確かめられた標本数 = 3 の時, 確率変数は X 1, X, X 3 の 3 個に見えるが標本分散 s や標本標準偏差 s の計算では Y 1, Y の個しかない

一般のの場合 തX = σ i=1 X i /を使うと次の式が成り立つことが確認できる個に見えるが i=1 1 X i തX = j=1 Y j 計算途中で以下の置き換えを行った Y j = 1 j j + 1 1 個の確率変数で書き換え可能 j k=1 X k jx j Y j は 1 個の変数なので自由度は 1 である標本数の時, 確率変数は個に見えるが標本分散 s や標本標準偏差 s の計算では 1 個しかない

t 分布に関する EXCEL 関数 ( 入力 )t, f p( 出力 ) T.DIST t, f, TRUE 第 1 引数 :t の値第引数 : 自由度 f の値第 3 引数 :TRUE なら累積確率を出力 FALSE なら確率密度を出力自由度 f の t 分布 ( 入力 )p, f t( 出力 ) T.INV p, f 第 1 引数 :p の値第引数 : 自由度 f の値 t 分布は自由度で形が変わるので自由度の情報も関数に与える必要がある t 注意 : ドットなしの TINV は Excel ver 007 以前の古いバージョンの関数ですここでのドットありの関数とは使い方が全然違います教科書では P140 などで使ってますが今後消えていく関数なので使わないようにしましょう

練習問題

ҧ ある地域の成人男性の平均身長を調べるために 5 人を無作為抽出して標本調査を行ったところ {167.0, 157., 17.4, 18.7, 18.0} cm であったこの地域の成人男性の身長の分布は正規分布に従うとしてこの地域の成人男性の身長を 95% の信頼度で区間推定せよサンプルサイズ[ 人 ], 標本平均 x[cm], ҧ 標本標準偏差 s[cm] を整理する = 5, x = 17.6, s = 10.705 信頼度 95% 自由度 4のt 値はExcel 関数 T.INV(0.975,4) 又はT.INV(0.05,4) で調べることができて t 値は.777 である x.777 ҧ m s 信頼度 95% の推定区間は次の式になる s xҧ.777 m x ҧ +.777 s 変形して導出誤差部分を計算すると次の値になる 10.705.777 =.777 13.9 s 5 [ 点推定 ]±[ 誤差 ] の形式で信頼度 95% の推定区間を答えると次のようになる m = 17.6 ± 13.9 信頼度 95% の推定区間は次の区間である 158.97 m 185.55.777