不偏推定量 情報科学の補足資料 018 年 6 月 7 日藤本祥二
統計的推定 (statistical estimatio) 確率分布が理論的に分かっている標本統計量を利用する 確率分布の期待値の値をそのまま推定値とするのが点推定 ( 信頼度 0%) 点推定に ± で幅を持たせて信頼度を上げたものが区間推定 持たせた幅のことを誤差 (error) と呼ぶ 信頼度 (cofidece level) とは推定が当たる確率 大きい方が良いが 100% にすることは不可能 伝統的には 68%, 95%, 99% が良く使われる 品質管理の分野では 99.99966% を目標としている 100 万回のうち 3,4 回しか間違えない ( シックスシグマと呼ばれてる )
不偏推定量 標本を使った統計量で その統計量の確率分布の期待値が母数 ( 母平均, 母分散, 等 ) になるものを不偏推定量と呼ぶ 点推定には不偏推定量を使う 標本平均を表す確率変数を തX とすると തX = 1 X i i=1 തX の分布の期待値 E തX は母平均 mになる ( 中心極限定理 ) E തX = m 母平均 m の不偏推定量は標本平均 തX である 母平均 mの点推定には標本平均 xҧの値を使えばよい
母分散の不偏推定量 母分散 σ の不偏推定量はどのような統計量か? 標本 X i と母平均 m の偏差 乗の平均 1 i=1 が母分散の不偏推定量 X i m 上記統計量の分布の期待値が母分散になる E 1 i=1 X i m = σ 母平均 m は全数調査しないと分からない量 m の値が分からない状況で σ を推定したい 母平均 m から標本平均 തX に変更したらどうなる?
母平均と標本平均の偏差の違い 母集団 サンプリング 1 回目 m X i m サンプリング 回目 X X 1 തX X 4 X 3 X i തX തX サンプリングを無限回やったとして偏差 乗平均の分布の期待値を調べる 分散の不偏推定量を求めるには母平均からの偏差 ( 赤矢印 ) の 乗平均を使う必要がある. m の値は全数調査しないと分からない 仕方がないので標本平均からの偏差 ( 青矢印 ) に変更青矢印を使うと赤矢印より小さな値に偏ってしまう 偏りをなくした不偏な値に補正が必要.
標本分散 ( 不偏分散 ) 母分散の不偏推定量 E 1 i=1 X i m = σ 母平均 m ではなく標本平均 തX に変えると 1/ の部分を 1/( 1) に変えなければならない 1 E 1 X i തX = σ i=1 次の量を標本分散 ( 不偏分散 ) という s = 1 1 i=1 X i തX 標本数 が小さいときは 1/ と 1/ 1 の大きさは結構違う が大きいときはそれほど違いはない 医療統計は が小さい場合が多い なぜ 1/( 1) になるかの感覚的な理由は前ページのスライド ( 補足スライドに数学的な証明を示す )
分散を計算する関数 VAR.P (VARP Excel007 以前のバージョン ) 母集団 ( 全数調査 ) 分散を計算する関数分散は英語で variace, 母集団は英語で populatio σ = 1 N i=1 VAR.S (VAR Excel007 以前のバージョン ) 標本 ( 標本調査 ) 分散を計算する関数 全数調査では.P 付きの関数を使わないといけない 標本は英語で sample s = 1 1 i=1 N x i m x i xҧ 1 データ数 1 データ数 1 標本調査では.S 付きの関数を使わないと母集団の不偏推定量にならない 教科書 P18 に書いてある Excel 関数名は古い 007 以前のバージョンの関数名
標準偏差を計算する関数 STDEV.P (STDEVP Excel007 以前のバージョン ) 母集団 ( 全数調査 ) 標準偏差を計算する関数標準偏差は英語で stadard deviatio σ = σ = 1 N x i m i=1 STDEV.S (STDEV Excel007 以前のバージョン ) 標本 ( 標本調査 ) 分散を計算する関数 全数調査では.P 付きの関数を使わないといけない N s = s = 標本調査では.S 付きの関数を使わないと母集団の不偏推定量にならない 1 1 i=1 x i xҧ 教科書 P0 に書いてある Excel 関数名は古い 007 以前のバージョンの関数名
Excel のバージョンに関する注意 Excel は発売年でバージョン番号が付けられていて細かな仕様が違います (003,007,010,013,016) 関数に関してはバージョン 007 以前と 010 以降で大きな仕様変更がありました 関数の名前の付け方に統一性がなかったものが整理されて古いバージョンに比べて系統的に分かり易くなりました 010 以降のバージョンでも互換性を保つために 007 以前の古い関数名が使える場合があります 今後古いバージョンの関数は消えていく運命なので使わないようにした方が無難です 教科書は Excel 016/013 対応版と表紙に書いてありますが古い 007 以前の関数を使ってます ( 色々事情があるのでしょう )
t 分布 (studet s t-distributio) 中心極限定理 が大きいとき, 次の統計量 തX m σ は標準正規分布に従う が小さくても, 正規母集団のとき, 次の統計量 തX m s は自由度 f = 1 の t 分布に従う 標本数が少ない時などによく使う ( 他にも応用例がたくさんある ) 1908 年, イギリス, ギネスビール社の研究員のゴセット (studet はペンネーム ) が発見
t 分布の確率密度関数 自由度が変わると形が変わる 自由度が小さい時 中心の確率低い 裾の確率が高い 自由度が大きくなるにしたがって標準正規分布に近づいていく 理論的には自由度 で標準正規分布に一致する 実用的には自由度 30 くらいで殆ど見分けがつかない t 分布の形
自由度について 自由度 (degree of freedom) ある統計量を決めるために必要な確率変数の数 ( 自由に動かせる確率変数の数 ) 自由度 の統計量 X 1 + X + + X 自由度 の統計量 X 1 m + X m + + X m 自由度 1 の統計量 X 1 തX + X തX + + X തX 以降の説明が分からない時は自由度とは 標本数引く 1 だと丸暗記すること
= の場合 次の統計量の自由度を調べてみる X 1 തX + X തX തX = X 1 + X / を使って式変形 1 X 1 തX = X 1 X 1 + X X തX = X X 1 + X = X 1 X 1 X = X X 1 X = X 1 X = X X 1 X 1 X = Y 1 を使うと次の式が確かめられる X 1 തX + X തX = Y 1 自由に動かせる変数は Y 1 の 1 つであることが確かめられた 標本数 = の時, 確率変数は X 1, X の 個に見えるが標本分散 s や標本標準偏差 s の計算では Y 1 の 1 個しかない
= 3の場合 തX = X 1 + X + X 3 /3を使うと X 1 തX + X തX + X 3 തX = 3 X 1 + X + X 3 X 1 X X X 3 X 3 X 1 = Y 1 + Y 最後の等式で以下の置き換えを行った ( 代入して展開すれば確かめられる ) Y 1 = 1 X 1 X, Y = 1 6 X 1 + X X 3 自由に動かせる変数は Y 1 と Y の つであることが確かめら れた 標本数 = 3 の時, 確率変数は X 1, X, X 3 の 3 個に見えるが標本分散 s や標本標準偏差 s の計算では Y 1, Y の 個しかない
一般のの場合 തX = σ i=1 X i /を使うと次の式が成り立つことが確認できる 個に見えるが i=1 1 X i തX = j=1 Y j 計算途中で以下の置き換えを行った Y j = 1 j j + 1 1 個の確率変数で書き換え可能 j k=1 X k jx j Y j は 1 個の変数なので自由度は 1 である標本数 の時, 確率変数は 個に見えるが標本分散 s や標本標準偏差 s の計算では 1 個しかない
t 分布に関する EXCEL 関数 ( 入力 )t, f p( 出力 ) T.DIST t, f, TRUE 第 1 引数 :t の値第 引数 : 自由度 f の値第 3 引数 :TRUE なら累積確率を出力 FALSE なら確率密度を出力 自由度 f の t 分布 ( 入力 )p, f t( 出力 ) T.INV p, f 第 1 引数 :p の値第 引数 : 自由度 f の値 t 分布は自由度で形が変わるので自由度の情報も関数に与える必要がある t 注意 : ドットなしの TINV は Excel ver 007 以前の古いバージョンの関数です ここでのドットありの関数とは使い方が全然違います 教科書では P140 などで使ってますが 今後消えていく関数なので使わないようにしましょう
練習問題
ҧ ある地域の成人男性の平均身長を調べるために 5 人を無作為抽出して標本調査を行ったところ {167.0, 157., 17.4, 18.7, 18.0} cm であった この地域の成人男性の身長の分布は正規分布に従うとして この地域の成人男性の身長を 95% の信頼度で区間推定せよ サンプルサイズ[ 人 ], 標本平均 x[cm], ҧ 標本標準偏差 s[cm] を整理する = 5, x = 17.6, s = 10.705 信頼度 95% 自由度 4のt 値はExcel 関数 T.INV(0.975,4) 又はT.INV(0.05,4) で調べることができて t 値は.777 である x.777 ҧ m s 信頼度 95% の推定区間は次の式になる s xҧ.777 m x ҧ +.777 s 変形して導出誤差部分を計算すると次の値になる 10.705.777 =.777 13.9 s 5 [ 点推定 ]±[ 誤差 ] の形式で信頼度 95% の推定区間を答えると次のようになる m = 17.6 ± 13.9 信頼度 95% の推定区間は次の区間である 158.97 m 185.55.777