数理統計学 第 0 回
復習 標本分散と ( 標本 ) 不偏分散両方とも 分散 というのが実情 二乗偏差計標本分散 = データ数 (0ページ) ( 標本 ) 不偏分散 = (03 ページ ) 二乗偏差計 データ数 - 分析ではこちらをとることが多い
復習 ここまで 実験結果 ( 万回 ) 平均 50Kg 標準偏差 0Kg 0 人 全体に小さすぎる > mea(jkke) [] 89.4373 標準偏差 =9.5 前後 そもそも正規分布でもない 偏りがとれた > mea(jkke) [] 99.6348 標準偏差 =0 前後
R で確認 図 ( 前頁 ) の作成手順 > rorm(0,mea=50,sd=0) 正規分布から0 個のサンプル [] 56.573 75.94976 59.0753 55.89 48.9054 50.0775 46.3889 [8] 48.6459 70.34706 55.0064 > varp(rorm(0,mea=50,sd=0)) [] 00.84 > varp(rorm(0,mea=50,sd=0)) 0 個のデータの標本分散の出方をみる [] 47.787 > varp(rorm(0,mea=50,sd=0)) [] 38.887 > jkke <- replcate(0000,varp(rorm(0,mea=50,sd=0))) > jkke <- replcate(0000,var(rorm(0,mea=50,sd=0))) > par(mfrow=c(,)) 段の図の準備 > hst(jkke,ma=" 標本分散 ",breaks="fd") > hst(jkke,ma=" 不偏分散 ",breaks="fd") 注 : コマンド varp は次ページの説明を確認すること
R で確認 図 ( 前頁 ) の作成手順 分散は 平均二乗偏差 のことなので 以下のように求めるのが本来は定義にかなう mea((x-mea(x))^ ( 例 ) > x <- :5 > mea((x-mea(x))^) [] 以下を実行してコマンドにしておくと便利 varp <- fucto(x){mea((x-mea(x))^)}
別の実験 ( 万回 ) 平均 70 分散 0 データ数 5 人 全体に値が小さい 標本分散 > mea(jkke); var(jkke) [] 77.83389 [] 840.553 バイアス そもそも正規分布が当てはまらない バイアスが消えた 不偏分散 > mea(jkke); var(jkke) [] 00.094 [] 4876.46 真の分散 ( 全体の分散 )=0
標本分散 S の バイアス 以下の結論を数学的に証明できる E S バイアスがある = 不偏性がない あとの例で言うと = 5 σ = 00 だから E 4 5 S 00 80 実験結果にあっているか?
不偏分散のねらい S N N でバイアス修正 E N N S = N N N N σ = σ 故に ( 標本 ) 不偏分散 という 計算式としては シグマ二乗ハット ˆ
0 標本分散のバイアス数学的計算 50 50 真の偏差二乗和 0 0 50 0 50 0 50 データの偏差二乗和 0 0 0 0 00 0 90 E 偏差二乗和 μ = 50 σ = 00 = 0 両辺を 0 で割れ
データ数が少ないとき 違いが大きい極端なケース : データ 個の場合 言葉の定義どおりなら S 0 個のデータにはバラつきがないので分散はゼロ 母集団の分散を知りたいなら S 0 0 計算不能 個のデータでは全体のバラつきは分からないので計算できない
クイズ さいころを 5 回振って 目の数の標本分散を求める この値は.9 位になるか? から 6 まで同じ割合で出るとき 分散は.9 σ =.9 理論的には E 4 5 S.9. 34
R で確認 定義通りの標本分散を計算する関数を定義しておくと便利 > varp <- fucto(x){mea((x-mea(x))^)} > varp(:6) 確率通りの目が出ると分散は.9になる [].96667 > sample(:6,5,replace=true) 5 回振ってみる [] 6 4 6 5 5 > varp(sample(:6,5,replace=true)) 分散を出してみる [].8 > jkke <- replcate(0000,varp(sample(:6,5,replace=true))) > hst(jkke) > mea(jkke) 万回の実験結果の平均は.3になる計算結果とほぼ合っている [].3086
まとめ サンプル 母集団という観点 サンプルの平均値は 標本平均 下の二つを使え N N サンプルの分散は ( 標本 ) 不偏分散 不偏性ありバイアスなし ˆ N N 不偏性ありバイアスなし
次のテーマ - 分散 という結果の出方 カイ二乗分布入門 右の図はすべてカイ二乗分布 データを集めてヒストグラムを描いてみた > x <- rchsq(5000,df=) > x <- rchsq(5000,df=) > x3 <- rchsq(5000,df=3) > x4 <- rchsq(5000,df=4) 上の df は 自由度 これから説明する 教科書 : ページ
カイ二乗分布カイ二乗値が従う分布である カイ二乗値 :χ 標準正規分布 N 0, からとった 個の値の二乗和 Z Z + Z Z + Z + Z 3 Z + Z + Z 3 + Z 4 自由度 のカイ二乗値自由度 のカイ二乗値自由度 3のカイ二乗値自由度 4のカイ二乗値 以下同様 カイ二乗分布は正規分布から出てくる分布
R で確認 000 個 000 個 000 個 000 個 > z <- rorm(000) > z <- rorm(000) > z3 <- rorm(000) > z4 <- rorm(000) 標準正規分布から 000 個のデータをとった
R で確認 Z の分布をみる第 章の最後のテーマ Z で確かめたが Z 以下を使っても大体同じである > mea(ch); var(ch) [] 0.95806 [].75947 ch <- z^ hst(ch) 上に平均値と分散を求めている 平均値は理論と合っているか回答できるはずである
R で確認 Z + Z の分布をみる Z と Z で確かめたが 他を使っても大体同じである > mea(ch); var(ch) [].99639 [] 3.75047 > ch <- z^ + z^ > hst(ch) 上に平均値と分散を求めている 平均値は理論と合っているか回答できるはずである
R で確認 Z + Z +Z 3 +Z 4 3 個の二乗和は省略 > mea(ch4); var(ch4) [] 4.04589 [] 7.63366 > ch4 <- z^ + z^ + z3^ + z4^ > hst(ch4) 上に平均値と分散を求めている 平均値は理論と合っているか回答できるはず
カイ二乗値 の確率分布 カイ二乗分布 何個の Z を足すかによる K 個足す E V 自由度 自由度 Karl Pearso カイ二乗値 K は自由度 教科書 3 頁
もし歪み度 尖り度を知っていれば ( 章 0 ページ 章 75 ページ ) 正規分布の場合 標準値にすれば. 期待値 : E Z = 0. 分散 : V Z = E Z = 3. 歪み度 : E Z 3 = 0 4. 尖り度 : E Z 4 = 3 V Z E Z 4 E Z 3
カイ二乗分布の期待値と分散自由度 (k)=3 の場合 3 3 E Z E Z E Z Z Z E Z E k 3 3 Z V Z V Z V Z Z Z V V k
クイズ. 自由度 9 のカイ二乗分布に従う変数 W がある E W と SD W はいくらか?. 自由度 0のカイ二乗分布に従う変数 がある この期待値と分散はいくら χ 0 か? 自由度 0 のカイ二乗値を表す記号として使うことがある
回答... 4.4 8 8 9 9 9 9 9 SD V E 0 3 0 Z Z Z Z 9 3 9 Z Z Z Z... 6.3 40 40 0 0 0 0 0 SD V E 自由度 9=9 個の合計自由度 0=0 個の合計
χ 分布を活用するデータ数 0 個 母平均 50 標準偏差 0 値 μ 0 50 この期待値は 0 00 0 0 50 0 個の標準値の二乗和 自由度 0のカイ二乗分布 この期待値は 0
ここからは次回か
クイズ 日本人の成人男性の身長には正規分布 N 70, 0 が当てはまっている ( とする ) 6 人のデータをとって 不偏分散 σ を求める このとき 不偏分散の結果が 44 を超える確率はどのくらいあるだろうか?
直接的な解決法 = 実験 ( 万回 ) 分散が 44 を超えるサンプルは結構出てくる > mea(jkke); var(jkke) [] 00.39 期待値としては真の分散と ( ほぼ ) 一致 不偏 [] 4093.46 真の分散 =00 不偏性は確認結果のばらつき ( 分散 ) が 4093 平均の 倍ではない 単純にカイ二乗分布が当てはまるわけではないようだ > jkke <- replcate(0000,var(rorm(6,mea=70,sd=0))) > sum(jkke > 44) [] 088 不偏分散が 44 以上になるのは 万回中の 088 回 (0% 程度 )
カイ二乗分布応用の鍵 : 定理 4 平均値の定理 8 0 に該当 母集団 ( 正規 ) サンプル : 標準値? μ = 70 σ = 0 真の平均ではない!,,, 6 W 6 0 00 6 自由度 5 のカイ二乗値になる 教科書 4~5 頁
数学的計算平均 μ 分散 σ データ数 個で計算 データを 個とった 真の偏差二乗和これが大事ゼロ
は標準値 Z になっている これも 個の標準値 前のつづき ( 両辺を分散 σ で割る ) 個の二乗和に見えるが 実は 個の二乗和である
ˆ 教科書 6~7 頁 σ とカイ二乗分布の関係自由度 のカイ二乗値分散の値が大きく出る χ の値が大きく出る
クイズへの理論的回答 P 0 44 44 6 6 6 6 P P 0 7. テキスト巻末の数値表 3 はカイ二乗分布のパーセント点 つまり この値以上になる確率が 5% というときのこの値 を求める表である 上の確率は巻末の数値表では無理である さっきの実験結果と合っているか? R による確認 : > -pchsq(7.,df=5) [] 0.06859
V σ は実験結果で確認できるか? 44 を超えるサンプルは結構出てくる > mea(jkke); var(jkke) [] 00.39 [] 4093.46 真の分散 =00 不偏性は確認結果のばらつき ( 分散 ) が 4093 平均の 倍ではない 単純にカイ二乗分布が当てはまるわけではないようだ
回答 自由度 のカイ二乗値の期待値と分散は以下のとおり : E χ V χ = = V 0 6 0 V 5 6 4000 4000
練習問題 真の分散が σ データ数が 個として 標本分散 S の期待値を求めよ E S 標本分散 S の分散を求めよ V S 教科書 6~7 ページ