モジュール１のまとめ

数理統計学第 0 回

復習標本分散と ( 標本 ) 不偏分散両方とも分散というのが実情二乗偏差計標本分散 = データ数 (0ページ) ( 標本 ) 不偏分散 = (03 ページ ) 二乗偏差計データ数 - 分析ではこちらをとることが多い

復習ここまで実験結果 ( 万回 ) 平均 50Kg 標準偏差 0Kg 0 人全体に小さすぎる > mea(jkke) [] 89.4373 標準偏差 =9.5 前後そもそも正規分布でもない偏りがとれた > mea(jkke) [] 99.6348 標準偏差 =0 前後

R で確認図 ( 前頁 ) の作成手順 > rorm(0,mea=50,sd=0) 正規分布から0 個のサンプル [] 56.573 75.94976 59.0753 55.89 48.9054 50.0775 46.3889 [8] 48.6459 70.34706 55.0064 > varp(rorm(0,mea=50,sd=0)) [] 00.84 > varp(rorm(0,mea=50,sd=0)) 0 個のデータの標本分散の出方をみる [] 47.787 > varp(rorm(0,mea=50,sd=0)) [] 38.887 > jkke <- replcate(0000,varp(rorm(0,mea=50,sd=0))) > jkke <- replcate(0000,var(rorm(0,mea=50,sd=0))) > par(mfrow=c(,)) 段の図の準備 > hst(jkke,ma=" 標本分散 ",breaks="fd") > hst(jkke,ma=" 不偏分散 ",breaks="fd") 注 : コマンド varp は次ページの説明を確認すること

R で確認図 ( 前頁 ) の作成手順分散は平均二乗偏差のことなので以下のように求めるのが本来は定義にかなう mea((x-mea(x))^ ( 例 ) > x <- :5 > mea((x-mea(x))^) [] 以下を実行してコマンドにしておくと便利 varp <- fucto(x){mea((x-mea(x))^)}

別の実験 ( 万回 ) 平均 70 分散 0 データ数 5 人全体に値が小さい標本分散 > mea(jkke); var(jkke) [] 77.83389 [] 840.553 バイアスそもそも正規分布が当てはまらないバイアスが消えた不偏分散 > mea(jkke); var(jkke) [] 00.094 [] 4876.46 真の分散 ( 全体の分散 )=0

標本分散 S のバイアス以下の結論を数学的に証明できる E S バイアスがある = 不偏性がないあとの例で言うと = 5 σ = 00 だから E 4 5 S 00 80 実験結果にあっているか?

不偏分散のねらい S N N でバイアス修正 E N N S = N N N N σ = σ 故に ( 標本 ) 不偏分散という計算式としてはシグマ二乗ハット ˆ

0 標本分散のバイアス数学的計算 50 50 真の偏差二乗和 0 0 50 0 50 0 50 データの偏差二乗和 0 0 0 0 00 0 90 E 偏差二乗和 μ = 50 σ = 00 = 0 両辺を 0 で割れ

データ数が少ないとき違いが大きい極端なケース : データ個の場合言葉の定義どおりなら S 0 個のデータにはバラつきがないので分散はゼロ母集団の分散を知りたいなら S 0 0 計算不能個のデータでは全体のバラつきは分からないので計算できない

クイズさいころを 5 回振って目の数の標本分散を求めるこの値は.9 位になるか? から 6 まで同じ割合で出るとき分散は.9 σ =.9 理論的には E 4 5 S.9. 34

R で確認定義通りの標本分散を計算する関数を定義しておくと便利 > varp <- fucto(x){mea((x-mea(x))^)} > varp(:6) 確率通りの目が出ると分散は.9になる [].96667 > sample(:6,5,replace=true) 5 回振ってみる [] 6 4 6 5 5 > varp(sample(:6,5,replace=true)) 分散を出してみる [].8 > jkke <- replcate(0000,varp(sample(:6,5,replace=true))) > hst(jkke) > mea(jkke) 万回の実験結果の平均は.3になる計算結果とほぼ合っている [].3086

まとめサンプル母集団という観点サンプルの平均値は標本平均下の二つを使え N N サンプルの分散は ( 標本 ) 不偏分散不偏性ありバイアスなし ˆ N N 不偏性ありバイアスなし

次のテーマ - 分散という結果の出方カイ二乗分布入門右の図はすべてカイ二乗分布データを集めてヒストグラムを描いてみた > x <- rchsq(5000,df=) > x <- rchsq(5000,df=) > x3 <- rchsq(5000,df=3) > x4 <- rchsq(5000,df=4) 上の df は自由度これから説明する教科書 : ページ

カイ二乗分布カイ二乗値が従う分布であるカイ二乗値 :χ 標準正規分布 N 0, からとった個の値の二乗和 Z Z + Z Z + Z + Z 3 Z + Z + Z 3 + Z 4 自由度のカイ二乗値自由度のカイ二乗値自由度 3のカイ二乗値自由度 4のカイ二乗値以下同様カイ二乗分布は正規分布から出てくる分布

R で確認 000 個 000 個 000 個 000 個 > z <- rorm(000) > z <- rorm(000) > z3 <- rorm(000) > z4 <- rorm(000) 標準正規分布から 000 個のデータをとった

R で確認 Z の分布をみる第章の最後のテーマ Z で確かめたが Z 以下を使っても大体同じである > mea(ch); var(ch) [] 0.95806 [].75947 ch <- z^ hst(ch) 上に平均値と分散を求めている平均値は理論と合っているか回答できるはずである

R で確認 Z + Z の分布をみる Z と Z で確かめたが他を使っても大体同じである > mea(ch); var(ch) [].99639 [] 3.75047 > ch <- z^ + z^ > hst(ch) 上に平均値と分散を求めている平均値は理論と合っているか回答できるはずである

R で確認 Z + Z +Z 3 +Z 4 3 個の二乗和は省略 > mea(ch4); var(ch4) [] 4.04589 [] 7.63366 > ch4 <- z^ + z^ + z3^ + z4^ > hst(ch4) 上に平均値と分散を求めている平均値は理論と合っているか回答できるはず

カイ二乗値の確率分布カイ二乗分布何個の Z を足すかによる K 個足す E V 自由度自由度 Karl Pearso カイ二乗値 K は自由度教科書 3 頁

もし歪み度尖り度を知っていれば ( 章 0 ページ章 75 ページ ) 正規分布の場合標準値にすれば. 期待値 : E Z = 0. 分散 : V Z = E Z = 3. 歪み度 : E Z 3 = 0 4. 尖り度 : E Z 4 = 3 V Z E Z 4 E Z 3

カイ二乗分布の期待値と分散自由度 (k)=3 の場合 3 3 E Z E Z E Z Z Z E Z E k 3 3 Z V Z V Z V Z Z Z V V k

クイズ. 自由度 9 のカイ二乗分布に従う変数 W がある E W と SD W はいくらか?. 自由度 0のカイ二乗分布に従う変数があるこの期待値と分散はいくら χ 0 か? 自由度 0 のカイ二乗値を表す記号として使うことがある

回答... 4.4 8 8 9 9 9 9 9 SD V E 0 3 0 Z Z Z Z 9 3 9 Z Z Z Z... 6.3 40 40 0 0 0 0 0 SD V E 自由度 9=9 個の合計自由度 0=0 個の合計

χ 分布を活用するデータ数 0 個母平均 50 標準偏差 0 値 μ 0 50 この期待値は 0 00 0 0 50 0 個の標準値の二乗和自由度 0のカイ二乗分布この期待値は 0

ここからは次回か

クイズ日本人の成人男性の身長には正規分布 N 70, 0 が当てはまっている ( とする ) 6 人のデータをとって不偏分散 σ を求めるこのとき不偏分散の結果が 44 を超える確率はどのくらいあるだろうか?

直接的な解決法 = 実験 ( 万回 ) 分散が 44 を超えるサンプルは結構出てくる > mea(jkke); var(jkke) [] 00.39 期待値としては真の分散と ( ほぼ ) 一致不偏 [] 4093.46 真の分散 =00 不偏性は確認結果のばらつき ( 分散 ) が 4093 平均の倍ではない単純にカイ二乗分布が当てはまるわけではないようだ > jkke <- replcate(0000,var(rorm(6,mea=70,sd=0))) > sum(jkke > 44) [] 088 不偏分散が 44 以上になるのは万回中の 088 回 (0% 程度 )

カイ二乗分布応用の鍵 : 定理 4 平均値の定理 8 0 に該当母集団 ( 正規 ) サンプル : 標準値? μ = 70 σ = 0 真の平均ではない!,,, 6 W 6 0 00 6 自由度 5 のカイ二乗値になる教科書 4~5 頁

数学的計算平均 μ 分散 σ データ数個で計算データを個とった真の偏差二乗和これが大事ゼロ

は標準値 Z になっているこれも個の標準値前のつづき ( 両辺を分散 σ で割る ) 個の二乗和に見えるが実は個の二乗和である

ˆ 教科書 6~7 頁 σ とカイ二乗分布の関係自由度のカイ二乗値分散の値が大きく出る χ の値が大きく出る

クイズへの理論的回答 P 0 44 44 6 6 6 6 P P 0 7. テキスト巻末の数値表 3 はカイ二乗分布のパーセント点つまりこの値以上になる確率が 5% というときのこの値を求める表である上の確率は巻末の数値表では無理であるさっきの実験結果と合っているか? R による確認 : > -pchsq(7.,df=5) [] 0.06859

V σ は実験結果で確認できるか? 44 を超えるサンプルは結構出てくる > mea(jkke); var(jkke) [] 00.39 [] 4093.46 真の分散 =00 不偏性は確認結果のばらつき ( 分散 ) が 4093 平均の倍ではない単純にカイ二乗分布が当てはまるわけではないようだ

回答自由度のカイ二乗値の期待値と分散は以下のとおり : E χ V χ = = V 0 6 0 V 5 6 4000 4000

練習問題真の分散が σ データ数が個として標本分散 S の期待値を求めよ E S 標本分散 S の分散を求めよ V S 教科書 6~7 ページ