統計学 - 社会統計の基礎 - 正規分布 標準正規分布累積分布関数の逆関数 t 分布正規分布に従うサンプルの平均の信頼区間 担当 : 岸 康人 資料ページ : https://goo.gl/qw1djw
正規分布 ( 復習 ) 正規分布 (Normal Distribution)N (μ, σ 2 ) 別名 : ガウス分布 (Gaussian Distribution) 密度関数 Excel:= NORM.DIST ( x, μ, σ, FALSE ) 累積分布関数???(-_-;) 初等関数で書けない ( が数値計算は可能 ) NORM.DIST ( x, μ, σ, TRUE ) 平均 : 分散 : ( 標準偏差 :σ)
正規分布の特徴 2 項分布の極限 観測誤差の分布 中心極限定理 平均は n で正規分布に従う 平均に関して左右対称 再生性 正規分布 ( 復習 )
前回の演習 1. X~N(20, 25) のとき P[X>25] を求めよ P[X>25]=1-P[X 25]~0.159 =1-NORMDIST(25,20,SQRT(25),TRUE)
前回の演習 2. X~N(20, 25) のとき P[X 15] を求めよ P[X 15]~0.159 =NORMDIST(15,20,SQRT(25),TRUE)
前回の演習 3. X~N(20, 25) のとき P[15 X 25] を求めよ P[15 X 25]=P[X 25]-P[X 15]~0.683 =NORMDIST(25,20,SQRT(25),TRUE) -NORMDIST(15,20,SQRT(25),TRUE) σ σ
前回の演習 4. X~N(20, 100) のとき P[10 X 30] を求めよ P[10 X 30]=P[X 30]-P[X 10]~0.683 =NORMDIST(30,20,SQRT(100),TRUE) -NORMDIST(10,20,SQRT(100),TRUE) σ σ
前回の演習 5. X~N(20, 225) のとき P[5 X 35] を求めよ P[5 X 35]=P[X 35]-P[X 5]~0.683 =NORMDIST(35,20,SQRT(225),TRUE) -NORMDIST(5,20,SQRT(225),TRUE) σ σ
前回の演習 6. X~N(30, 225) のとき P[15 X 45] を求めよ P[15 X 45]=P[X 45]-P[X 15]~0.683 =NORMDIST(45,30,SQRT(225),TRUE) -NORMDIST(15,30,SQRT(225),TRUE) σ σ
前回の演習 7. X~N(25, 100) のとき P[15 X 35] を求めよ P[15 X 35]=P[X 35]-P[X 15]~0.683 =NORMDIST(35,25,SQRT(100),TRUE) -NORMDIST(15,25,SQRT(100),TRUE) σ σ
前回の演習 3. X~N(20, 25) のとき σ=5 だから P[15 X 25]=P[20-5 X 20+5] =P[μ-σ X μ+σ] 4. X~N(20, 100) のとき σ=10 だから P[10 X 30]=P[20-10 X 20+10] =P[μ-σ X μ+σ] 5. X~N(20, 225) のとき σ=15 だから P[5 X 35]=P[20-15 X 20+15] =P[μ-σ X μ+σ] 6. X~N(30, 225) のとき σ=15 だから P[15 X 45]=P[30-15 X 30+15] =P[μ-σ X μ+σ] 7. X~N(25, 100) のとき σ=10 だから P[15 X 35]=P[25-10 X 25+10] X~N(μ, σ 2 ) のとき P[μ-σ X μ+σ] ~0.683 =P[μ-σ X μ+σ]
前回の演習 X~N(μ, σ 2 ) のとき P[μ-3σ X μ+3σ] は? 例えば X~N(20,100) として P[-10 X 50]~0.9973 =NORMDIST(50,20,10,TRUE) -NORMDIST(-10,20,10,TRUE) 3σ 3σ
標準正規分布 N(0,1) 正規分布 μ=0, σ 2 =1(σ=1) の正規分布を標準正規分布と呼ぶ X~N (μ, σ 2 ) のとき 次の確率変数 Zは標準正規分布となる
標準正規分布 N(0,1) 正規分布 密度関数 = NORM.DIST ( x, 0, 1, FALSE ) = NORM.S.DIST ( x, FALSE ) 累積分布関数 = NORM.DIST ( x, 0, 1, TRUE ) = NORM.S.DIST ( x, TRUE )
3σ 範囲 正規分布 1σ 範囲 :P[μ-σ X μ+σ] =P[-1 Z 1]=0.6827 2σ 範囲 :P[μ-2σ X μ+2σ]=p[-2 Z 2]=0.9545 3σ 範囲 :P[μ-3σ X μ+3σ]=p[-3 Z 3]=0.9973 4σ 範囲 :P[μ-4σ X μ+4σ]=p[-4 Z 4]=0.9999 正規分布の場合 99.7% のサンプルは 3σ 範囲内 3σ 3σ
確率 実現値を求める 正規分布 確率 p が与えられたとき P[-r Z r]=p を満たす r は? Z~N(0,1) 例えばp=0.9のとき 下図 90% のサンプルが入っているような範囲をみつけたい??
確率 実現値を求める 正規分布 確率 p が与えられたとき P[-r Z r]=p を満たす r は? P[-r Z r]=1-p[z -r]-p[z<r] だから P[Z -r](=p[z<r])=(1-p)/2 となるrを求めればよい P[Z -r]=5% P[Z<r]=5%??
確率 実現値を求める 正規分布 確率 p が与えられたとき P[-r Z r]=p を満たす r は? 正規分布の累積分布関数が書けないので P[Z -r]=(1-p)/2の解 r も初等関数で表せないが 数値計算は可能 =NORM.S.INV( 確率 ) ( 標準正規分布の累積分布関数の逆関数 ) NORM.S.INV(0.05) =-1.64485 1.64485??
確率 実現値を求める 正規分布 確率 p が与えられたとき P[-r Z r]=p を満たす r は? r=norm.s.inv( (1-p)/2 ) 90% のサンプルが入っている範囲は -1.64485 Z 1.64485-1.64485 1.64485
標準正規分布 N(0,1) 正規分布 密度関数 = NORM.S.DIST ( x, FALSE ) 累積分布関数 = NORM.S.DIST ( x, TRUE ) 累積分布関数の逆関数 確率から実現値を求める = NORM.S.INV ( p )
t 分布 T(ν) t 分布 ν( ニュー ; ギリシャ文字 ): 自由度 サンプルサイズ-1 νを大きくするとn(0,1) に近づく Wikipedia:t 分布 平均 :E[X]=0 分散 :V[X]=ν/(ν-2) (ν>2)
考案した人 t 分布 William Sealy Gosset a.k.a. Student 1876-1937 ペンネームから Student の t 分布 とも呼ばれる 名付けたのは Fisher サンプルサイズが少なくてもなるべく正確な統計にしたい http://ja.wikipedia.org/wiki/%e3%82%a6%e3%82%a 3%E3%83%AA%E3%82%A2%E3%83%A0%E3%83%BB %E3%82%B4%E3%82%BB%E3%83%83%E3%83%88
t 分布 t 分布 次の確率変数 T の分布 n 個の (μ, σ) 正規分布に従う確率変数 X1~Xn の標本平均 n 個の (μ, σ) 正規分布に従う確率変数 X1~Xn の ( 不偏 ) 標準偏差
t 分布 T(ν) 密度関数 t 分布 = T.DIST(x, ν, FALSE) 累積分布関数 = T.DIST(x, ν, TRUE) 累積分布関数の逆関数 = T.INV( p, ν ) 信頼区間を求めるときに出てきた関数
正規分布の期待値の区間推定 分散が未知の場合 :CONFIDENCE.T 信頼区間 : c= ー t U / n U:( 不偏 ) 標準偏差 ( 不偏分散の平方根 ); サンプルから計算 n : サンプルサイズ t :=-T.INV( (1-α)/2, ν ) α : 信頼度 ν: 自由度 =n-1 =CONFIDENCE.T( 1-α, U, n ) 分散未知な正規分布の平均の信頼幅 (Confidence Interval) 1-α : 有意水準 =1- 信頼度 (95% 0.05 90% 0.01)» 2で割らないことに注意
正規分布の期待値の区間推定 分散が既知の場合 :CONFIDENCE.NORM 信頼区間 : c= ー zσ/ n σ : 標準偏差 ( 母分散の平方根 ) n : サンプルサイズ =-z*σ/sqrt(n) z= NORM.S.INV( (1-α)/2 )» α : 信頼度 =CONFIDENCE.NORM( 1-α, σ, n ) 分散既知な正規分布の平均の信頼幅 (Confidence Interval) 1-α : 有意水準 =1- 信頼度 (95% 0.05 90% 0.01)» 2で割らないことに注意
この講義で学習したこと レポート 論文での研究 分析手法 分析プラン : テーマ 仮説 分析ポイント 統計での分析手法 サンプルデータの扱い 度数分布 ( ヒストグラム ) 特徴量 ( 平均 中央値 標準偏差 分散 ) サンプルデータの分布の推定 分布の種類を推定 離散 二項分布 / 幾何分布 / ポアソン分布 / 連続 指数分布 / 正規分布 / 点推定と区間推定 ( 信頼区間 ) 正規分布のサンプルのみ 分布が与えられたときの確率の計算
多くの分布 この講義で学習しなかったこと ロングテール / ヘビーテールに属する分布 世の中のいろいろな現象は裾の重い分布 これらの現象に裾の軽い分布を適用すると 滅多に起こらない方の確率を過小評価することになる パレート分布 対数正規分布 ワイブル分布 ( 一部 ) t 分布 etc. 統計学の手法 * 検定 * 多変量解析 ベイズ統計 機械学習 etc.
今日の演習 資料ページに戻る