9. 統計学I - PDF Free Download

9 年 7 月 8 日更新 Exercises i Computer-Aided Problem Solvig 9. 統計学 I 東北大学大学院工学研究科嶋田慶太 shimada@tohoku.ac.jp

目次平均分散期待値二項分布ポアソン分布統計学の役割サンプリングした集団の性質について調べるサンプリングをもとに母集団の性質を推定する記述統計学推測統計学何をしたいのか意識しないと辛い学問かも ( 個人の感想 )

平均分散期待値

統計量と統計学 4 統計的データがあった場合, 第データとしては, 次のデータとして, 初婚年齢平均中央値最頻値 Mea Media Mode 分散 Dispersio が重視されることが多い. 平均所得がよく用いられる. ( 最大値最小値も ) 例えば一般の人の万倍稼ぐ人がいると, 平均値は押し上げられる. http://www.mhlw.go.jp/shigi//s-3a.html http://www.mhlw.go.jp/toukei/saiki/hw/k-tyosa/k-tyosa/-.html

Octave の統計関数 () 平均 : mea μ = i= 分散 : var V = i= 標準偏差 : std σ = V x i = T x i 中央値 :media 不偏分散と呼ばれる最小二乗法で書いたベクトル表現 x i μ = x i μ T x i μ なぜ - が分母? 正規分布と一様分布 >> X = rad(,); >> mea(x) as =.347 >> var(x) as =.68 >> X = rad(,); >> mea(x) as =.5384 >> var(x) as =.837 std 関数と定義からの検証 >> X = rad(,); >> std(x) as =.99576 >> sqrt(var(x)) as =.99576 >> media(x) as = -.5996 5

二つの分散母分散 (Populatio variace) 対象とする集合すべての要素の平均から求めれる全数調査が容易ならこれで対応するが, 現実には無作為抽出した標本から母集団を推定. N N i x i 母集団 6 N 個の母集団の要素から個の要素を無作為抽出 s ˆ 標本分散 (Sample variace) x i x i 不偏分散 (Ubiased variace) i x i x 標本平均分母を - とすることで補正. 期待値は母分散に一致する母平均 μ 一般に x μ であり, s は小さく見積もられる σ > s となりやすい. 標本平均 x 期待値が一致? 気になる場合はこのスライドの最後に

期待値 7 期待値 (Expected value) 確率による重み付き平均例 : サイコロを振って ( 出目円 ) がもらえるゲームをした場合, 得する参加金額 35 円以下の参加金額ならそのうち得する.( 賭博罪になるので実際はダメだが.) モンテカルロ法によるシミュレーション乱数を用いたシミュレーション法 >> X=rad(,); >> Y=floor(X*6)+; >> mea(y*) as = 3445. floor: 床関数実数 x に対して,x 以下の最大の整数. 受験ではガウス記号でおなじみ. 仲間に天井関数 ceil がある.

二項分布

二項分布 (biomial distributio) 9 例 : コインを回投げて表が k 回出る確率 ( ただし, 表の出る確率は p とする ) P X = k = k pk p k for k =,,, 二項係数 C k =! k! k! = k + k k choosek(,k) この分布を二項分布とよび, B(, p) と表現する期待値 : E[X] = p

統計関数のインストール & ロード次のページから統計関数を使用するのでインストール >> pkg istall -forge statistics 初回のみ必要. >> pkg load statistics こちらは Octave を立ち上げ直したらその都度.

Octave での二項分布の関数二項分布の確率密度関数 biopdf(k,,p) Probability desity fuctio 全試行回数, 試行当たりの真の確率 p, 全ての真の回数 k 例 : /8 のくじを回引いて, 回あたりが出る biopdf(,,/8) 二項分布の積算分布関数 biocdf(k,,p) Cumulative distributio fuctio 全試行回数, 試行当たりの真の確率 p, 全ての真の回数から k である例 : /8 のくじを回引いて, 回以上あたりが出る -biocdf(,,/8) biocdf(k,,p) 定義上同値 sum(biopdf([:k],,p))

モンテカルロ法による二項分布例 : B(,.4) に従う変数 X >> X=rad(,)<.4 X = >> sum(x) as = 5 真回の試行で確率.4 の事象が起こる回数この計算では, 真真真真真となり,5 回起こったことを再現している. これを踏まえて, 回のセットを回行ったというモンテカルロ法例 : モンテカルロ法による分布の生成列 >> Y=sum(rad(,)<.4); >> hist(y,); >> mea(y) as = 4.98 真真真真真真真真真真真真 sum 4 4 4

比較演算の効率的な計算 3 例えばさいころを万回投げる実験の模擬として... X = radi([,6],,); 4 5 3 6 3 5 sum(x == :6); 3 4 5 6 :6 X 列ベクトル行ベクトル整数乱数作成関数から 6 まで行列を一気に比較できる ( 行と列が一致すれば ) 66 674 673 66 669 677 sum により合計が出る

二項分布の例 4 条件 : 5 枚のカードからランダムに枚取り出し, マークを当てるゲームで, 回のうち 6 回正解を出した場合, 自分は超能力者だといえるか? ゼナーカード (Zeer cards) 考え方 : 一般人であれば回の試行でマークを当てる確率は /5 すなわち. である. 計算は二項分布 B(,p) であるので当てる回数を ~ 回まで列挙するとかなり珍しい事態である. あなたは超能力者かもしれないね! >> [[:]' biopdf([:]',,.)] as =..737..6844..399 3..33 4..888 5..64 6..55 7..79 8..7 9....

ポアソン分布

ポアソン分布 (Poisso distributio) 6 例 : 所定の時間 τ に平均 λ 回発生する事象が τ 内に k 回その事象が起こる確率期待値 : λ 二項分布との違い連続時間なので, 明確な試行回数が分からない. 見えざる手による無限回のくじびきをイメージ時間 τ 中に回くじを引く回数を大きくした分, 当たりの出る確率 p = λ 確率 p を小さくして, 期待値 λ を一定に保つ p = / のくじを回引けば, 回は当たると期待される. p = /3 のくじを 3 回引けば, 回は当たると期待される. p = / のくじを回引けば, 回は当たると期待される. p = / のくじを回引けば, 回は当たると期待される. このイメージで二項分布の極限を考える

二項分布の極限としてのポアソン分布式の変形! = k! k! pk p k! k! k! λ k k λ p に代入 p = λ 7 = λk k! k + k λ λ k λ k k! e λ 時の流れの中に手を突っ込み, コンスタントにくじを引き続ける. 時間もっと区切る箱の大きさが回の試行の期待値回当たりの期待値は減ってもその総和は同じ

確率ポアソン分布の実例 8 例 : 時間に平均 5 通の email を受ける人が次の 5 分で受け取るメール数 λ = 5/(6/5) =.5 (5 分だと平均.5 通 ) P X = k = λk 期待値 : E[X] = λ k! e λ.4.3.. 5 k: 5 分での受信件数

ポアソン分布に従う乱数を使うシミュレーションポアソン分布に従う乱数 radp(l,m,) λ m 行列個省略すると正方行列例 : 時間に平均 5 通の email を受ける人が次の 5 分で受け取るメール数ある時 >> radp(5/6*5,,) 行列 as = ある時 4 3 通通通通通通通通通通というのを模擬している 9 >> hist(radp(5/6*5,,),:8) 行列

Octave でのポアソン分布の関数ポアソン分布の確率密度関数 poisspdf(k,l) 平均 l 回の現象が k 回起こる確率 Probability desity fuctio 例 : email の日平均受信数件で, 日で 45 件の確率 poisspdf(45,4) ポアソン分布の積算分布関数 poisscdf(k,l) 日なら平均 4 通 Cumulative distributio fuctio 平均 l 回の現象がから k 回起こる確率例 : email が日平均受信数件で,3 日で 5 件以下の確率 poisscdf(5,6) poisscdf(k,l) 定義上同値 sum(poisspdf([:k],l))

二項分布とポアソン分布のまとめ試行発生回の試行による発生の確率期待値二項分布離散的 ( 数えられる ) 離散的 ( 数えられる ) p p ポアソン分布連続的 ( 数えられない ) 離散的 ( 数えられる ) 回を定義できない λ 確率の小さな事象ポアソン分布で近似可能. 確率と期待値を混同しないように! 混同の例 : あたりの確率が/56ということは56 回引けば回は当たる, ってことだよね? 当たりません. むしろ37% くらいまったく当たらないことがあり得ます.

ポアソン過程と指数分布 λ: 単位時間当たりの平均と取る λt ある基準時刻から t までの回数の期待値はとなり, 式は, P N t = k = λt k k! e λt ポアソン分布の λ を λt に置き換えるだけ. これがポアソン過程. 待ち時間に注目した場合 : ポアソン過程に従うような事象が回発生したのち, 次の回が t 後に起こる確率 f について [, t] では発生せず,[t, t + dt] に回以上発生する確率を考えればよいので, λ t+dt f t dt = e [, t + dt] に回以上発生する確率 e λt [, t] に回以上発生する確率 t の時と言ったのに実質は t と t + dt の間の確率 f t = e λ t+dt dt e λt 指数関数の微分の定義 f t = λe λt 指数分布

確率密度関数と確率質量関数 3 二項分布やポアソン分布 : 発生するイベントの回数が数えられる回起こる確率, 回起こる確率が定義できる. 確率質量関数指数分布 : 発生するイベント回数ではなくタイミングを表しており, 数えるものではないたとえば秒ぴったりの確率は定義できない ( したとしても微小時間なので限りなくに近い ) 幅を伴って積分によって具体的な確率を考える. 確率密度関数なので, 確率密度関数は点の値がを超えることがあり得る.

課題

Exercise 9. 5 あるコンビニではお昼の時 ~3 時に平均人の来店がある. ある分間に来店者数が X 人以下となる確率をモンテカルロ法と解析的な手法の両方で求めよ. モンテカルロ法 : 乱数を使う手法解析的手法 : 数式から求まる手法ここで X を回答者の学籍番号 4 ケタの各桁の合計とする. つまり, 学籍番号 B 〇 TB357 の場合, X=+3+5+7=6 として計算せよ.

Exercise 9. あたりの確率が /4 の電子くじ ( ガチャ ) を Z 回引いた場合, あたりが計回, 計回,, 計回である確率を二項分布の理論的解とモンテカルロ法での計算の求め, 双方をグラフで示せ. ここで Z を回答者の学籍番号とする. モンテカルロ法のヒント : あたりが /4 のくじを Z 回引くことをセットとして行 or 列を作り, それを列 or 行方向に重ねることで複数セット行うことを模擬することで分布を作る. 6

Exercise 9.3 あたりの確率が /4 の電子くじ ( ガチャ ) を Z 回引いた場合, あたりが計回, 計回,, 計回である確率をポアソン分布で近似した場合の理論的解とポアソン乱数を用いたモンテカルロ法の計算の求め, 双方をグラフで示せ. ここで Z を回答者の学籍番号とする. ヒント : くじを Z 回引くことをセットとした場合に, そのセット内に何回あたりがあるか近似分布を示すのがポアソン分布. そのセット内のあたりの回数を模擬するのがポアソン乱数. 7

Appedix

標本分散の期待値 () 母集団 ( 要素数 N) から要素数の標本を抜き出す標本の選び方の数は下の式 9 N = NC = N! N!! = M とりあえず M と置く. 以下, 母集団の要素を意識する場合は {x i } と表記し, ある標本 j の要素であることを意識する場合は,{x jk } と表記する. 母集団の要素に,, N と番号を振り, グループ j に属する要素にも別途,,, と番号を振る. 当然,{x jk } {x i } であり, {x jk } {x j'k } がでない場合がある.

標本分散の期待値 () 3 M s = M j= s j 標本分散の期待値を式化 (M 個あるグループの標本分散を全部して平均 ) = M j= M k= x jk x j 定義 x j = k= x jk = M j= M k= 定義式 x jk x j 公式すべての要素にとって同様なので, M j= ある要素 x i が含まれるグループ数を考えると, (N ) から ( ) を取り出す組合せであるから k= N x jk = N M N = N M i= x i となり

標本分散の期待値 (3) N M s = x N i M i= j= x j となる. 再掲 x j = k= 3 x jk ある要素 x α と x β がともに含まれるグループ数を考えると, (N ) から ( ) を取り出す組合せであるから M M j= N μ = x j = M α=,n β=,n N N M i= x α x β = x i + N N i= x i + N M α=,n β=,n α β α=,n β=,n α β x α x β x α x β を用いて変形すると

標本分散の期待値 (4) 3 M M j= x j = N N N N i= x i + N N μ が得られる. これを代入して, N s = N i= M x i M j= x j = = N N N N σ N N i= x i μ N は自然現象であれば非常に巨大な数であるし, 通常非常に大きな数であるので約分できる. 結局, 分母のは標本分散を求める際に用いたものがそのまま出てきているだけなので, これを ( ) に置き換えたほうが母分散に近づける. ということで不偏分散が使われる.