9 年 7 月 8 日更新 Exercises i Computer-Aided Problem Solvig 9. 統計学 I 東北大学大学院工学研究科嶋田慶太 shimada@tohoku.ac.jp
目次 平均 分散 期待値 二項分布 ポアソン分布 統計学の役割 サンプリングした集団の性質について調べる サンプリングをもとに母集団の性質を推定する 記述統計学 推測統計学 何をしたいのか意識しないと辛い学問かも ( 個人の感想 )
平均 分散 期待値
統計量と統計学 4 統計的データがあった場合, 第 データとしては, 次のデータとして, 初婚年齢 平均中央値最頻値 Mea Media Mode 分散 Dispersio が重視されることが多い. 平均所得 がよく用いられる. ( 最大値 最小値も ) 例えば一般の人の 万倍稼ぐ人がいると, 平均値は押し上げられる. http://www.mhlw.go.jp/shigi//s-3a.html http://www.mhlw.go.jp/toukei/saiki/hw/k-tyosa/k-tyosa/-.html
Octave の統計関数 () 平均 : mea μ = i= 分散 : var V = i= 標準偏差 : std σ = V x i = T x i 中央値 :media 不偏分散と呼ばれる 最小二乗法で書いたベクトル表現 x i μ = x i μ T x i μ なぜ - が分母? 正規分布と一様分布 >> X = rad(,); >> mea(x) as =.347 >> var(x) as =.68 >> X = rad(,); >> mea(x) as =.5384 >> var(x) as =.837 std 関数と定義からの検証 >> X = rad(,); >> std(x) as =.99576 >> sqrt(var(x)) as =.99576 >> media(x) as = -.5996 5
二つの分散 母分散 (Populatio variace) 対象とする集合すべての要素の平均から求めれる 全数調査が容易ならこれで対応するが, 現実には無作為抽出した標本から母集団を推定. N N i x i 母集団 6 N 個の母集団の要素から 個の要素を無作為抽出 s ˆ 標本分散 (Sample variace) x i x i 不偏分散 (Ubiased variace) i x i x 標本平均 分母を - とすることで補正. 期待値は母分散に一致する 母平均 μ 一般に x μ であり, s は小さく見積もられる σ > s となりやすい. 標本平均 x 期待値が一致? 気になる場合はこのスライドの最後に
期待値 7 期待値 (Expected value) 確率による重み付き平均 例 : サイコロを振って ( 出目 円 ) がもらえるゲームをした場合, 得する参加金額 35 円以下の参加金額ならそのうち得する.( 賭博罪になるので実際はダメだが.) モンテカルロ法によるシミュレーション 乱数を用いたシミュレーション法 >> X=rad(,); >> Y=floor(X*6)+; >> mea(y*) as = 3445. floor: 床関数実数 x に対して,x 以下の最大の整数. 受験ではガウス記号でおなじみ. 仲間に天井関数 ceil がある.
二項分布
二項分布 (biomial distributio) 9 例 : コインを 回投げて表が k 回出る確率 ( ただし, 表の出る確率は p とする ) P X = k = k pk p k for k =,,, 二項係数 C k =! k! k! = k + k k choosek(,k) この分布を二項分布とよび, B(, p) と表現する 期待値 : E[X] = p
統計関数のインストール & ロード 次のページから統計関数を使用するのでインストール >> pkg istall -forge statistics 初回のみ必要. >> pkg load statistics こちらは Octave を立ち上げ直したらその都度.
Octave での二項分布の関数 二項分布の確率密度関数 biopdf(k,,p) Probability desity fuctio 全試行回数, 試行当たりの 真 の確率 p, 全ての 真 の回数 k 例 : /8 のくじを 回引いて, 回あたりが出る biopdf(,,/8) 二項分布の積算分布関数 biocdf(k,,p) Cumulative distributio fuctio 全試行回数, 試行当たりの 真 の確率 p, 全ての 真 の回数 から k である 例 : /8 のくじを 回引いて, 回以上あたりが出る -biocdf(,,/8) biocdf(k,,p) 定義上同値 sum(biopdf([:k],,p))
モンテカルロ法による二項分布 例 : B(,.4) に従う変数 X >> X=rad(,)<.4 X = >> sum(x) as = 5 真 回の試行で確率.4 の事象が起こる回数この計算では, 真真真真真 となり,5 回起こったことを再現している. これを踏まえて, 回のセットを 回行ったというモンテカルロ法 例 : モンテカルロ法による分布の生成 列 >> Y=sum(rad(,)<.4); >> hist(y,); >> mea(y) as = 4.98 真 真 真 真 真 真 真 真 真 真 真 真 sum 4 4 4
比較演算の効率的な計算 3 例えばさいころを 万回投げる実験の模擬として... X = radi([,6],,); 4 5 3 6 3 5 sum(x == :6); 3 4 5 6 :6 X 列ベクトル行ベクトル整数乱数作成関数 から 6 まで 行列を一気に比較できる ( 行と列が一致すれば ) 66 674 673 66 669 677 sum により合計が出る
二項分布の例 4 条件 : 5 枚のカードからランダムに 枚取り出し, マークを当てるゲームで, 回のうち 6 回正解を出した場合, 自分は超能力者だといえるか? ゼナー カード (Zeer cards) 考え方 : 一般人であれば 回の試行でマークを当てる確率は /5 すなわち. である. 計算は二項分布 B(,p) であるので当てる回数を ~ 回まで列挙すると かなり珍しい事態である. あなたは超能力者かもしれないね! >> [[:]' biopdf([:]',,.)] as =..737..6844..399 3..33 4..888 5..64 6..55 7..79 8..7 9....
ポアソン分布
ポアソン分布 (Poisso distributio) 6 例 : 所定の時間 τ に平均 λ 回発生する事象が τ 内に k 回その事象が起こる確率期待値 : λ 二項分布との違い 連続時間なので, 明確な試行回数 が分からない. 見えざる手による無限回のくじびきをイメージ 時間 τ 中に 回くじを引く回数 を大きくした分, 当たりの出る確率 p = λ 確率 p を小さくして, 期待値 λ を一定に保つ p = / のくじを 回引けば, 回は当たると期待される. p = /3 のくじを 3 回引けば, 回は当たると期待される. p = / のくじを 回引けば, 回は当たると期待される. p = / のくじを 回引けば, 回は当たると期待される. このイメージで二項分布の極限を考える
二項分布の極限としてのポアソン分布 式の変形! = k! k! pk p k! k! k! λ k k λ p に代入 p = λ 7 = λk k! k + k λ λ k λ k k! e λ 時の流れの中に手を突っ込み, コンスタントにくじを引き続ける. 時間 もっと区切る 箱の大きさが 回の試行の期待値 回当たりの期待値は減ってもその総和は同じ
確率 ポアソン分布の実例 8 例 : 時間に平均 5 通の email を受ける人が次の 5 分で受け取るメール数 λ = 5/(6/5) =.5 (5 分だと平均.5 通 ) P X = k = λk 期待値 : E[X] = λ k! e λ.4.3.. 5 k: 5 分での受信件数
ポアソン分布に従う乱数を使うシミュレーション ポアソン分布に従う乱数 radp(l,m,) λ m 行列 個省略すると正方行列 例 : 時間に平均 5 通の email を受ける人が次の 5 分で受け取るメール数 ある時 >> radp(5/6*5,,) 行 列 as = ある時 4 3 通通通通通通通通通通というのを模擬している 9 >> hist(radp(5/6*5,,),:8) 行 列
Octave でのポアソン分布の関数 ポアソン分布の確率密度関数 poisspdf(k,l) 平均 l 回の現象が k 回起こる確率 Probability desity fuctio 例 : email の 日平均受信数 件で, 日で 45 件の確率 poisspdf(45,4) ポアソン分布の積算分布関数 poisscdf(k,l) 日なら平均 4 通 Cumulative distributio fuctio 平均 l 回の現象が から k 回起こる確率 例 : email が 日平均受信数 件で,3 日で 5 件以下の確率 poisscdf(5,6) poisscdf(k,l) 定義上同値 sum(poisspdf([:k],l))
二項分布とポアソン分布のまとめ 試行 発生 回の試行による発生の確率 期待値 二項分布 離散的 ( 数えられる ) 離散的 ( 数えられる ) p p ポアソン分布 連続的 ( 数えられない ) 離散的 ( 数えられる ) 回 を定義できない λ 確率の小さな事象 ポアソン分布で近似可能. 確率と期待値を混同しないように! 混同の例 : あたりの確率が/56ということは56 回引けば 回は当たる, ってことだよね? 当たりません. むしろ37% くらいまったく当たらないことがあり得ます.
ポアソン過程と指数分布 λ: 単位時間当たりの平均と取る λt ある基準時刻 から t までの回数の期待値はとなり, 式は, P N t = k = λt k k! e λt ポアソン分布の λ を λt に置き換えるだけ. これがポアソン過程. 待ち時間に注目した場合 : ポアソン過程に従うような事象が 回発生したのち, 次の 回が t 後に起こる確率 f について [, t] では発生せず,[t, t + dt] に 回以上発生する確率を考えればよいので, λ t+dt f t dt = e [, t + dt] に 回以上発生する確率 e λt [, t] に 回以上発生する確率 t の時と言ったのに実質は t と t + dt の間の確率 f t = e λ t+dt dt e λt 指数関数の微分の定義 f t = λe λt 指数分布
確率密度関数と確率質量関数 3 二項分布やポアソン分布 : 発生するイベントの回数が数えられる 回起こる確率, 回起こる確率が定義できる. 確率質量関数 指数分布 : 発生するイベント回数ではなくタイミングを表しており, 数える ものではない たとえば 秒 ぴったりの確率は定義できない ( したとしても微小時間なので限りなく に近い ) 幅を伴って積分によって具体的な確率を考える. 確率密度関数 なので, 確率密度関数は点の値が を超えることがあり得る.
課題
Exercise 9. 5 あるコンビニではお昼の 時 ~3 時に平均 人の来店がある. ある 分間に来店者数が X 人以下となる確率を モンテカルロ法と解析的な手法の両方で求めよ. モンテカルロ法 : 乱数を使う手法 解析的手法 : 数式から求まる手法 ここで X を回答者の学籍番号 4 ケタの各桁の合計とする. つまり, 学籍番号 B 〇 TB357 の場合, X=+3+5+7=6 として計算せよ.
Exercise 9. あたりの確率が /4 の電子くじ ( ガチャ ) を Z 回引いた場合, あたりが計 回, 計 回,, 計 回である確率を二項分布の理論的解とモンテカルロ法での計算の求め, 双方をグラフで示せ. ここで Z を回答者の学籍番号とする. モンテカルロ法のヒント : あたりが /4 のくじを Z 回引くことを セットとして行 or 列を作り, それを列 or 行方向に重ねることで複数セット行うことを模擬することで分布を作る. 6
Exercise 9.3 あたりの確率が /4 の電子くじ ( ガチャ ) を Z 回引いた場合, あたりが計 回, 計 回,, 計 回である確率をポアソン分布で近似した場合の理論的解とポアソン乱数を用いたモンテカルロ法の計算の求め, 双方をグラフで示せ. ここで Z を回答者の学籍番号とする. ヒント : くじを Z 回引くこと を セット とした場合に, その セット内に何回あたりがあるか近似分布を示すのがポアソン分布. その セット内のあたりの回数を模擬するのがポアソン乱数. 7
Appedix
標本分散の期待値 () 母集団 ( 要素数 N) から要素数 の標本を抜き出す 標本の選び方の数は下の式 9 N = NC = N! N!! = M とりあえず M と置く. 以下, 母集団の要素を意識する場合は {x i } と表記し, ある標本 j の要素であることを意識する場合は,{x jk } と表記する. 母集団の要素に,, N と番号を振り, グループ j に属する要素にも別途,,, と番号を振る. 当然,{x jk } {x i } であり, {x jk } {x j'k } が でない場合がある.
標本分散の期待値 () 3 M s = M j= s j 標本分散の期待値を式化 (M 個あるグループの標本分散を全部して平均 ) = M j= M k= x jk x j 定義 x j = k= x jk = M j= M k= 定義式 x jk x j 公式すべての要素にとって同様なので, M j= ある要素 x i が含まれるグループ数を考えると, (N ) から ( ) を取り出す組合せであるから k= N x jk = N M N = N M i= x i となり
標本分散の期待値 (3) N M s = x N i M i= j= x j となる. 再掲 x j = k= 3 x jk ある要素 x α と x β がともに含まれるグループ数を考えると, (N ) から ( ) を取り出す組合せであるから M M j= N μ = x j = M α=,n β=,n N N M i= x α x β = x i + N N i= x i + N M α=,n β=,n α β α=,n β=,n α β x α x β x α x β を用いて変形すると
標本分散の期待値 (4) 3 M M j= x j = N N N N i= x i + N N μ が得られる. これを代入して, N s = N i= M x i M j= x j = = N N N N σ N N i= x i μ N は自然現象であれば非常に巨大な数であるし, 通常非常に大きな数であるので約分できる. 結局, 分母の は標本分散を求める際に用いたものがそのまま出てきているだけなので, これを ( ) に置き換えたほうが母分散に近づける. ということで不偏分散が使われる.