9. 統計学I

Similar documents
不偏推定量

Microsoft PowerPoint slide2forWeb.ppt [互換モード]

<4D F736F F D208EC08CB18C7689E68A E F193F18D8095AA957A C C839395AA957A814590B38B4B95AA957A2E646F63>

情報工学概論

<4D F736F F D208D A778D5A8A778F4B8E7793B CC A7795D2816A2E646F6378>

Microsoft PowerPoint - stat-2014-[9] pptx

基礎統計

<4D F736F F D208EC08CB18C7689E68A E F193F18D8095AA957A C C839395AA957A814590B38B4B95AA957A2E646F63>

講義「○○○○」

Microsoft PowerPoint - 基礎・経済統計6.ppt

母平均 母分散 母標準偏差は, が連続的な場合も含めて, すべての個体の特性値 のすべての実現値 の平均 分散 標準偏差であると考えてよい 有限母集団で が離散的な場合, まさにその意味になるが, そうでない場合も, このように理解してよい 5 母数 母集団から定まる定数のこと 母平均, 母分散,

確率分布 - 確率と計算 1 6 回に 1 回の割合で 1 の目が出るさいころがある. このさいころを 6 回投げたとき,1 度も 1 の目が出ない確率を求めよ. 5 6 /6 6 =15625/46656= (5/6) 6 = ある市の気象観測所での記録では, 毎年雨の降る

Microsoft PowerPoint - statistics pptx

Probit , Mixed logit

EBNと疫学

禁無断転載 第 3 章統計的手法に用いられる分布 All rights reserved (C) 芳賀 第 1 節我々の身の回りにある代表的分布と性質 1. 分布の表わし方我々の身の回りにある全てのものは ばらつきを持っています 収集したデータを分析していくためには このばらつきがどのような分布にな

様々なミクロ計量モデル†

確ç”⁄ㆮå�ºæœ¬

ii 2. F. ( ), ,,. 5. G., L., D. ( ) ( ), 2005.,. 6.,,. 7.,. 8. ( ), , (20 ). 1. (75% ) (25% ). 60.,. 2. =8 5, =8 4 (. 1.) 1.,,

Microsoft PowerPoint - statistics pptx

ビジネス統計 統計基礎とエクセル分析 正誤表

データ解析

森林水文 水資源学 2 2. 水文統計 豪雨があった時, 新聞やテレビのニュースで 50 年に一度の大雨だった などと報告されることがある. 今争点となっている川辺川ダムは,80 年に 1 回の洪水を想定して治水計画が立てられている. 畑地かんがいでは,10 年に 1 回の渇水を対象として計画が立て

第 3 回講義の項目と概要 統計的手法入門 : 品質のばらつきを解析する 平均と標準偏差 (P30) a) データは平均を見ただけではわからない 平均が同じだからといって 同一視してはいけない b) データのばらつきを示す 標準偏差 にも注目しよう c) 平均

平成 7 年度数学 (3) あるゲームを 回行ったときに勝つ確率が. 8のプレイヤーがいる このゲームは 回ごとに独 立であるとする a. このゲームを 5 回行う場合 中心極限定理を用いると このプレイヤーが 5 回以上勝つ確率 は である. 回以上ゲームをした場合 そのうちの勝ち数が 3 割以上

統計学 - 社会統計の基礎 - 正規分布 標準正規分布累積分布関数の逆関数 t 分布正規分布に従うサンプルの平均の信頼区間 担当 : 岸 康人 資料ページ :

Microsoft PowerPoint - 測量学.ppt [互換モード]

数値計算法

第7章

統計学の基礎から学ぶ実験計画法ー1

統計的データ解析

モジュール1のまとめ

パソコンシミュレータの現状

Microsoft PowerPoint - sc7.ppt [互換モード]

<4D F736F F D208EC08CB18C7689E68A E F AA957A82C682948C9F92E82E646F63>

統計学 Ⅱ(06) 0 章 0 章 統計学の基本的な考え方 データ = 母集団から抽出された標本とみなす 実際に標本抽出されたデータ 視聴率, 失業率 そうでないデータ GDP, 株価, 為替レート, 試験の得点 このようなデータも母集団からの標本とみなす ( 母集団を想定する ) cf. 例題 0

<4D F736F F D208EC08CB18C7689E68A E F1939D8C E82E646F63>

Microsoft Word - 補論3.2

多変量解析 ~ 重回帰分析 ~ 2006 年 4 月 21 日 ( 金 ) 南慶典

スライド 1

統計学 Ⅱ8-9 章 確率分布 確率の条件 8 ページ p: 確率関数 p は の関数とみなせる 確率分布 : すべてのに関する = または p の分布 グラフや表で表わすことが多い サイコロの例 : 計 縦軸は p または = 棒の幅は 線 確率 p.. = / / / / / / サイコロの目の

ベイズ統計入門

スライド 1

memo

Microsoft Word - Time Series Basic - Modeling.doc

日心TWS

Hara-statistics

Python-statistics5 Python で統計学を学ぶ (5) この内容は山田 杉澤 村井 (2008) R によるやさしい統計学 (

学習指導要領

Microsoft PowerPoint - Statistics[B]

Microsoft Word - Stattext13.doc

Microsoft Word - Stattext07.doc

Excelによる統計分析検定_知識編_小塚明_5_9章.indd

13章 回帰分析

第4回

スライド 1

Microsoft PowerPoint 確率レジュメA

PowerPoint プレゼンテーション

カイ二乗フィット検定、パラメータの誤差

untitled

Microsoft Word - Stattext12.doc

ii 3.,. 4. F. (), ,,. 8.,. 1. (75% ) (25% ) =9 7, =9 8 (. ). 1.,, (). 3.,. 1. ( ).,.,.,.,.,. ( ) (1 2 )., ( ), 0. 2., 1., 0,.

Microsoft Word - thesis.doc

Microsoft Word - å“Ÿåłžå¸°173.docx

横浜市環境科学研究所

相関係数と偏差ベクトル

PowerPoint プレゼンテーション

2 1,, x = 1 a i f i = i i a i f i. media ( ): x 1, x 2,..., x,. mode ( ): x 1, x 2,..., x,., ( ). 2., : box plot ( ): x variace ( ): σ 2 = 1 (x k x) 2

Microsoft PowerPoint - 7.pptx

統計Ⅰ 第1回 序説~確率

自動車感性評価学 1. 二項検定 内容 2 3. 質的データの解析方法 1 ( 名義尺度 ) 2.χ 2 検定 タイプ 1. 二項検定 官能検査における分類データの解析法 識別できるかを調べる 嗜好に差があるかを調べる 2 点比較法 2 点識別法 2 点嗜好法 3 点比較法 3 点識別法 3 点嗜好

Microsoft PowerPoint - Lecture 10.ppt [互換モード]

Microsoft PowerPoint - 第3回2.ppt

CAEシミュレーションツールを用いた統計の基礎教育 | (株)日科技研

統計学的画像再構成法である

untitled

経営統計学

PowerPoint プレゼンテーション

populatio sample II, B II? [1] I. [2] 1 [3] David J. Had [4] 2 [5] 3 2

生命情報学

Microsoft PowerPoint - 資料04 重回帰分析.ppt

統計学 Ⅱ( 章 ( 区間推定のシミュレーション 母平均 μ の区間推定 X ~ N, のとき X T ~ 自由度 1の t分布 1 自由度 -1のt 分布の97.5% 点 :t.975 P t T t この式に T を代入する t.975 母集団

0 スペクトル 時系列データの前処理 法 平滑化 ( スムージング ) と微分 明治大学理 学部応用化学科 データ化学 学研究室 弘昌

DVIOUT

Microsoft Word - NumericalComputation.docx

14 化学実験法 II( 吉村 ( 洋 mmol/l の半分だったから さんの測定値は くんの測定値の 4 倍の重みがあり 推定値 としては 0.68 mmol/l その標準偏差は mmol/l 程度ということになる 測定値を 特徴づけるパラメータ t を推定するこの手

Microsoft Word - 微分入門.doc

0 部分的最小二乗回帰 Partial Least Squares Regression PLS 明治大学理 学部応用化学科 データ化学 学研究室 弘昌

Microsoft PowerPoint - H17-5時限(パターン認識).ppt

Microsoft PowerPoint - A1.ppt [互換モード]

ダンゴムシの 交替性転向反応に 関する研究 3A15 今野直輝

If(A) Vx(V) 1 最小 2 乗法で実験式のパラメータが導出できる測定で得られたデータをよく近似する式を実験式という. その利点は (M1) 多量のデータの特徴を一つの式で簡潔に表現できること. また (M2) y = f ( x ) の関係から, 任意の x のときの y が求まるので,

MT2-Slides-13.pptx

Microsoft PowerPoint - H21生物計算化学2.ppt

<4D F736F F D A778D5A8A778F4B8E7793B CC A7795D2816A2E646F6378>

Microsoft PowerPoint - 14回パラメータ推定配布用.pptx

Microsoft Word - 8章(CI).doc

Microsoft PowerPoint - Inoue-statistics [互換モード]

_KyoukaNaiyou_No.4

Microsoft PowerPoint - データ解析基礎2.ppt

Transcription:

9 年 7 月 8 日更新 Exercises i Computer-Aided Problem Solvig 9. 統計学 I 東北大学大学院工学研究科嶋田慶太 shimada@tohoku.ac.jp

目次 平均 分散 期待値 二項分布 ポアソン分布 統計学の役割 サンプリングした集団の性質について調べる サンプリングをもとに母集団の性質を推定する 記述統計学 推測統計学 何をしたいのか意識しないと辛い学問かも ( 個人の感想 )

平均 分散 期待値

統計量と統計学 4 統計的データがあった場合, 第 データとしては, 次のデータとして, 初婚年齢 平均中央値最頻値 Mea Media Mode 分散 Dispersio が重視されることが多い. 平均所得 がよく用いられる. ( 最大値 最小値も ) 例えば一般の人の 万倍稼ぐ人がいると, 平均値は押し上げられる. http://www.mhlw.go.jp/shigi//s-3a.html http://www.mhlw.go.jp/toukei/saiki/hw/k-tyosa/k-tyosa/-.html

Octave の統計関数 () 平均 : mea μ = i= 分散 : var V = i= 標準偏差 : std σ = V x i = T x i 中央値 :media 不偏分散と呼ばれる 最小二乗法で書いたベクトル表現 x i μ = x i μ T x i μ なぜ - が分母? 正規分布と一様分布 >> X = rad(,); >> mea(x) as =.347 >> var(x) as =.68 >> X = rad(,); >> mea(x) as =.5384 >> var(x) as =.837 std 関数と定義からの検証 >> X = rad(,); >> std(x) as =.99576 >> sqrt(var(x)) as =.99576 >> media(x) as = -.5996 5

二つの分散 母分散 (Populatio variace) 対象とする集合すべての要素の平均から求めれる 全数調査が容易ならこれで対応するが, 現実には無作為抽出した標本から母集団を推定. N N i x i 母集団 6 N 個の母集団の要素から 個の要素を無作為抽出 s ˆ 標本分散 (Sample variace) x i x i 不偏分散 (Ubiased variace) i x i x 標本平均 分母を - とすることで補正. 期待値は母分散に一致する 母平均 μ 一般に x μ であり, s は小さく見積もられる σ > s となりやすい. 標本平均 x 期待値が一致? 気になる場合はこのスライドの最後に

期待値 7 期待値 (Expected value) 確率による重み付き平均 例 : サイコロを振って ( 出目 円 ) がもらえるゲームをした場合, 得する参加金額 35 円以下の参加金額ならそのうち得する.( 賭博罪になるので実際はダメだが.) モンテカルロ法によるシミュレーション 乱数を用いたシミュレーション法 >> X=rad(,); >> Y=floor(X*6)+; >> mea(y*) as = 3445. floor: 床関数実数 x に対して,x 以下の最大の整数. 受験ではガウス記号でおなじみ. 仲間に天井関数 ceil がある.

二項分布

二項分布 (biomial distributio) 9 例 : コインを 回投げて表が k 回出る確率 ( ただし, 表の出る確率は p とする ) P X = k = k pk p k for k =,,, 二項係数 C k =! k! k! = k + k k choosek(,k) この分布を二項分布とよび, B(, p) と表現する 期待値 : E[X] = p

統計関数のインストール & ロード 次のページから統計関数を使用するのでインストール >> pkg istall -forge statistics 初回のみ必要. >> pkg load statistics こちらは Octave を立ち上げ直したらその都度.

Octave での二項分布の関数 二項分布の確率密度関数 biopdf(k,,p) Probability desity fuctio 全試行回数, 試行当たりの 真 の確率 p, 全ての 真 の回数 k 例 : /8 のくじを 回引いて, 回あたりが出る biopdf(,,/8) 二項分布の積算分布関数 biocdf(k,,p) Cumulative distributio fuctio 全試行回数, 試行当たりの 真 の確率 p, 全ての 真 の回数 から k である 例 : /8 のくじを 回引いて, 回以上あたりが出る -biocdf(,,/8) biocdf(k,,p) 定義上同値 sum(biopdf([:k],,p))

モンテカルロ法による二項分布 例 : B(,.4) に従う変数 X >> X=rad(,)<.4 X = >> sum(x) as = 5 真 回の試行で確率.4 の事象が起こる回数この計算では, 真真真真真 となり,5 回起こったことを再現している. これを踏まえて, 回のセットを 回行ったというモンテカルロ法 例 : モンテカルロ法による分布の生成 列 >> Y=sum(rad(,)<.4); >> hist(y,); >> mea(y) as = 4.98 真 真 真 真 真 真 真 真 真 真 真 真 sum 4 4 4

比較演算の効率的な計算 3 例えばさいころを 万回投げる実験の模擬として... X = radi([,6],,); 4 5 3 6 3 5 sum(x == :6); 3 4 5 6 :6 X 列ベクトル行ベクトル整数乱数作成関数 から 6 まで 行列を一気に比較できる ( 行と列が一致すれば ) 66 674 673 66 669 677 sum により合計が出る

二項分布の例 4 条件 : 5 枚のカードからランダムに 枚取り出し, マークを当てるゲームで, 回のうち 6 回正解を出した場合, 自分は超能力者だといえるか? ゼナー カード (Zeer cards) 考え方 : 一般人であれば 回の試行でマークを当てる確率は /5 すなわち. である. 計算は二項分布 B(,p) であるので当てる回数を ~ 回まで列挙すると かなり珍しい事態である. あなたは超能力者かもしれないね! >> [[:]' biopdf([:]',,.)] as =..737..6844..399 3..33 4..888 5..64 6..55 7..79 8..7 9....

ポアソン分布

ポアソン分布 (Poisso distributio) 6 例 : 所定の時間 τ に平均 λ 回発生する事象が τ 内に k 回その事象が起こる確率期待値 : λ 二項分布との違い 連続時間なので, 明確な試行回数 が分からない. 見えざる手による無限回のくじびきをイメージ 時間 τ 中に 回くじを引く回数 を大きくした分, 当たりの出る確率 p = λ 確率 p を小さくして, 期待値 λ を一定に保つ p = / のくじを 回引けば, 回は当たると期待される. p = /3 のくじを 3 回引けば, 回は当たると期待される. p = / のくじを 回引けば, 回は当たると期待される. p = / のくじを 回引けば, 回は当たると期待される. このイメージで二項分布の極限を考える

二項分布の極限としてのポアソン分布 式の変形! = k! k! pk p k! k! k! λ k k λ p に代入 p = λ 7 = λk k! k + k λ λ k λ k k! e λ 時の流れの中に手を突っ込み, コンスタントにくじを引き続ける. 時間 もっと区切る 箱の大きさが 回の試行の期待値 回当たりの期待値は減ってもその総和は同じ

確率 ポアソン分布の実例 8 例 : 時間に平均 5 通の email を受ける人が次の 5 分で受け取るメール数 λ = 5/(6/5) =.5 (5 分だと平均.5 通 ) P X = k = λk 期待値 : E[X] = λ k! e λ.4.3.. 5 k: 5 分での受信件数

ポアソン分布に従う乱数を使うシミュレーション ポアソン分布に従う乱数 radp(l,m,) λ m 行列 個省略すると正方行列 例 : 時間に平均 5 通の email を受ける人が次の 5 分で受け取るメール数 ある時 >> radp(5/6*5,,) 行 列 as = ある時 4 3 通通通通通通通通通通というのを模擬している 9 >> hist(radp(5/6*5,,),:8) 行 列

Octave でのポアソン分布の関数 ポアソン分布の確率密度関数 poisspdf(k,l) 平均 l 回の現象が k 回起こる確率 Probability desity fuctio 例 : email の 日平均受信数 件で, 日で 45 件の確率 poisspdf(45,4) ポアソン分布の積算分布関数 poisscdf(k,l) 日なら平均 4 通 Cumulative distributio fuctio 平均 l 回の現象が から k 回起こる確率 例 : email が 日平均受信数 件で,3 日で 5 件以下の確率 poisscdf(5,6) poisscdf(k,l) 定義上同値 sum(poisspdf([:k],l))

二項分布とポアソン分布のまとめ 試行 発生 回の試行による発生の確率 期待値 二項分布 離散的 ( 数えられる ) 離散的 ( 数えられる ) p p ポアソン分布 連続的 ( 数えられない ) 離散的 ( 数えられる ) 回 を定義できない λ 確率の小さな事象 ポアソン分布で近似可能. 確率と期待値を混同しないように! 混同の例 : あたりの確率が/56ということは56 回引けば 回は当たる, ってことだよね? 当たりません. むしろ37% くらいまったく当たらないことがあり得ます.

ポアソン過程と指数分布 λ: 単位時間当たりの平均と取る λt ある基準時刻 から t までの回数の期待値はとなり, 式は, P N t = k = λt k k! e λt ポアソン分布の λ を λt に置き換えるだけ. これがポアソン過程. 待ち時間に注目した場合 : ポアソン過程に従うような事象が 回発生したのち, 次の 回が t 後に起こる確率 f について [, t] では発生せず,[t, t + dt] に 回以上発生する確率を考えればよいので, λ t+dt f t dt = e [, t + dt] に 回以上発生する確率 e λt [, t] に 回以上発生する確率 t の時と言ったのに実質は t と t + dt の間の確率 f t = e λ t+dt dt e λt 指数関数の微分の定義 f t = λe λt 指数分布

確率密度関数と確率質量関数 3 二項分布やポアソン分布 : 発生するイベントの回数が数えられる 回起こる確率, 回起こる確率が定義できる. 確率質量関数 指数分布 : 発生するイベント回数ではなくタイミングを表しており, 数える ものではない たとえば 秒 ぴったりの確率は定義できない ( したとしても微小時間なので限りなく に近い ) 幅を伴って積分によって具体的な確率を考える. 確率密度関数 なので, 確率密度関数は点の値が を超えることがあり得る.

課題

Exercise 9. 5 あるコンビニではお昼の 時 ~3 時に平均 人の来店がある. ある 分間に来店者数が X 人以下となる確率を モンテカルロ法と解析的な手法の両方で求めよ. モンテカルロ法 : 乱数を使う手法 解析的手法 : 数式から求まる手法 ここで X を回答者の学籍番号 4 ケタの各桁の合計とする. つまり, 学籍番号 B 〇 TB357 の場合, X=+3+5+7=6 として計算せよ.

Exercise 9. あたりの確率が /4 の電子くじ ( ガチャ ) を Z 回引いた場合, あたりが計 回, 計 回,, 計 回である確率を二項分布の理論的解とモンテカルロ法での計算の求め, 双方をグラフで示せ. ここで Z を回答者の学籍番号とする. モンテカルロ法のヒント : あたりが /4 のくじを Z 回引くことを セットとして行 or 列を作り, それを列 or 行方向に重ねることで複数セット行うことを模擬することで分布を作る. 6

Exercise 9.3 あたりの確率が /4 の電子くじ ( ガチャ ) を Z 回引いた場合, あたりが計 回, 計 回,, 計 回である確率をポアソン分布で近似した場合の理論的解とポアソン乱数を用いたモンテカルロ法の計算の求め, 双方をグラフで示せ. ここで Z を回答者の学籍番号とする. ヒント : くじを Z 回引くこと を セット とした場合に, その セット内に何回あたりがあるか近似分布を示すのがポアソン分布. その セット内のあたりの回数を模擬するのがポアソン乱数. 7

Appedix

標本分散の期待値 () 母集団 ( 要素数 N) から要素数 の標本を抜き出す 標本の選び方の数は下の式 9 N = NC = N! N!! = M とりあえず M と置く. 以下, 母集団の要素を意識する場合は {x i } と表記し, ある標本 j の要素であることを意識する場合は,{x jk } と表記する. 母集団の要素に,, N と番号を振り, グループ j に属する要素にも別途,,, と番号を振る. 当然,{x jk } {x i } であり, {x jk } {x j'k } が でない場合がある.

標本分散の期待値 () 3 M s = M j= s j 標本分散の期待値を式化 (M 個あるグループの標本分散を全部して平均 ) = M j= M k= x jk x j 定義 x j = k= x jk = M j= M k= 定義式 x jk x j 公式すべての要素にとって同様なので, M j= ある要素 x i が含まれるグループ数を考えると, (N ) から ( ) を取り出す組合せであるから k= N x jk = N M N = N M i= x i となり

標本分散の期待値 (3) N M s = x N i M i= j= x j となる. 再掲 x j = k= 3 x jk ある要素 x α と x β がともに含まれるグループ数を考えると, (N ) から ( ) を取り出す組合せであるから M M j= N μ = x j = M α=,n β=,n N N M i= x α x β = x i + N N i= x i + N M α=,n β=,n α β α=,n β=,n α β x α x β x α x β を用いて変形すると

標本分散の期待値 (4) 3 M M j= x j = N N N N i= x i + N N μ が得られる. これを代入して, N s = N i= M x i M j= x j = = N N N N σ N N i= x i μ N は自然現象であれば非常に巨大な数であるし, 通常非常に大きな数であるので約分できる. 結局, 分母の は標本分散を求める際に用いたものがそのまま出てきているだけなので, これを ( ) に置き換えたほうが母分散に近づける. ということで不偏分散が使われる.