スライド 1

Similar documents
スライド 1

スライド 1

ベイズ統計入門

統計学 - 社会統計の基礎 - 正規分布 標準正規分布累積分布関数の逆関数 t 分布正規分布に従うサンプルの平均の信頼区間 担当 : 岸 康人 資料ページ :

情報工学概論

講義「○○○○」

Microsoft PowerPoint - stat-2014-[9] pptx

スライド 1

スライド 1

Information Theory

様々なミクロ計量モデル†

Microsoft PowerPoint - statistics pptx

スライド 1

第 3 回講義の項目と概要 統計的手法入門 : 品質のばらつきを解析する 平均と標準偏差 (P30) a) データは平均を見ただけではわからない 平均が同じだからといって 同一視してはいけない b) データのばらつきを示す 標準偏差 にも注目しよう c) 平均

数理言語

切片 ( 定数項 ) ダミー 以下の単回帰モデルを考えよう これは賃金と就業年数の関係を分析している : ( 賃金関数 ) ここで Y i = α + β X i + u i, i =1,, n, u i ~ i.i.d. N(0, σ 2 ) Y i : 賃金の対数値, X i : 就業年数. (

日心TWS

ビジネス統計 統計基礎とエクセル分析 正誤表

Microsoft Word - 微分入門.doc

PowerPoint プレゼンテーション

Microsoft PowerPoint - R-stat-intro_12.ppt [互換モード]

EBNと疫学

横浜市環境科学研究所

不偏推定量

Microsoft PowerPoint - Statistics[B]

CAEシミュレーションツールを用いた統計の基礎教育 | (株)日科技研

統計学の基礎から学ぶ実験計画法ー1

<4D F736F F D208D A778D5A8A778F4B8E7793B CC A7795D2816A2E646F6378>

Microsoft PowerPoint - sc7.ppt [互換モード]

スライド 1

Microsoft PowerPoint - 7.pptx

スライド 1

Microsoft Word - ㅎ㇤ㇺå®ı璃ㆨAIã†®æŁ°ç’ƒ.docx

PowerPoint プレゼンテーション

統計的データ解析

Microsoft PowerPoint - H17-5時限(パターン認識).ppt

スライド 1

Microsoft PowerPoint - statistics pptx

スライド 1

RSS Higher Certificate in Statistics, Specimen A Module 3: Basic Statistical Methods Solutions Question 1 (i) 帰無仮説 : 200C と 250C において鉄鋼の破壊応力の母平均には違いはな

統計Ⅰ 第1回 序説~確率

Microsoft PowerPoint - statistics08_03.ppt [互換モード]

基礎統計

スライド 1

Kumamoto University Center for Multimedia and Information Technologies Lab. 熊本大学アプリケーション実験 ~ 実環境における無線 LAN 受信電波強度を用いた位置推定手法の検討 ~ InKIAI 宮崎県美郷

<4D F736F F D208EC08CB18C7689E68A E F AA957A82C682948C9F92E82E646F63>

<4D F736F F D208EC08CB18C7689E68A E F193F18D8095AA957A C C839395AA957A814590B38B4B95AA957A2E646F63>

NLMIXED プロシジャを用いた生存時間解析 伊藤要二アストラゼネカ株式会社臨床統計 プログラミング グループグルプ Survival analysis using PROC NLMIXED Yohji Itoh Clinical Statistics & Programming Group, A

青焼 1章[15-52].indd

Microsoft PowerPoint - ch04j

(.3) 式 z / の計算, alpha( ), sigma( ) から, 値 ( 区間幅 ) を計算 siki.3<-fuctio(, alpha, sigma) elta <- qorm(-alpha/) sigma /sqrt() elta [ 例 ]., 信頼率 として, サイ

Microsoft PowerPoint slide2forWeb.ppt [互換モード]

自動車感性評価学 1. 二項検定 内容 2 3. 質的データの解析方法 1 ( 名義尺度 ) 2.χ 2 検定 タイプ 1. 二項検定 官能検査における分類データの解析法 識別できるかを調べる 嗜好に差があるかを調べる 2 点比較法 2 点識別法 2 点嗜好法 3 点比較法 3 点識別法 3 点嗜好

Microsoft PowerPoint - e-stat(OLS).pptx

Microsoft PowerPoint - 03ModelBased.ppt

したがって このモデルではの長さをもつ潜在履歴 latent history が存在し 同様に と指標化して扱うことができる 以下では 潜在的に起こりうる履歴を潜在履歴 latent history 実際にデ ータとして記録された履歴を記録履歴 recorded history ということにする M

Microsoft PowerPoint - 測量学.ppt [互換モード]

統計学 Ⅱ( 章 ( 区間推定のシミュレーション 母平均 μ の区間推定 X ~ N, のとき X T ~ 自由度 1の t分布 1 自由度 -1のt 分布の97.5% 点 :t.975 P t T t この式に T を代入する t.975 母集団

ii 3.,. 4. F. (), ,,. 8.,. 1. (75% ) (25% ) =9 7, =9 8 (. ). 1.,, (). 3.,. 1. ( ).,.,.,.,.,. ( ) (1 2 )., ( ), 0. 2., 1., 0,.

カイ二乗フィット検定、パラメータの誤差

Probit , Mixed logit

PowerPoint Presentation

SAP11_03

Microsoft Word - å“Ÿåłžå¸°173.docx

<4D F736F F D2090B695A8939D8C768A E F AA957A82C682948C9F92E8>

統計学 Ⅱ8-9 章 確率分布 確率の条件 8 ページ p: 確率関数 p は の関数とみなせる 確率分布 : すべてのに関する = または p の分布 グラフや表で表わすことが多い サイコロの例 : 計 縦軸は p または = 棒の幅は 線 確率 p.. = / / / / / / サイコロの目の

母平均 母分散 母標準偏差は, が連続的な場合も含めて, すべての個体の特性値 のすべての実現値 の平均 分散 標準偏差であると考えてよい 有限母集団で が離散的な場合, まさにその意味になるが, そうでない場合も, このように理解してよい 5 母数 母集団から定まる定数のこと 母平均, 母分散,

第7章

untitled

Microsoft PowerPoint - kyoto

多変量解析 ~ 重回帰分析 ~ 2006 年 4 月 21 日 ( 金 ) 南慶典

スライド 1

森林水文 水資源学 2 2. 水文統計 豪雨があった時, 新聞やテレビのニュースで 50 年に一度の大雨だった などと報告されることがある. 今争点となっている川辺川ダムは,80 年に 1 回の洪水を想定して治水計画が立てられている. 畑地かんがいでは,10 年に 1 回の渇水を対象として計画が立て

数学 IB まとめ ( 教科書とノートの復習 ) IB ということで計算に関する話題中心にまとめました 理論を知りたい方はのみっちー IA のシケプリを参考にするとよいと思います 河澄教授いわく テストはまんべんなく出すらしいです でも 重積分 ( 特に変数変換使うもの ) 線積分とグリーンの定理は

Microsoft PowerPoint - qcomp.ppt [互換モード]

Microsoft PowerPoint - LectureB1handout.ppt [互換モード]

Microsoft PowerPoint - statistics pptx

Microsoft Word - Time Series Basic - Modeling.doc

Microsoft PowerPoint - 基礎・経済統計6.ppt

経験ベイズ検定による 偽陽性制御の方法 大羽成征 (( おおばしげゆき 京大数理デザイン道場 年 0077 月 2244 日 1155:: :: u.ac.jp

離散数学

URL

ファイナンスのための数学基礎 第1回 オリエンテーション、ベクトル

Microsoft PowerPoint - comprog11.pptx

(3) 検定統計量の有意確率にもとづく仮説の採否データから有意確率 (significant probability, p 値 ) を求め 有意水準と照合する 有意確率とは データの分析によって得られた統計値が偶然おこる確率のこと あらかじめ設定した有意確率より低い場合は 帰無仮説を棄却して対立仮説

各学科 課程 専攻別開設授業科目 ( 教職関係 ) 総合情報学科 ( 昼間コース ) 中学校教諭 1 種免許状 ( 数学 ) 高等学校教諭 1 種免許状 ( 数学 ) 代数学 線形代数学第一 2 線形代数学第二 2 離散数学 2 応用代数学 2 オペレーションズ リサーチ基礎 2 数論アルゴリズム

PowerPoint プレゼンテーション

講義「○○○○」

Python-statistics5 Python で統計学を学ぶ (5) この内容は山田 杉澤 村井 (2008) R によるやさしい統計学 (

Microsoft PowerPoint ppt

Microsoft PowerPoint - 統計科学研究所_R_重回帰分析_変数選択_2.ppt

Microsoft PowerPoint - logic ppt [互換モード]

Microsoft PowerPoint - no1_17

Microsoft PowerPoint - mp11-02.pptx

() x + y + y + x dy dx = 0 () dy + xy = x dx y + x y ( 5) ( s55906) 0.7. (). 5 (). ( 6) ( s6590) 0.8 m n. 0.9 n n A. ( 6) ( s6590) f A (λ) = det(a λi)

ii 2. F. ( ), ,,. 5. G., L., D. ( ) ( ), 2005.,. 6.,,. 7.,. 8. ( ), , (20 ). 1. (75% ) (25% ). 60.,. 2. =8 5, =8 4 (. 1.) 1.,,

Microsoft PowerPoint - LectureB1_17woAN.pptx

Prog1_6th

14 化学実験法 II( 吉村 ( 洋 mmol/l の半分だったから さんの測定値は くんの測定値の 4 倍の重みがあり 推定値 としては 0.68 mmol/l その標準偏差は mmol/l 程度ということになる 測定値を 特徴づけるパラメータ t を推定するこの手

数値計算法

Transcription:

2019 年 5 月 7 日 @ 統計モデリング 統計モデリング 第四回配布資料 ( 予習用 ) 文献 : a) A. J. Dobson and A. G. Barnett: An Introduction to Generalized Linear Models. 3rd ed., CRC Press. b) H. Dung, et al: Monitoring the Transmission of Schistosoma japonicum in Potential Risk Regions of China, 2008-2012 : Int. J. Environ. Res. Public Health vol. 11(2014), no.2, 2278-2287. c) X. N. Zhou, et al: Epidemiology of Schistosomiasis in the People's Republic of China, 2004. Emerging Infectious Diseases, vol. 13 (2007), no.10, 1470-1476. 配布資料の一部は以下からもDLできます. 短縮 URL http://tinyurl.com/lxb7kb8 担当 : 田中冬彦

第四回ベイズ統計 ( 導入 ) 今後の予定 ガンバ大阪ホームページより http://www2.gamba-osaka.net/stadium/ 第六回数値技法 (1) (2) ( M ) θ, θ,, θ のヒストグラム Frequency 0 5 10 15 sample histogram M distribution 0.0 0.1 0.2 0.3 0.4 π ( θ x) の関数形 posterior distribution 第五回ベイズファクター Google map から転載 -2-1 0 1 2 x -3-2 -1 0 1 2 theta 第七回グループ発表 1 第八回線形モデルのベイズ解析

今日の内容 1. 問題編 ( 中国長江流域架空の都市を題材 ) 2. 統計の復習 1~ ベイズの定理 ( 事象編 ) 3. 統計の復習 2~ ベイズの定理 ( 確率変数編 ) 4. ベイズ統計の基礎 5. 解決編 6. 補足 7. グループワーク ( 計算課題 )

本日の主役 二項モデル + 事前分布 X ~ Bin( n, θ ) θ ~ π ( θ )

予習用のため 一部 割愛しています

昭和初期 ~ 昭和 50 年代日本の山村で蔓延していた原因不明の奇病 その後も中国 東南アジアなどで猛威を振るったとされる病気 このエピソードは第四回講義で 画像はイメージです

2. 統計の復習 1 ~ ベイズの定理 ( 事象編 )

ここでのポイント ベイズ統計の根本 条件付き確率を用いた推論

条件付き確率とベイズの定理 条件付き確率事象 Aが起きた時にBも起きている確率 Pr( A B) Pr( B A) Pr( B A) : Pr( A) Pr( A) A,Bが独立の場合には Pr( B A) Pr( B) ベイズの定理 ( ベイズの公式 ) Pr( A B) Pr( B) Pr( B A) Pr( A) 数学的には下の定義の書き換えにすぎない Pr( A B) Pr( B A) Pr( A) Pr( A B) Pr( B)

モデリングを考える上での注意点 以上は 数学的な定義 の仕方 練習してみよう! 実際には, 条件付き確率 Pr( B A) を先に考えることも 練習 犯人が犯行後に 犯行現場にやってくる確率 90% Pr( B A) 0.90 A, B はどのような事象と解釈できるか. A B

結果を予想してみよう! 例題 : がん診断 * ( 以下は架空のものです ) がんの有無を95% の確率で判別できる診断法があります 検査を受ける人の中でがんである割合は年間 0.5% Aさんの診断結果は陽性でした Aさんの正しい対処方法は? 予想される選択肢 : 1.95% でがんだから, 家族と今後について話し合う 2. 所詮は半分半分 3. 統計的にはがんの人は 0.5% 程度だろ? * 松原望 : 入門ベイズ統計, 東京図書

条件付確率の計算例 (1/3) 1. 診断方法が 95% の精度 これは 条件付き確率 で表現される!! A: 診断で陽性 ; ~A: 診断で陰性 B: がん ; ~B: がんでない Pr( A B) 0.95, Pr(~ A B) 0.05, Pr(~ A ~ B) 0.95, Pr( A ~ B) 0.05. * 記法 : 補集合 c ~ A は Aの補集合 ( A とかくことが多い )

条件付確率の計算例 (2/3) 2. 検査を受ける人ががんである割合 これは 確率 で表現!! Pr( B) 0.005, Pr(~ B) 0.995. 3. 検査を受けて陽性が出る確率 Pr( A) Pr( A B) + Pr( A ~ B) Pr( A B) Pr( B) + Pr( A ~ B) Pr(~ B) 0.0545 ここの計算は時間の都合でとばします.

条件付確率の計算例 (3/3) 4. 陽性が出た時に がんである確率 Pr( B A) Pr( A B) Pr( B) Pr( A) ここでベイズの公式を用いる! 0.087

例題 : 迷惑メールフィルタの仕組み モデル化の例 : 以下の条件を条件付き確率で表してみよう. 設定 練習してみよう! 通常メールと迷惑メールの受信比率は 90:10 迷惑メールに特徴的な単語としてアダルトが81% で本文に入る 通常メールでもたまにアダルトが本文に入る(1%) A: 本文にアダルトが含まれる ; ~A: 含まれない B: 迷惑メール ; ~B: 通常メール Pr( A B) 0.81 Pr( A ~ B) 0.01.

練習してみよう! 迷惑メールの比率 Pr(B) Pr(~ B) 本文にアダルトが含まれる比率 Pr(A) Pr( A B) Pr( B) + Pr( A ~ B) Pr(~ B) 本文にアダルトが見つかった場合, 迷惑メールである確率 Pr( B A)

ここまでのまとめ ベイズの定理 ( ベイズの公式 ) Pr( B A) Pr( A B) Pr( B) Pr( A) 応用例 : 迷惑メールフィルタ 実際には 1 つの単語のみで判断するのは難しいが 複数の単語 ( や他の条件 ) を組み合わせることで確率は上がっていく 機械的に判断できる条件で確率が高いものを迷惑メールとみなして別のフォルダに振り分ける 機械学習 人工知能 (AI) などの基礎にもなっている!

3. 統計の復習 2 ~ ベイズの定理 ( 確率変数編 )

連続確率変数の独立性 確率変数の独立性 復習 2 つの確率変数 X,Y の同時確率密度 ( 結合確率密度 ) p( x, y) p( x, y) 0, p( x, y)dxdy 1 2 つの確率変数 X,Y が独立 p ( x, y) p( x) p( y) p( x) 0, p( x)dx 1 p( y) 0, p( y)dy 1 注意 1. 確率変数 X, X, 2, も同様 1 X n p( x,, xn) p( x1 ) p( x 1 n 2. 離散確率変数の時も同様 )

確率変数の条件付き確率 復習 連続確率変数の条件付き確率 2つの確率変数 X,Y の確率密度 p( x, y) 周辺密度 p ( x) p( x, y) dy p( y) p( x, y) dx 確率変数 X の Yy での条件付き確率密度 p( x y) で定まる p( x, y) p ( x y) p( y) p( y) X Y (X, Y) の確率分布を条件付き確率などという p( x, y) dx

確率変数のベイズの定理 復習 連続確率変数のベイズ定理 ) ( ) ( ) ( ) ( x p y p y x p x y p ここで分母の周辺密度は, 次のように計算できる. y y p y x p y y x p x p d ) ( ) ( )d, ( ) ( ( 数理以外の人には ) 抽象的でわかりづらいですが 後でグループで計算します.

4. ベイズ統計の基礎

ここでのポイント ベイズ統計の基本 統計モデルのパラメータに 確率分布を設定

統計モデルに基いた分析 第二回 データの統計分析 1. データに応じた統計モデルの設定 ( 母集団分布のモデル化 ) i. i. d. X1,, X n ~ p( x θ ) θ 2. パラメータの推測 点推定 区間推定 ( 信頼区間 ) 仮説検定 ベイズ統計もこの流れは同じ!

パラメータの推測における不確実性 分析者の気持ち prob. 0.00 0.05 0.10 0.15 0.20 0.25 0.30 0.35 θ 0.0 0.2 0.4 0.6 0.8 1.0 theta 0.7 prob. 0.00 0.05 0.10 0.15 0.20 0.25 0.30 0.35 分析者が強い確信を持っている場合 ( データが大量 ) 0.0 0.2 0.4 0.6 0.8 1.0 theta θ 0.7 分析者は左図のような確率分布で表現したい!

パラメータの確率分布の導入 統計モデルは所与とする.( 簡単のため, サンプルサイズ n 1.) x ~ p( x θ ) ベイズ統計ではパラメータにも確率分布を設定 ( 設定方法は後で ). 事前分布 (*) π ( θ ) θ ~ π ( θ ) dθ 1, π ( θ ) 0 パラメータに対する不確実性を確率分布で表現. データを得る前 ( 事前 ) の分布で事前分布 (prior) *1 確率分布と確率密度関数 / 確率関数は混同して用いる π p(θ ) *2 データの分布と区別するため, を用いるが, と書いてもよい.

データ x とパラメータ パラメータの条件付き確率分布 θ の同時分布を以下で 定義 p ( x, θ ) p( x θ ) π ( θ ) データ x のみの確率分布 ( 周辺分布 ) は ( θ ) p( x) p( x θ ) π dθ データ x が与えられた時のパラメータ θ の条件付き分布は π ( θ x) p( x θ ) π ( θ ) p( x) この条件付き分布を事後分布という

事前分布と事後分布 未知パラメータの事前分布 ( 分析者が設定 ) π (θ ) 事後分布 ( データ x を代入してベイズ定理から計算 ) π ( θ x) π (θ ) π ( θ x) prob. 0.0 0.5 1.0 1.5 2.0 2.5 3.0 3.5 0.0 0.2 0.4 0.6 0.8 1.0 条件付き分布に変化 θ prob. 0.0 0.5 1.0 1.5 2.0 2.5 3.0 3.5 0.0 0.2 0.4 0.6 0.8 1.0 θ theta theta

従来の統計学との違い やや学術的 従来の統計学 ( 頻度論的統計ともいう ) 統計モデルは数学的に扱いやすいものを設定 各分析 ( 推定 検定 ) に応じて公式を導出 (& 理論上はサンプルサイズ大を暗に仮定 ) ベイズ統計学 π (θ ) パラメータに 初期 の確率分布を設定 パラメータの条件付き分布 π ( θ x) に基いて一貫して考える ( 複雑なモデルでもやり方は変わらない ) ベイズ統計の根幹は条件付き分布 ( 事後分布 )!!

続きは講義本編で!!