スライド 1 - PDF 無料ダウンロード

2019 年 5 月 7 日 @ 統計モデリング統計モデリング第四回配布資料 ( 予習用 ) 文献 : a) A. J. Dobson and A. G. Barnett: An Introduction to Generalized Linear Models. 3rd ed., CRC Press. b) H. Dung, et al: Monitoring the Transmission of Schistosoma japonicum in Potential Risk Regions of China, 2008-2012 : Int. J. Environ. Res. Public Health vol. 11(2014), no.2, 2278-2287. c) X. N. Zhou, et al: Epidemiology of Schistosomiasis in the People's Republic of China, 2004. Emerging Infectious Diseases, vol. 13 (2007), no.10, 1470-1476. 配布資料の一部は以下からもDLできます. 短縮 URL http://tinyurl.com/lxb7kb8 担当 : 田中冬彦

第四回ベイズ統計 ( 導入 ) 今後の予定ガンバ大阪ホームページより http://www2.gamba-osaka.net/stadium/ 第六回数値技法 (1) (2) ( M ) θ, θ,, θ のヒストグラム Frequency 0 5 10 15 sample histogram M distribution 0.0 0.1 0.2 0.3 0.4 π ( θ x) の関数形 posterior distribution 第五回ベイズファクター Google map から転載 -2-1 0 1 2 x -3-2 -1 0 1 2 theta 第七回グループ発表 1 第八回線形モデルのベイズ解析

今日の内容 1. 問題編 ( 中国長江流域架空の都市を題材 ) 2. 統計の復習 1~ ベイズの定理 ( 事象編 ) 3. 統計の復習 2~ ベイズの定理 ( 確率変数編 ) 4. ベイズ統計の基礎 5. 解決編 6. 補足 7. グループワーク ( 計算課題 )

本日の主役二項モデル + 事前分布 X ~ Bin( n, θ ) θ ~ π ( θ )

予習用のため一部割愛しています

昭和初期 ~ 昭和 50 年代日本の山村で蔓延していた原因不明の奇病その後も中国東南アジアなどで猛威を振るったとされる病気このエピソードは第四回講義で画像はイメージです

2. 統計の復習 1 ~ ベイズの定理 ( 事象編 )

ここでのポイントベイズ統計の根本条件付き確率を用いた推論

条件付き確率とベイズの定理条件付き確率事象 Aが起きた時にBも起きている確率 Pr( A B) Pr( B A) Pr( B A) : Pr( A) Pr( A) A,Bが独立の場合には Pr( B A) Pr( B) ベイズの定理 ( ベイズの公式 ) Pr( A B) Pr( B) Pr( B A) Pr( A) 数学的には下の定義の書き換えにすぎない Pr( A B) Pr( B A) Pr( A) Pr( A B) Pr( B)

モデリングを考える上での注意点以上は数学的な定義の仕方練習してみよう! 実際には, 条件付き確率 Pr( B A) を先に考えることも練習犯人が犯行後に犯行現場にやってくる確率 90% Pr( B A) 0.90 A, B はどのような事象と解釈できるか. A B

結果を予想してみよう! 例題 : がん診断 * ( 以下は架空のものです ) がんの有無を95% の確率で判別できる診断法があります検査を受ける人の中でがんである割合は年間 0.5% Aさんの診断結果は陽性でした Aさんの正しい対処方法は? 予想される選択肢 : 1.95% でがんだから, 家族と今後について話し合う 2. 所詮は半分半分 3. 統計的にはがんの人は 0.5% 程度だろ? * 松原望 : 入門ベイズ統計, 東京図書

条件付確率の計算例 (1/3) 1. 診断方法が 95% の精度これは条件付き確率で表現される!! A: 診断で陽性 ; ~A: 診断で陰性 B: がん ; ~B: がんでない Pr( A B) 0.95, Pr(~ A B) 0.05, Pr(~ A ~ B) 0.95, Pr( A ~ B) 0.05. * 記法 : 補集合 c ~ A は Aの補集合 ( A とかくことが多い )

条件付確率の計算例 (2/3) 2. 検査を受ける人ががんである割合これは確率で表現!! Pr( B) 0.005, Pr(~ B) 0.995. 3. 検査を受けて陽性が出る確率 Pr( A) Pr( A B) + Pr( A ~ B) Pr( A B) Pr( B) + Pr( A ~ B) Pr(~ B) 0.0545 ここの計算は時間の都合でとばします.

条件付確率の計算例 (3/3) 4. 陽性が出た時にがんである確率 Pr( B A) Pr( A B) Pr( B) Pr( A) ここでベイズの公式を用いる! 0.087

例題 : 迷惑メールフィルタの仕組みモデル化の例 : 以下の条件を条件付き確率で表してみよう. 設定練習してみよう! 通常メールと迷惑メールの受信比率は 90:10 迷惑メールに特徴的な単語としてアダルトが81% で本文に入る通常メールでもたまにアダルトが本文に入る(1%) A: 本文にアダルトが含まれる ; ~A: 含まれない B: 迷惑メール ; ~B: 通常メール Pr( A B) 0.81 Pr( A ~ B) 0.01.

練習してみよう! 迷惑メールの比率 Pr(B) Pr(~ B) 本文にアダルトが含まれる比率 Pr(A) Pr( A B) Pr( B) + Pr( A ~ B) Pr(~ B) 本文にアダルトが見つかった場合, 迷惑メールである確率 Pr( B A)

ここまでのまとめベイズの定理 ( ベイズの公式 ) Pr( B A) Pr( A B) Pr( B) Pr( A) 応用例 : 迷惑メールフィルタ実際には 1 つの単語のみで判断するのは難しいが複数の単語 ( や他の条件 ) を組み合わせることで確率は上がっていく機械的に判断できる条件で確率が高いものを迷惑メールとみなして別のフォルダに振り分ける機械学習人工知能 (AI) などの基礎にもなっている!

3. 統計の復習 2 ~ ベイズの定理 ( 確率変数編 )

連続確率変数の独立性確率変数の独立性復習 2 つの確率変数 X,Y の同時確率密度 ( 結合確率密度 ) p( x, y) p( x, y) 0, p( x, y)dxdy 1 2 つの確率変数 X,Y が独立 p ( x, y) p( x) p( y) p( x) 0, p( x)dx 1 p( y) 0, p( y)dy 1 注意 1. 確率変数 X, X, 2, も同様 1 X n p( x,, xn) p( x1 ) p( x 1 n 2. 離散確率変数の時も同様 )

確率変数の条件付き確率復習連続確率変数の条件付き確率 2つの確率変数 X,Y の確率密度 p( x, y) 周辺密度 p ( x) p( x, y) dy p( y) p( x, y) dx 確率変数 X の Yy での条件付き確率密度 p( x y) で定まる p( x, y) p ( x y) p( y) p( y) X Y (X, Y) の確率分布を条件付き確率などという p( x, y) dx

確率変数のベイズの定理復習連続確率変数のベイズ定理 ) ( ) ( ) ( ) ( x p y p y x p x y p ここで分母の周辺密度は, 次のように計算できる. y y p y x p y y x p x p d ) ( ) ( )d, ( ) ( ( 数理以外の人には ) 抽象的でわかりづらいですが後でグループで計算します.

4. ベイズ統計の基礎

ここでのポイントベイズ統計の基本統計モデルのパラメータに確率分布を設定

統計モデルに基いた分析第二回データの統計分析 1. データに応じた統計モデルの設定 ( 母集団分布のモデル化 ) i. i. d. X1,, X n ~ p( x θ ) θ 2. パラメータの推測点推定区間推定 ( 信頼区間 ) 仮説検定ベイズ統計もこの流れは同じ!

パラメータの推測における不確実性分析者の気持ち prob. 0.00 0.05 0.10 0.15 0.20 0.25 0.30 0.35 θ 0.0 0.2 0.4 0.6 0.8 1.0 theta 0.7 prob. 0.00 0.05 0.10 0.15 0.20 0.25 0.30 0.35 分析者が強い確信を持っている場合 ( データが大量 ) 0.0 0.2 0.4 0.6 0.8 1.0 theta θ 0.7 分析者は左図のような確率分布で表現したい!

パラメータの確率分布の導入統計モデルは所与とする.( 簡単のため, サンプルサイズ n 1.) x ~ p( x θ ) ベイズ統計ではパラメータにも確率分布を設定 ( 設定方法は後で ). 事前分布 (*) π ( θ ) θ ~ π ( θ ) dθ 1, π ( θ ) 0 パラメータに対する不確実性を確率分布で表現. データを得る前 ( 事前 ) の分布で事前分布 (prior) *1 確率分布と確率密度関数 / 確率関数は混同して用いる π p(θ ) *2 データの分布と区別するため, を用いるが, と書いてもよい.

データ x とパラメータパラメータの条件付き確率分布 θ の同時分布を以下で定義 p ( x, θ ) p( x θ ) π ( θ ) データ x のみの確率分布 ( 周辺分布 ) は ( θ ) p( x) p( x θ ) π dθ データ x が与えられた時のパラメータ θ の条件付き分布は π ( θ x) p( x θ ) π ( θ ) p( x) この条件付き分布を事後分布という

事前分布と事後分布未知パラメータの事前分布 ( 分析者が設定 ) π (θ ) 事後分布 ( データ x を代入してベイズ定理から計算 ) π ( θ x) π (θ ) π ( θ x) prob. 0.0 0.5 1.0 1.5 2.0 2.5 3.0 3.5 0.0 0.2 0.4 0.6 0.8 1.0 条件付き分布に変化 θ prob. 0.0 0.5 1.0 1.5 2.0 2.5 3.0 3.5 0.0 0.2 0.4 0.6 0.8 1.0 θ theta theta

従来の統計学との違いやや学術的従来の統計学 ( 頻度論的統計ともいう ) 統計モデルは数学的に扱いやすいものを設定各分析 ( 推定検定 ) に応じて公式を導出 (& 理論上はサンプルサイズ大を暗に仮定 ) ベイズ統計学 π (θ ) パラメータに初期の確率分布を設定パラメータの条件付き分布 π ( θ x) に基いて一貫して考える ( 複雑なモデルでもやり方は変わらない ) ベイズ統計の根幹は条件付き分布 ( 事後分布 )!!

続きは講義本編で!!