2019 年 5 月 7 日 @ 統計モデリング 統計モデリング 第四回配布資料 ( 予習用 ) 文献 : a) A. J. Dobson and A. G. Barnett: An Introduction to Generalized Linear Models. 3rd ed., CRC Press. b) H. Dung, et al: Monitoring the Transmission of Schistosoma japonicum in Potential Risk Regions of China, 2008-2012 : Int. J. Environ. Res. Public Health vol. 11(2014), no.2, 2278-2287. c) X. N. Zhou, et al: Epidemiology of Schistosomiasis in the People's Republic of China, 2004. Emerging Infectious Diseases, vol. 13 (2007), no.10, 1470-1476. 配布資料の一部は以下からもDLできます. 短縮 URL http://tinyurl.com/lxb7kb8 担当 : 田中冬彦
第四回ベイズ統計 ( 導入 ) 今後の予定 ガンバ大阪ホームページより http://www2.gamba-osaka.net/stadium/ 第六回数値技法 (1) (2) ( M ) θ, θ,, θ のヒストグラム Frequency 0 5 10 15 sample histogram M distribution 0.0 0.1 0.2 0.3 0.4 π ( θ x) の関数形 posterior distribution 第五回ベイズファクター Google map から転載 -2-1 0 1 2 x -3-2 -1 0 1 2 theta 第七回グループ発表 1 第八回線形モデルのベイズ解析
今日の内容 1. 問題編 ( 中国長江流域架空の都市を題材 ) 2. 統計の復習 1~ ベイズの定理 ( 事象編 ) 3. 統計の復習 2~ ベイズの定理 ( 確率変数編 ) 4. ベイズ統計の基礎 5. 解決編 6. 補足 7. グループワーク ( 計算課題 )
本日の主役 二項モデル + 事前分布 X ~ Bin( n, θ ) θ ~ π ( θ )
予習用のため 一部 割愛しています
昭和初期 ~ 昭和 50 年代日本の山村で蔓延していた原因不明の奇病 その後も中国 東南アジアなどで猛威を振るったとされる病気 このエピソードは第四回講義で 画像はイメージです
2. 統計の復習 1 ~ ベイズの定理 ( 事象編 )
ここでのポイント ベイズ統計の根本 条件付き確率を用いた推論
条件付き確率とベイズの定理 条件付き確率事象 Aが起きた時にBも起きている確率 Pr( A B) Pr( B A) Pr( B A) : Pr( A) Pr( A) A,Bが独立の場合には Pr( B A) Pr( B) ベイズの定理 ( ベイズの公式 ) Pr( A B) Pr( B) Pr( B A) Pr( A) 数学的には下の定義の書き換えにすぎない Pr( A B) Pr( B A) Pr( A) Pr( A B) Pr( B)
モデリングを考える上での注意点 以上は 数学的な定義 の仕方 練習してみよう! 実際には, 条件付き確率 Pr( B A) を先に考えることも 練習 犯人が犯行後に 犯行現場にやってくる確率 90% Pr( B A) 0.90 A, B はどのような事象と解釈できるか. A B
結果を予想してみよう! 例題 : がん診断 * ( 以下は架空のものです ) がんの有無を95% の確率で判別できる診断法があります 検査を受ける人の中でがんである割合は年間 0.5% Aさんの診断結果は陽性でした Aさんの正しい対処方法は? 予想される選択肢 : 1.95% でがんだから, 家族と今後について話し合う 2. 所詮は半分半分 3. 統計的にはがんの人は 0.5% 程度だろ? * 松原望 : 入門ベイズ統計, 東京図書
条件付確率の計算例 (1/3) 1. 診断方法が 95% の精度 これは 条件付き確率 で表現される!! A: 診断で陽性 ; ~A: 診断で陰性 B: がん ; ~B: がんでない Pr( A B) 0.95, Pr(~ A B) 0.05, Pr(~ A ~ B) 0.95, Pr( A ~ B) 0.05. * 記法 : 補集合 c ~ A は Aの補集合 ( A とかくことが多い )
条件付確率の計算例 (2/3) 2. 検査を受ける人ががんである割合 これは 確率 で表現!! Pr( B) 0.005, Pr(~ B) 0.995. 3. 検査を受けて陽性が出る確率 Pr( A) Pr( A B) + Pr( A ~ B) Pr( A B) Pr( B) + Pr( A ~ B) Pr(~ B) 0.0545 ここの計算は時間の都合でとばします.
条件付確率の計算例 (3/3) 4. 陽性が出た時に がんである確率 Pr( B A) Pr( A B) Pr( B) Pr( A) ここでベイズの公式を用いる! 0.087
例題 : 迷惑メールフィルタの仕組み モデル化の例 : 以下の条件を条件付き確率で表してみよう. 設定 練習してみよう! 通常メールと迷惑メールの受信比率は 90:10 迷惑メールに特徴的な単語としてアダルトが81% で本文に入る 通常メールでもたまにアダルトが本文に入る(1%) A: 本文にアダルトが含まれる ; ~A: 含まれない B: 迷惑メール ; ~B: 通常メール Pr( A B) 0.81 Pr( A ~ B) 0.01.
練習してみよう! 迷惑メールの比率 Pr(B) Pr(~ B) 本文にアダルトが含まれる比率 Pr(A) Pr( A B) Pr( B) + Pr( A ~ B) Pr(~ B) 本文にアダルトが見つかった場合, 迷惑メールである確率 Pr( B A)
ここまでのまとめ ベイズの定理 ( ベイズの公式 ) Pr( B A) Pr( A B) Pr( B) Pr( A) 応用例 : 迷惑メールフィルタ 実際には 1 つの単語のみで判断するのは難しいが 複数の単語 ( や他の条件 ) を組み合わせることで確率は上がっていく 機械的に判断できる条件で確率が高いものを迷惑メールとみなして別のフォルダに振り分ける 機械学習 人工知能 (AI) などの基礎にもなっている!
3. 統計の復習 2 ~ ベイズの定理 ( 確率変数編 )
連続確率変数の独立性 確率変数の独立性 復習 2 つの確率変数 X,Y の同時確率密度 ( 結合確率密度 ) p( x, y) p( x, y) 0, p( x, y)dxdy 1 2 つの確率変数 X,Y が独立 p ( x, y) p( x) p( y) p( x) 0, p( x)dx 1 p( y) 0, p( y)dy 1 注意 1. 確率変数 X, X, 2, も同様 1 X n p( x,, xn) p( x1 ) p( x 1 n 2. 離散確率変数の時も同様 )
確率変数の条件付き確率 復習 連続確率変数の条件付き確率 2つの確率変数 X,Y の確率密度 p( x, y) 周辺密度 p ( x) p( x, y) dy p( y) p( x, y) dx 確率変数 X の Yy での条件付き確率密度 p( x y) で定まる p( x, y) p ( x y) p( y) p( y) X Y (X, Y) の確率分布を条件付き確率などという p( x, y) dx
確率変数のベイズの定理 復習 連続確率変数のベイズ定理 ) ( ) ( ) ( ) ( x p y p y x p x y p ここで分母の周辺密度は, 次のように計算できる. y y p y x p y y x p x p d ) ( ) ( )d, ( ) ( ( 数理以外の人には ) 抽象的でわかりづらいですが 後でグループで計算します.
4. ベイズ統計の基礎
ここでのポイント ベイズ統計の基本 統計モデルのパラメータに 確率分布を設定
統計モデルに基いた分析 第二回 データの統計分析 1. データに応じた統計モデルの設定 ( 母集団分布のモデル化 ) i. i. d. X1,, X n ~ p( x θ ) θ 2. パラメータの推測 点推定 区間推定 ( 信頼区間 ) 仮説検定 ベイズ統計もこの流れは同じ!
パラメータの推測における不確実性 分析者の気持ち prob. 0.00 0.05 0.10 0.15 0.20 0.25 0.30 0.35 θ 0.0 0.2 0.4 0.6 0.8 1.0 theta 0.7 prob. 0.00 0.05 0.10 0.15 0.20 0.25 0.30 0.35 分析者が強い確信を持っている場合 ( データが大量 ) 0.0 0.2 0.4 0.6 0.8 1.0 theta θ 0.7 分析者は左図のような確率分布で表現したい!
パラメータの確率分布の導入 統計モデルは所与とする.( 簡単のため, サンプルサイズ n 1.) x ~ p( x θ ) ベイズ統計ではパラメータにも確率分布を設定 ( 設定方法は後で ). 事前分布 (*) π ( θ ) θ ~ π ( θ ) dθ 1, π ( θ ) 0 パラメータに対する不確実性を確率分布で表現. データを得る前 ( 事前 ) の分布で事前分布 (prior) *1 確率分布と確率密度関数 / 確率関数は混同して用いる π p(θ ) *2 データの分布と区別するため, を用いるが, と書いてもよい.
データ x とパラメータ パラメータの条件付き確率分布 θ の同時分布を以下で 定義 p ( x, θ ) p( x θ ) π ( θ ) データ x のみの確率分布 ( 周辺分布 ) は ( θ ) p( x) p( x θ ) π dθ データ x が与えられた時のパラメータ θ の条件付き分布は π ( θ x) p( x θ ) π ( θ ) p( x) この条件付き分布を事後分布という
事前分布と事後分布 未知パラメータの事前分布 ( 分析者が設定 ) π (θ ) 事後分布 ( データ x を代入してベイズ定理から計算 ) π ( θ x) π (θ ) π ( θ x) prob. 0.0 0.5 1.0 1.5 2.0 2.5 3.0 3.5 0.0 0.2 0.4 0.6 0.8 1.0 条件付き分布に変化 θ prob. 0.0 0.5 1.0 1.5 2.0 2.5 3.0 3.5 0.0 0.2 0.4 0.6 0.8 1.0 θ theta theta
従来の統計学との違い やや学術的 従来の統計学 ( 頻度論的統計ともいう ) 統計モデルは数学的に扱いやすいものを設定 各分析 ( 推定 検定 ) に応じて公式を導出 (& 理論上はサンプルサイズ大を暗に仮定 ) ベイズ統計学 π (θ ) パラメータに 初期 の確率分布を設定 パラメータの条件付き分布 π ( θ x) に基いて一貫して考える ( 複雑なモデルでもやり方は変わらない ) ベイズ統計の根幹は条件付き分布 ( 事後分布 )!!
続きは講義本編で!!