日心TWS - PDF 無料ダウンロード

2017.09.22 (15:40~17:10) 日本心理学会第 81 回大会 TWS ベイジアンデータ解析入門回帰分析を例にベイジアンデータ解析を体験してみる広島大学大学院教育学研究科平川真

ベイジアン分析のステップ (p.24) 1) データの特定 2) モデルの定義 ( 解釈可能な ) モデルの作成 3) パラメタの事前分布の設定 4) ベイズ推論を用いてパラメタの値に確信度を再配分ベイズ推定 5) 事後予測がデータを模倣できているかを確認記述的妥当性のチェック 3

データの特定被予測変数と予測変数を決めるどの変数を記述したいのか ( 被予測変数 ; y) どの変数で記述したいのか ( 予測変数 ; x) アイス屋さんの客数を気温で予測するということを考えてみる ( 架空データ ) 4

データの確認気温 (x) と客数 y の 30 ポイントのデータ気温が高いと客数が多いような関係がありそう 5

モデルの定義 1) x と y の関係についてとりあえず線形関係を考える現実世界の依存関係の多くは厳密には非線形かもしれないがほぼ線形で考えて問題ないことが多い (p. 434) 2) x と y の関係について確率的関係を考える x から予測できない y の変動が常にある y が予測変数の線形結合に完全に従うのではなくほぼ従うと考える (p. 449) 6

回帰分析のモデル中心傾向 (μ) を x の線形結合で表現 μ 周辺に y が正規分布に従って発生する解釈可能なモデル ( 赤字はパラメタ ) x が 0 のときの予想される y の値 μ = β 0 + β 1 x y ~ normal μ, σ x が 1 増加したときの予想される y の変化量予想される周辺で y が変動する程度 7

パラメタの事前分布の設定無情報事前分布をつかうパラメタについて事前情報がほとんどないことを示す = データの情報を重視するよく使う無情報事前分布切片や回帰係数(- ~ の範囲) Normal(0, 100) 標準偏差(0~ の範囲) Cauchy 0, 5 I(0, ) 8

ベイジアン分析のステップ (p.24) 1) データの特定 2) モデルの定義 ( 解釈可能な ) モデルの作成 3) パラメタの事前分布の設定 4) ベイズ推論を用いてパラメタの値に確信度を再配分ベイズ推定 5) 事後予測がデータを模倣できているかを確認記述的妥当性のチェック 9

モデルをコードに example3.stan(* モデルブロックのみ ) モデルの記述 μ = β 0 + β 1 x y ~ normal μ, σ 事前分布の設定 β 0 ~ normal 0, 100 β 1 ~ normal (0, 100) σ ~ cauchy 0, 5 そのまま 10

Stan コード解説渡すデータを宣言 N 人分の y と x を渡すよモデルで使うパラメタを宣言 beta0, beta1, sigma というパラメタを使うよ sigma は正の値だよ 11

実行先ほどのモデルをコンパイル渡すデータをリスト形式で作成 MCMC サンプリングの実行 chains: MCMCサンプル列を何本発生させるか Iter: MCMCサンプルを何個だすか warmup: MCMCサンプルの初めのほうを何個除去するか 12

とりあえずみてみる MCMC の設定パラメタの要約 13

パラメタの事後分布をみる前に MCMC の代表性をチェックするチェイン内の値は事後分布を代表していなければならないチェインの任意の初期値に過度に影響をうけるべきでなく一部に留まることなく事後分布の範囲を十分に探索すべきである (p.181) みためによるチェック : トレースプロット確率密度プロット数値によるチェック : Gelman-Rubin 統計量 14

トレースプロットの確認収束しているならそれぞれのチェインのサンプルが重なっているはず 15

確率密度プロットの確認収束しているならそれぞれのチェインのサンプルが重なっているはず 16

だめな MCMC それぞれのチェインのサンプルが重なっていない 17

Gelman-Rubin 統計量の確認チェイン内の分散に対してチェイン間の分散がどれくらい大きいかの指標完全に収束した場合に 1.0 となり乖離したチェインがあれば 1.0 以上の値になる 1.1 以上 =NG 18

パラメタの事後分布をみる前に MCMC の正確性をチェックする推定を正確で安定したものとするためにチェインは十分なサイズであるべきである特に ( 中央値や最頻値などの ) 中心傾向の推定や95% HDIの限界は分析を繰り返した際に大きく異なるべきではない (p. 181) チェックする指標 : 有効サンプルサイズ (ESS) 自己相関 19

有効サンプルサイズの確認チェインの中に独立した情報がどれくらいあるかの指標 20

自己相関の確認 k ステップ前の値との相関離れているステップの値とは相関しないはず 21

自己相関が高い場合大きなラグでも相関が 0 付近になっていない効率の良いサンプリングが行われていない可能性あり 22

どれくらい ESS があると良いのか扱いたい事後分布による ( 中略 ) 1つの簡単なガイドラインとしては 95%HDIの限界を正確で安定した妥当な推定の為に推奨されるESSの値は10,000であるこれは単に慣習上の経験に基づくヒューリスティックであり必須のものではない HDIの限界の正確性が実用上重要でなければ ESSが小さくても十分である場合もある p. 187 23

十分な数を得る iter = 2000 の結果 iter = 10000 の結果 MCSE = SD/ ESS 事後分布を代表するサンプルを十分な数得ることができた 24

パラメタの事後分布をみる 25

パラメタの事後分布をみる回帰係数は95% の確率で5.11~5.75の範囲!! 26

MCMC サンプルをとりだしてみる 36000 個のMCMCサンプル 27

MCMC サンプルをとりだしてみるとりだした 36000 個の MCMC サンプルの 2.5% タイル点と 97.5% タイル点を求める = 回帰係数の 95% 確信区間を求めるとりだした 36000 個の MCMC サンプルの密度をプロット = 回帰係数の事後分布を描く 28

MCMC サンプルを自由につかう回帰係数が 5 を超える確率が知りたい! 99.4%!! とりだした 36000 個の MCMC サンプルのうち 5 を超えた個数を数えて 36000 でわる 29

MCMC サンプルを自由につかう気温が 30 度のときの客数の 95% 範囲が知りたい! 各パラメタの MCMC サンプルをとりだして格納回帰モデルに従った y ( 乱数 ) を 36000 個発生発生させた y の 2.5%, 97.5% タイル点をもとめる発生させた y (36000 個の一部 ) 185 人 ~205 人!! 30

ベイジアン分析のステップ (p.24) 1) データの特定 2) モデルの定義 ( 解釈可能な ) モデルの作成 3) パラメタの事前分布の設定 4) ベイズ推論を用いてパラメタの値に確信度を再配分ベイズ推定 5) 事後予測がデータを模倣できているかを確認記述的妥当性のチェック 31

事後予測チェック事後予測がデータを模倣できているかを確認モデルから発生させたデータの 95% 範囲 ( グレー部分 ) とデータをプロット事後予測分布とデータに一貫したずれがある場合 205 モデルを修正する必要あり 185 32

一般化線形モデル

一般化線形モデル (GLM) の枠組み中心傾向 (μ) を x の線形結合で表現 μ 周辺に y がある分布に従って発生 e.g., 回帰分析の表現 μ = β 0 + β 1 x y ~ normal μ, σ y が正規分布に従って発生すると考える図 15.9 (p. 453) 34

GLM の形式的表現 (p. 452) μ = f(lin x, パラメタ ) y ~ pdf(μ, パラメタ ) 中心傾向 (μ) を x の線形結合で表現 μ 周辺に y がある分布に従って発生表 15. 2 * pdf: 確率密度関数 probability density function 35

( 例 ) ロジスティック回帰の場合 https://mathwords.net/logitkansu 36

線形関数の作り方複数の x を考えたい場合 : とりあえず加法結合 y = β 0 + β 1 x 1 + + β k x k = β 0 + β k x k k 交互作用を考えたい場合 : 掛け算の項をたす y = β 0 + β 1 x 1 + β 2 x 2 + β 12 x 1 x 2 37

線形関数の作り方予測変数が名義変数の場合 : 各水準の効果を考えるとよい x が水準 1 の場合の y の変化量 y = 1.69+ < 0.07, 0.07 > Ԧx y = β 0 + β [1] x [1] + + β [J] x [J] = β 0 + Ԧβ Ԧx 制約 J β j = 0 j=1 38

予測変数の種類に応じた線形関数表 15. 1 39

本書で対応している章今すぐ欲しい! 40

Enjoy! 41