日心TWS

Similar documents
多変量解析 ~ 重回帰分析 ~ 2006 年 4 月 21 日 ( 金 ) 南慶典

Stanによるハミルトニアンモンテカルロ法を用いたサンプリングについて

スライド 1

スライド 1

EBNと疫学

Microsoft PowerPoint - R-stat-intro_20.ppt [互換モード]

ビジネス統計 統計基礎とエクセル分析 正誤表

Microsoft Word - å“Ÿåłžå¸°173.docx

PowerPoint プレゼンテーション

第 3 回講義の項目と概要 統計的手法入門 : 品質のばらつきを解析する 平均と標準偏差 (P30) a) データは平均を見ただけではわからない 平均が同じだからといって 同一視してはいけない b) データのばらつきを示す 標準偏差 にも注目しよう c) 平均

kubo2015ngt6 p.2 ( ( (MLE 8 y i L(q q log L(q q 0 ˆq log L(q / q = 0 q ˆq = = = * ˆq = 0.46 ( 8 y 0.46 y y y i kubo (ht

ベイズ統計入門

様々なミクロ計量モデル†

統計学 - 社会統計の基礎 - 正規分布 標準正規分布累積分布関数の逆関数 t 分布正規分布に従うサンプルの平均の信頼区間 担当 : 岸 康人 資料ページ :

統計的データ解析

Probit , Mixed logit

CAEシミュレーションツールを用いた統計の基礎教育 | (株)日科技研

情報工学概論

Microsoft PowerPoint - 資料04 重回帰分析.ppt

Microsoft PowerPoint - statistics pptx

講義「○○○○」

Microsoft PowerPoint - stat-2014-[9] pptx

布に従う しかし サイコロが均質でなく偏っていて の出る確率がひとつひとつ異なっているならば 二項分布でなくなる そこで このような場合に の出る確率が同じであるサイコロをもっている対象者をひとつのグループにまとめてしまえば このグループの中では回数分布は二項分布になる 全グループの合計の分布を求め

Medical3

Microsoft Word - appendix_b

NLMIXED プロシジャを用いた生存時間解析 伊藤要二アストラゼネカ株式会社臨床統計 プログラミング グループグルプ Survival analysis using PROC NLMIXED Yohji Itoh Clinical Statistics & Programming Group, A

数値計算法

Microsoft PowerPoint - H17-5時限(パターン認識).ppt

カイ二乗フィット検定、パラメータの誤差

モジュール1のまとめ

青焼 1章[15-52].indd

14 化学実験法 II( 吉村 ( 洋 mmol/l の半分だったから さんの測定値は くんの測定値の 4 倍の重みがあり 推定値 としては 0.68 mmol/l その標準偏差は mmol/l 程度ということになる 測定値を 特徴づけるパラメータ t を推定するこの手

Microsoft PowerPoint - 統計科学研究所_R_重回帰分析_変数選択_2.ppt

2301/1     目次・広告

Microsoft PowerPoint - データ解析基礎4.ppt [互換モード]

今日の要点 あぶない 時系列データ解析は やめましょう! 統計モデル のあてはめ (危 1) 時系列データの GLM あてはめ (危 2) 時系列Yt 時系列 Xt 各時刻の個体数 気温 とか

森林水文 水資源学 2 2. 水文統計 豪雨があった時, 新聞やテレビのニュースで 50 年に一度の大雨だった などと報告されることがある. 今争点となっている川辺川ダムは,80 年に 1 回の洪水を想定して治水計画が立てられている. 畑地かんがいでは,10 年に 1 回の渇水を対象として計画が立て

0 部分的最小二乗回帰 Partial Least Squares Regression PLS 明治大学理 学部応用化学科 データ化学 学研究室 弘昌

スライド 1

切断安定分布による資産収益率のファットテイル性のモデル化とVaR・ESの計測手法におけるモデル・リスクの数値的分析

Microsoft PowerPoint - SPECTPETの原理2012.ppt [互換モード]

みっちりGLM

PowerPoint プレゼンテーション

Microsoft Word - Stattext07.doc

12/1 ( ) GLM, R MCMC, WinBUGS 12/2 ( ) WinBUGS WinBUGS 12/2 ( ) : 12/3 ( ) :? ( :51 ) 2/ 71

PowerPoint プレゼンテーション


OpRisk VaR3.2 Presentation

<4D F736F F D208D A778D5A8A778F4B8E7793B CC A7795D2816A2E646F6378>

0 スペクトル 時系列データの前処理 法 平滑化 ( スムージング ) と微分 明治大学理 学部応用化学科 データ化学 学研究室 弘昌

PowerPoint プレゼンテーション

Microsoft Word - Matlab_R_MLE.docx

Microsoft PowerPoint - 基礎・経済統計6.ppt

ファイナンスのための数学基礎 第1回 オリエンテーション、ベクトル

MedicalStatisticsForAll.indd

Microsoft PowerPoint - R-stat-intro_04.ppt [互換モード]

Microsoft PowerPoint - R-stat-intro_12.ppt [互換モード]

(.3) 式 z / の計算, alpha( ), sigma( ) から, 値 ( 区間幅 ) を計算 siki.3<-fuctio(, alpha, sigma) elta <- qorm(-alpha/) sigma /sqrt() elta [ 例 ]., 信頼率 として, サイ

不偏推定量

1.民営化

Chapter カスタムテーブルの概要 カスタムテーブル Custom Tables は 複数の変数に基づいた多重クロス集計テーブルや スケール変数を用いた集計テーブルなど より複雑な集計表を自由に設計することができるIBM SPSS Statisticsのオプション製品です テーブ

Microsoft PowerPoint - 14回パラメータ推定配布用.pptx

経済統計分析1 イントロダクション

Microsoft Word - 補論3.2

スライド 1

Microsoft Word - 保健医療統計学112817完成版.docx

スライド 1

Microsoft PowerPoint - ch04j

Microsoft PowerPoint ppt

Microsoft PowerPoint - S11_1 2010Econometrics [互換モード]

データ解析

分析のステップ Step 1: Y( 目的変数 ) に対する値の順序を確認 Step 2: モデルのあてはめ を実行 適切なモデルの指定 Step 3: オプションを指定し オッズ比とその信頼区間を表示 以下 このステップに沿って JMP の操作をご説明します Step 1: Y( 目的変数 ) の

SAP11_03

スライド 1

Microsoft Word - NumericalComputation.docx

基礎統計

<4D F736F F D208EC08CB18C7689E68A E F AA957A82C682948C9F92E82E646F63>

kubostat1g p. MCMC binomial distribution q MCMC : i N i y i p(y i q = ( Ni y i q y i (1 q N i y i, q {y i } q likelihood q L(q {y i } = i=1 p(y i q 1

_KyoukaNaiyou_No.4

Kumamoto University Center for Multimedia and Information Technologies Lab. 熊本大学アプリケーション実験 ~ 実環境における無線 LAN 受信電波強度を用いた位置推定手法の検討 ~ InKIAI 宮崎県美郷

<4D F736F F D208EC08CB18C7689E68A E F193F18D8095AA957A C C839395AA957A814590B38B4B95AA957A2E646F63>

当し 図 6. のように 2 分類 ( 疾患の有無 ) のデータを直線の代わりにシグモイド曲線 (S 字状曲線 ) で回帰する手法である ちなみに 直線で回帰する手法はコクラン アーミテージの傾向検定 疾患の確率 x : リスクファクター 図 6. ロジスティック曲線と回帰直線 疾患が発

Microsoft Word doc

1. 多変量解析の基本的な概念 1. 多変量解析の基本的な概念 1.1 多変量解析の目的 人間のデータは多変量データが多いので多変量解析が有用 特性概括評価特性概括評価 症 例 主 治 医 の 主 観 症 例 主 治 医 の 主 観 単変量解析 客観的規準のある要約多変量解析 要約値 客観的規準のな

Microsoft PowerPoint - Econometrics

Excelにおける回帰分析(最小二乗法)の手順と出力

Microsoft PowerPoint - e-stat(OLS).pptx

確率分布 - 確率と計算 1 6 回に 1 回の割合で 1 の目が出るさいころがある. このさいころを 6 回投げたとき,1 度も 1 の目が出ない確率を求めよ. 5 6 /6 6 =15625/46656= (5/6) 6 = ある市の気象観測所での記録では, 毎年雨の降る

Microsoft PowerPoint - 測量学.ppt [互換モード]

13章 回帰分析

統計学の基礎から学ぶ実験計画法ー1

スライド 1

因子分析

Microsoft PowerPoint - GLMMexample_ver pptx

<4D F736F F D208EC08CB18C7689E68A E F1939D8C E82E646F63>

. 分析内容及びデータ () 分析内容中長期の代表的金利である円金利スワップを題材に 年 -5 年物のイールドスプレッドの変動を自己回帰誤差モデル * により時系列分析を行った * ) 自己回帰誤差モデル一般に自己回帰モデルは線形回帰モデルと同様な考え方で 外生変数の無いT 期間だけ遅れのある従属変

FORTRAN( と C) によるプログラミング 5 ファイル入出力 ここではファイルからデータを読みこんだり ファイルにデータを書き出したりするプログラムを作成してみます はじめに テキスト形式で書かれたデータファイルに書かれているデータを読みこんで配列に代入し 標準出力に書き出すプログラムを作り

Microsoft PowerPoint - H21生物計算化学2.ppt

IBM Software Business Analytics IBM SPSS Missing Values IBM SPSS Missing Values 空白を埋める際の適切なモデルを構築 ハイライト データをさまざまな角度から容易に検証する 欠損データの問題を素早く診断する 欠損値を推定値に

Microsoft PowerPoint - ch10j

Transcription:

2017.09.22 (15:40~17:10) 日本心理学会第 81 回大会 TWS ベイジアンデータ解析入門 回帰分析を例に ベイジアンデータ解析 を体験してみる 広島大学大学院教育学研究科平川真

ベイジアン分析のステップ (p.24) 1) データの特定 2) モデルの定義 ( 解釈可能な ) モデルの作成 3) パラメタの事前分布の設定 4) ベイズ推論を用いて パラメタの値に確信度を再配分ベイズ推定 5) 事後予測がデータを模倣できているかを確認 記述的妥当性のチェック 3

データの特定 被予測変数と予測変数を決める どの変数を記述したいのか ( 被予測変数 ; y) どの変数で記述したいのか ( 予測変数 ; x) アイス屋さんの客数を気温で予測する ということを考えてみる ( 架空データ ) 4

データの確認 気温 (x) と客数 y の 30 ポイントのデータ 気温が高いと客数が多いような関係がありそう 5

モデルの定義 1) x と y の関係についてとりあえず線形関係を考える 現実世界の依存関係の多くは厳密には非線形かもしれないが ほぼ線形で考えて問題ないことが多い (p. 434) 2) x と y の関係について確率的関係を考える x から予測できない y の変動が常にある y が予測変数の線形結合に完全に従うのではなく ほぼ従う と考える (p. 449) 6

回帰分析のモデル 中心傾向 (μ) を x の線形結合で表現 μ 周辺に y が正規分布に従って発生する 解釈可能なモデル ( 赤字はパラメタ ) x が 0 のときの予想される y の値 μ = β 0 + β 1 x y ~ normal μ, σ x が 1 増加したときの予想される y の変化量 予想される周辺で y が変動する程度 7

パラメタの事前分布の設定 無情報事前分布をつかう パラメタについて事前情報がほとんどないことを示す = データの情報を重視する よく使う無情報事前分布 切片や回帰係数(- ~ の範囲) Normal(0, 100) 標準偏差(0~ の範囲) Cauchy 0, 5 I(0, ) 8

ベイジアン分析のステップ (p.24) 1) データの特定 2) モデルの定義 ( 解釈可能な ) モデルの作成 3) パラメタの事前分布の設定 4) ベイズ推論を用いて パラメタの値に確信度を再配分ベイズ推定 5) 事後予測がデータを模倣できているかを確認 記述的妥当性のチェック 9

モデルをコードに example3.stan(* モデルブロックのみ ) モデルの記述 μ = β 0 + β 1 x y ~ normal μ, σ 事前分布の設定 β 0 ~ normal 0, 100 β 1 ~ normal (0, 100) σ ~ cauchy 0, 5 そのまま 10

Stan コード解説 渡すデータを宣言 N 人分の y と x を渡すよ モデルで使うパラメタを宣言 beta0, beta1, sigma というパラメタを使うよ sigma は正の値だよ 11

実行 先ほどのモデルをコンパイル 渡すデータをリスト形式で作成 MCMC サンプリングの実行 chains: MCMCサンプル列を何本発生させるか Iter: MCMCサンプルを何個だすか warmup: MCMCサンプルの初めのほうを何個除去するか 12

とりあえずみてみる MCMC の設定 パラメタの要約 13

パラメタの事後分布をみる前に MCMC の代表性をチェックする チェイン内の値は事後分布を代表していなければならない チェインの任意の初期値に過度に影響をうけるべきでなく 一部に留まることなく事後分布の範囲を十分に探索すべきである (p.181) みためによるチェック : トレースプロット 確率密度プロット 数値によるチェック : Gelman-Rubin 統計量 14

トレースプロットの確認 収束しているなら それぞれのチェインのサンプルが重なっているはず 15

確率密度プロットの確認 収束しているなら それぞれのチェインのサンプルが重なっているはず 16

だめな MCMC それぞれのチェインのサンプルが重なっていない 17

Gelman-Rubin 統計量の確認 チェイン内の分散に対してチェイン間の分散がどれくらい大きいか の指標 完全に収束した場合に 1.0 となり 乖離したチェインがあれば 1.0 以上の値になる 1.1 以上 =NG 18

パラメタの事後分布をみる前に MCMC の正確性をチェックする 推定を正確で安定したものとするために チェインは十分なサイズであるべきである 特に ( 中央値や最頻値などの ) 中心傾向の推定や95% HDIの限界は 分析を繰り返した際に大きく異なるべきではない (p. 181) チェックする指標 : 有効サンプルサイズ (ESS) 自己相関 19

有効サンプルサイズの確認 チェインの中に独立した情報がどれくらいあるかの指標 20

自己相関の確認 k ステップ前の値との相関離れているステップの値とは相関しないはず 21

自己相関が高い場合 大きなラグでも相関が 0 付近になっていない 効率の良いサンプリングが行われていない可能性あり 22

どれくらい ESS があると良いのか 扱いたい事後分布による ( 中略 ) 1つの簡単なガイドラインとしては 95%HDIの限界を正確で安定した妥当な推定の為に推奨されるESSの値は10,000である これは 単に慣習上の経験に基づくヒューリスティックであり 必須のものではない HDIの限界の正確性が実用上重要でなければ ESSが小さくても十分である場合もある p. 187 23

十分な数を得る iter = 2000 の結果 iter = 10000 の結果 MCSE = SD/ ESS 事後分布を代表するサンプルを十分な数 得ることができた 24

パラメタの事後分布をみる 25

パラメタの事後分布をみる 回帰係数は95% の確率で5.11~5.75の範囲!! 26

MCMC サンプルをとりだしてみる 36000 個のMCMCサンプル 27

MCMC サンプルをとりだしてみる とりだした 36000 個の MCMC サンプルの 2.5% タイル点と 97.5% タイル点を求める = 回帰係数の 95% 確信区間を求める とりだした 36000 個の MCMC サンプルの 密度をプロット = 回帰係数の事後分布を描く 28

MCMC サンプルを自由につかう 回帰係数が 5 を超える確率が知りたい! 99.4%!! とりだした 36000 個の MCMC サンプルのうち 5 を超えた個数を数えて 36000 でわる 29

MCMC サンプルを自由につかう 気温が 30 度のときの客数の 95% 範囲が知りたい! 各パラメタの MCMC サンプルをとりだして格納 回帰モデルに従った y ( 乱数 ) を 36000 個発生 発生させた y の 2.5%, 97.5% タイル点をもとめる 発生させた y (36000 個の一部 ) 185 人 ~205 人!! 30

ベイジアン分析のステップ (p.24) 1) データの特定 2) モデルの定義 ( 解釈可能な ) モデルの作成 3) パラメタの事前分布の設定 4) ベイズ推論を用いて パラメタの値に確信度を再配分ベイズ推定 5) 事後予測がデータを模倣できているかを確認 記述的妥当性のチェック 31

事後予測チェック 事後予測がデータを模倣できているかを確認 モデルから発生させたデータの 95% 範囲 ( グレー部分 ) とデータをプロット 事後予測分布とデータに 一貫したずれがある場合 205 モデルを修正する必要あり 185 32

一般化線形モデル

一般化線形モデル (GLM) の枠組み 中心傾向 (μ) を x の線形結合で表現 μ 周辺に y が ある分布 に従って発生 e.g., 回帰分析の表現 μ = β 0 + β 1 x y ~ normal μ, σ y が正規分布に従って発生すると考える 図 15.9 (p. 453) 34

GLM の形式的表現 (p. 452) μ = f(lin x, パラメタ ) y ~ pdf(μ, パラメタ ) 中心傾向 (μ) を x の線形結合で表現 μ 周辺に y が ある分布 に従って発生 表 15. 2 * pdf: 確率密度関数 probability density function 35

( 例 ) ロジスティック回帰の場合 https://mathwords.net/logitkansu 36

線形関数の作り方 複数の x を考えたい場合 : とりあえず加法結合 y = β 0 + β 1 x 1 + + β k x k = β 0 + β k x k k 交互作用を考えたい場合 : 掛け算の項をたす y = β 0 + β 1 x 1 + β 2 x 2 + β 12 x 1 x 2 37

線形関数の作り方 予測変数が名義変数の場合 : 各水準の効果を考えるとよい x が水準 1 の場合の y の変化量 y = 1.69+ < 0.07, 0.07 > Ԧx y = β 0 + β [1] x [1] + + β [J] x [J] = β 0 + Ԧβ Ԧx 制約 J β j = 0 j=1 38

予測変数の種類に応じた線形関数 表 15. 1 39

本書で対応している章 今すぐ欲しい! 40

Enjoy! 41