今回 次回の要点 あぶない 時系列データ解析は やめましょう! 統計モデル のあてはめ Danger!! (危 1) 時系列データの GLM あてはめ (危 2) 時系列Yt 時系列 Xt 各時刻の個体数 気温 とか これは次回)

Similar documents
今日の要点 あぶない 時系列データ解析は やめましょう! 統計モデル のあてはめ (危 1) 時系列データの GLM あてはめ (危 2) 時系列Yt 時系列 Xt 各時刻の個体数 気温 とか

kubostat2018a p.1 統計モデリング入門 2018 (a) The main language of this class is 生物多様性学特論 Japanese Sorry An overview: Statistical Modeling 観測されたパターンを説明する統計モデル

統計モデリング入門 2018 (a) 生物多様性学特論 An overview: Statistical Modeling 観測されたパターンを説明する統計モデル 久保拓弥 (北海道大 環境科学) 統計モデリング入門 2018a 1

kubostat2017c p (c) Poisson regression, a generalized linear model (GLM) : :

kubostat7f p GLM! logistic regression as usual? N? GLM GLM doesn t work! GLM!! probabilit distribution binomial distribution : : β + β x i link functi

kubostat2017j p.2 CSV CSV (!) d2.csv d2.csv,, 286,0,A 85,0,B 378,1,A 148,1,B ( :27 ) 10/ 51 kubostat2017j (

kubostat2015e p.2 how to specify Poisson regression model, a GLM GLM how to specify model, a GLM GLM logistic probability distribution Poisson distrib

/ *1 *1 c Mike Gonzalez, October 14, Wikimedia Commons.

kubostat2017e p.1 I 2017 (e) GLM logistic regression : : :02 1 N y count data or

60 (W30)? 1. ( ) 2. ( ) web site URL ( :41 ) 1/ 77

kubo2015ngt6 p.2 ( ( (MLE 8 y i L(q q log L(q q 0 ˆq log L(q / q = 0 q ˆq = = = * ˆq = 0.46 ( 8 y 0.46 y y y i kubo (ht

kubostat2017b p.1 agenda I 2017 (b) probability distribution and maximum likelihood estimation :

講義のーと : データ解析のための統計モデリング. 第5回

一般化線形 (混合) モデル (2) - ロジスティック回帰と GLMM

Microsoft PowerPoint - GLMMexample_ver pptx

スライド 1

スライド 1

自由集会時系列part2web.key

kubostat1g p. MCMC binomial distribution q MCMC : i N i y i p(y i q = ( Ni y i q y i (1 q N i y i, q {y i } q likelihood q L(q {y i } = i=1 p(y i q 1

日心TWS

> usdata01 と打ち込んでエンター キーを押すと V1 V2 V : : : : のように表示され 読み込まれていることがわかる ここで V1, V2, V3 は R が列のデータに自 動的につけた変数名である ( variable

今回用いる例データ lh( 小文字のエル ) ある女性の血液中の黄体ホルモンを 10 分間隔で測定した時系列データ UKgas 1960 年 ~1986 年のイギリスのガス消費量を四半期ごとに観測した時系列データ ldeaths 1974 年 ~1979 年のイギリスで喘息 気管支炎 肺気腫による死

講義のーと : データ解析のための統計モデリング. 第3回

Use R

kubostat2018d p.2 :? bod size x and fertilization f change seed number? : a statistical model for this example? i response variable seed number : { i

k2 ( :35 ) ( k2) (GLM) web web 1 :

kubo2017sep16a p.1 ( 1 ) : : :55 kubo ( ( 1 ) / 10

PowerPoint プレゼンテーション

1 環境統計学ぷらす 第 5 回 一般 ( 化 ) 線形混合モデル 高木俊 2013/11/21

/22 R MCMC R R MCMC? 3. Gibbs sampler : kubo/

Microsoft PowerPoint - 統計科学研究所_R_重回帰分析_変数選択_2.ppt

. 分析内容及びデータ () 分析内容中長期の代表的金利である円金利スワップを題材に 年 -5 年物のイールドスプレッドの変動を自己回帰誤差モデル * により時系列分析を行った * ) 自己回帰誤差モデル一般に自己回帰モデルは線形回帰モデルと同様な考え方で 外生変数の無いT 期間だけ遅れのある従属変

回帰分析 単回帰

集中理論談話会 #9 Bhat, C.R., Sidharthan, R.: A simulation evaluation of the maximum approximate composite marginal likelihood (MACML) estimator for mixed mu

Microsoft PowerPoint - 資料04 重回帰分析.ppt

統計的データ解析

12/1 ( ) GLM, R MCMC, WinBUGS 12/2 ( ) WinBUGS WinBUGS 12/2 ( ) : 12/3 ( ) :? ( :51 ) 2/ 71

Microsoft Word - eviews6_

3. みせかけの相関単位根系列が注目されるのは これを持つ変数同士の回帰には意味がないためだ 単位根系列で代表的なドリフト付きランダムウォークを発生させてそれを確かめてみよう yと xという変数名の系列をを作成する yt=0.5+yt-1+et xt=0.1+xt-1+et 初期値を y は 10

講義のーと : データ解析のための統計モデリング. 第2回

EBNと疫学

1.民営化

DVIOUT-ar

J1順位と得点者数の関係分析

多変量解析 ~ 重回帰分析 ~ 2006 年 4 月 21 日 ( 金 ) 南慶典

1 15 R Part : website:

Microsoft PowerPoint - H17-5時限(パターン認識).ppt

Microsoft Word - å“Ÿåłžå¸°173.docx

Dependent Variable: LOG(GDP00/(E*HOUR)) Date: 02/27/06 Time: 16:39 Sample (adjusted): 1994Q1 2005Q3 Included observations: 47 after adjustments C -1.5

201711grade2.pdf

Microsoft PowerPoint - 時系列解析(10)_講義用.pptx

/ 60 : 1. GLM? 2. A: (pwer functin) x y?

14 化学実験法 II( 吉村 ( 洋 mmol/l の半分だったから さんの測定値は くんの測定値の 4 倍の重みがあり 推定値 としては 0.68 mmol/l その標準偏差は mmol/l 程度ということになる 測定値を 特徴づけるパラメータ t を推定するこの手

Microsoft PowerPoint - e-stat(OLS).pptx

情報工学概論

2. 時系列分析 プラットフォームの使用法 JMP の 時系列分析 プラットフォームでは 一変量の時系列に対する分析を行うことができます この章では JMP のサンプルデ ータを用いて このプラットフォームの使用法をご説明します JMP のメニューバーより [ ヘルプ ] > [ サンプルデータ ]

解析センターを知っていただく キャンペーン

(lm) lm AIC 2 / 1

スライド 1

まず y t を定数項だけに回帰する > levelmod = lm(topixrate~1) 次にこの出力を使って先ほどのレジームスイッチングモデルを推定する 以下のように入力する > levelswmod = msmfit(levelmod,k=,p=0,sw=c(t,t)) ここで k はレジ

カイ二乗フィット検定、パラメータの誤差

スライド 1

DAA09

Probit , Mixed logit

Microsoft Word - HM-RAJ doc

Microsoft PowerPoint - 時系列解析(11)_講義用.pptx

Excelにおける回帰分析(最小二乗法)の手順と出力

第 3 回講義の項目と概要 統計的手法入門 : 品質のばらつきを解析する 平均と標準偏差 (P30) a) データは平均を見ただけではわからない 平均が同じだからといって 同一視してはいけない b) データのばらつきを示す 標準偏差 にも注目しよう c) 平均

相関分析・偏相関分析

スライド 1

<4D F736F F D20939D8C7689F090CD985F93C18EEA8D758B E646F63>

Microsoft Word - Time Series Basic - Modeling.doc

0 スペクトル 時系列データの前処理 法 平滑化 ( スムージング ) と微分 明治大学理 学部応用化学科 データ化学 学研究室 弘昌

ビジネス統計 統計基礎とエクセル分析 正誤表

ベイズ統計入門

: Bradley-Terry Burczyk

最小2乗法

International Classification of Diseases (ICD) について :[3][4] Standard diagnostic tool for epidemiology, health management and clinical purposes. This i

Medical3

当し 図 6. のように 2 分類 ( 疾患の有無 ) のデータを直線の代わりにシグモイド曲線 (S 字状曲線 ) で回帰する手法である ちなみに 直線で回帰する手法はコクラン アーミテージの傾向検定 疾患の確率 x : リスクファクター 図 6. ロジスティック曲線と回帰直線 疾患が発

Microsoft PowerPoint - SDF2007_nakanishi_2.ppt[読み取り専用]

ファイナンスのための数学基礎 第1回 オリエンテーション、ベクトル

R による共和分分析 1. 共和分分析を行う 1.1 パッケージ urca インスツールする 共和分分析をするために R のパッケージ urca をインスツールする パッケージとは通常の R には含まれていない 追加的な R のコマンドの集まりのようなものである R には追加的に 600 以上のパッ

Microsoft Word - 計量研修テキスト_第5版).doc

横浜市環境科学研究所

Microsoft PowerPoint - Econometrics pptx

第11回:線形回帰モデルのOLS推定

スライド 1


解答のポイント 第 1 章問 1 ポイント仮に1 年生全員の数が 100 人であったとする.100 人全員に数学の試験を課して, それらの 100 人の個人個人の点数が母集団となる. 問 2 ポイント仮に10 人を抽出するとする. 学生に1から 100 までの番号を割り当てたとする. 箱の中に番号札

スライド 1

みっちりGLM

と入力する すると最初の 25 行が表示される 1 行目は変数の名前であり 2 列目は企業番号 (1,,10),3 列目は西暦 (1935,,1954) を表している ( 他のパネルデータを分析する際もデ ータをこのように並べておかなくてはならない つまりまず i=1 を固定し i=1 の t に関

PowerPoint プレゼンテーション

Chapter 1 Epidemiological Terminology

要旨 1. 始めに PCA 2. 不偏分散, 分散, 共分散 N N 49

アダストリア売り上げデータによる 現状把握と今後の方針 東海大学情報通信学部経営システム工学科佐藤健太

スライド 1

Stata11 whitepapers mwp-037 regress - regress regress. regress mpg weight foreign Source SS df MS Number of obs = 74 F(

2 値データの Intraclass Correlation Coefficient の推定マクロプログラム 稲葉洋介 1 田中紀子 1 1 国立国際医療研究センターデータサイエンス部生物統計研究室 Macro program for calculating Intraclass Correlati

Transcription:

生態学の時系列データ解析でよく見る あぶない モデリング 久保拓弥 mailto:kubo@ees.hokudai.ac.jp statistical model for time-series data 2017-07-03 kubostat2017 (h) 1/59

今回 次回の要点 あぶない 時系列データ解析は やめましょう! 統計モデル のあてはめ Danger!! (危 1) 時系列データの GLM あてはめ (危 2) 時系列Yt 時系列 Xt 各時刻の個体数 気温 とか これは次回)

(危 1) 時系列データを GLM で Do NOT apply GLM to time-series data!

Danger! time-series Y ~ time-series X (危 2) 時系列Yt 時系列 Xt 見せかけの回帰 spurious regression No! Time_series y ~ Time_series x

時系列データの統計モデリング 安易に 回帰 してはいけない ランダムウォークモデルが基本 統計モデルが生成する時系列 パターンを意識する 階層ベイズモデルで推定 Use state-space models 2017-07-03 kubostat2017 (h) 状態空間モデル 5/59

(危 1) 時系列データを GLM で

このような時系列データがあったとしましょう y y は何か連続値と しましょう (今日でてくる y は 連続値ばかり と いうことで) t 2017-07-03 kubostat2017 (h) 7/59

時系列データの統計モデリング入門 y glm(y ~ t) とモデル をあてはめてみた t 2017-07-03 kubostat2017 (h) 8/59

やったーゆーいだ!!?? > summary(glm(formula = y ~ t)) Deviance Residuals: Min 1Q Median -2.1295-1.0583-0.0817 3Q 0.9860 Max 2.0188 Coefficients: Estimate Std. Error t value Pr(> t ) (Intercept) -414.5655 71.4761-5.80 6.6e-06 t 0.2339 0.0357 6.55 1.1e-06 これはまちがい glm(時系列y ~ 時間 t) 2017-07-03 kubostat2017 (h) 9/59

時系列の各点は独立ではない time autocorrelation among data points! ゆーいな傾き (偽 が ぞろぞろ でます 傾きの検定やめて AIC モデル選択 しても同様になる 検定とかモデル選択とかそういう問題ではない 統計モデルがおかしい? 2017-07-03 kubostat2017 (h) 10/59

時系列の ずれ auto-correlation GLM のずれ no correlation to adjacent points! ずれかたが ちがってる? 2017-07-03 kubostat2017 (h) 11/59

時系列の ずれ GLM のずれ 直線からのずれがちがう! 時間的自己相関がある 2017-07-03 時間的自己相関がない kubostat2017 (h) 12/59

時系列の基本モデルのひとつ ランダムウォーク (乱歩)

変数 Y Random walk model Y1 Y1 Y1 2017-07-03 ランダムウォーク もっとも単純な モデル 正規分布 Y2 Y2 Y3 kubostat2017 (h) t 時間 14/59

ランダムウォークなサンプル時系列 とりあえず 1000 本ほど生成してみました Generate 1000 time-series using random walk model 長さ 100 2017-07-03 kubostat2017 (h) 15/59

例外的な時系列というのはありえる たとえば t = 100 でかなり外れている 50 本 exceptional 50 time-series data? めったにない ランダムウォーク?? 2017-07-03 kubostat2017 (h) 16/59

しかし直線回帰 GLM あてはめると ほとんどすべての場合で ゆーい! significant? no! 統計モデルがおかしい 時間 t を説明変数とする GLM はダメそう 2017-07-03 kubostat2017 (h) 17/59

ちょっとでも傾いてたら ゆーい 各データ点が 独立ではない 実際には こんなデータ なのに 情報が少ない R の glm() は こんなデータ だとみなしている 情報が多い 2017-07-03 kubostat2017 (h) 18/59

temporal auto-correlation coefficient 時間的自己相関 (略称:自己相関 時間相関) を調べたらいいの?

R の ts クラス: 時系列をあつかう plot(ts(y)) これはたんなる 100 個の正規乱数 plot(acf(ts(y))) 自己相関ない 2017-07-03 kubostat2017 (h) 20/59

自己相関減衰の様子を図示 plot(ts(y)) plot(acf(ts(y))) 自己相関あり 2017-07-03 kubostat2017 (h) 21/59

変数 Y 時間相関がある とは? Y1 Y1 Y1 2017-07-03 と は 似ている! 正規分布 Y2 Y2 Y3 kubostat2017 (h) t 時間 22/59

temporal auto-correlation coefficient 時間的自己相関 いつも役にたつわけではない?

各点独立のデータをナナメにすると? plot(ts(y)) これを ナナメに したもの なんだけど plot(acf(ts(y))) 2017-07-03 自己相関あり え? kubostat2017 (h) 24/59

各点独立のデータをナナメにすると? plot(ts(y)) これを ナナメに したもの plot(acf(ts(y))) 自己相関あり 2017-07-03 kubostat2017 (h) 25/59

自己相関係数みても区別がつかない 傾向のある変化 を推定する手段がない (これは下とは区別つくけど) 統計モデル を選べないから 2017-07-03 kubostat2017 (h) 26/59

変数 Y Y1 Y1 Y1 2017-07-03 ランダムウォーク もっとも単純な モデル 正規分布 Y2 Y2 Y3 kubostat2017 (h) t 時間 27/59

状態空間モデルでたちむかう 時系列データ解析 いろいろな時系列データを 統一的にあつかえないか?

変数 Y Y1 Y1 Y1 2017-07-03 ランダムウォーク もっとも単純な モデル 正規分布 Y2 Y2 Y3 kubostat2017 (h) t 時間 29/59

状態空間モデル 観測の誤差 観測データY y1 二種類のσをもつ Y2 1 y2 Y3 y3 状態変数の変化 y4 t 時間 観測できない世界 (状態空間) 2017-07-03 kubostat2017 (h) 30/59

State-space model! 大 小 2017-07-03 小 大 kubostat2017 (h) 31/59

状態空間モデルは state-space model is... 階層ベイズモデルだ! a hierarchical Bayesian model!

階層ベイズモデルとは? 多数の 似たようなパラメーター たちに 適切 な制約を加えて推定できる 全データ 個体 33 のデータ のデータ 個体 個体 33 のデータ のデータ 時刻 時刻 2 のデータ 時刻 1 のデータ {y1, y2, y3,..., y100} 局所的パラメータ 大域的パラメータ 一定の時間変化 時系列のばらつき (たくさんの時点 個体 調査地 ) 2017-07-03 kubostat2017 (h) 33/59

どうやてモデルをあてはめる? R の状態空間モデルの package いろいろある library(dlm) library(kfas) しかしより一般化したモデルに ついての理解が必要かも 2017-07-03 kubostat2017 (h) 34/59

こういう問題も JAGS で BUGS 言語でこの単純な 階層ベイズモデルを記述できる 2017-07-03 kubostat2017 (h) 35/59

model { Tau.Noninformative < 0.0001 Y[1] ~ dnorm(y[1], tau[2]) y[1] ~ dnorm(0, Tau.Noninformative) for (t in 2:N.Y) { Y[t] ~ dnorm(y[t], tau[2]) y[t] ~ dnorm(m[t], tau[1]) m[t] < delta + y[t 1] } delta ~ dnorm(0, Tau.Noninformative) for (k in 1:2) { tau[k] < 1 / (s[k] * s[k]) s[k] ~ dunif(0, 10000) } } 2017-07-03 kubostat2017 (h) 36/59

状態空間モデルを使う利点 ばらばら解析 の回避 気象庁のデータ解析 An example: time change of yearly temperature

long-term change of yearly temperature 気象庁の長期変化傾向 トレンド の解説 http://www.data.jma.go.jp/cpdinfo/temp/an_wld.html 2016-08-09 38/59

気象庁の長期変化傾向 トレンド の解説 http://www.data.jma.go.jp/cpdinfo/temp/trend.html 2016-08-09 39/59

downloaded data 公開データをダウンロード 2016-08-09 40/59

Do NOT apply GLM! とりあえず 直線回帰 の危険性 > summary(glm(gl ~ year, data = d)) Coefficients: Estimate Std. Error t value Pr(> t ) (Intercept) 1.41e+01 6.21e 01 22.6 <2e 16 year 7.03e 03 3.18e 04 22.1 <2e 16 100年 あたり 0.70 2016-08-09 時間相関その他ばらつきを 無視して 長期傾向 を推定 確率 1京ぶんの 2? 41/59

Do NOT apply GLM! 直線あてはめ (GLM) が予測した 温暖化 > summary(glm(gl ~ year, data = d)) Coefficients: Estimate Std. Error t value Pr(> t ) (Intercept) 1.41e+01 6.21e 01 22.6 <2e 16 year 7.03e 03 3.18e 04 22.1 <2e 16 100年 あたり 0.70 2016-08-09 42/59

状態空間モデル すべてを同時に推定 Hierarchical Bayesian state-space model ランダムウォーク+各年独立なノイズ 2016-08-09 kubostat2016i 43/59

状態空間モデル すべてを同時に推定 ランダムウォーク+各年独立なノイズ Y1 Y2 Y3 + trend Y3 Y1 2016-08-09 Y2 trend δ kubostat2016i 時間 44/59

状態空間モデル すべてを同時に推定 Y[1] ~ dnorm(y[1], tau[2]) y[1] ~ dnorm(0.0, Tau.Noninformative) for (t in 2:N.Y) { Y[t] ~ dnorm(y[t], tau[2]) y[t] ~ dnorm(m[t], tau[1]) m[t] < delta + y[t 1] } delta ~ dnorm(0, Tau.Noninformative) for (k in 1:2) { tau[k] < 1.0 / (s[k] * s[k]) s[k] ~ dunif(0, 1.0E+4) } Y3 Y1 2016-08-09 Y2 trend δ kubostat2016i 時間 45/59

GLM under-estimates standard-errors! 状態空間モデルが予測した 温暖化 > summary(glm(gl ~ year, data = d)) Coefficients: Estimate Std. Error t value Pr(> t ) (Intercept) 1.41e+01 6.21e 01 22.6 <2e 16 year 7.03e 03 3.18e 04 22.1 <2e 16 100年 あたり 0.70 2016-08-09 状態空間モデル 100 年あたり0.84 事後分布の95%区間 内にゼロあり GLM 46/59

観測値間に相関あり サンプルサイズが小さくなる 100年 あたり 0.70 2016-08-09 状態空間モデル 100 年あたり0.84 事後分布の95%区間 内にゼロあり GLM 47/59

疑わしい回帰 spurious regression 時系列どうしの回帰 time series Y ~ time series X

時系列データの統計モデリング でやめたほうがいいこと GLM: Y(t) ~ t とか Y(t) ~ X(t) 段階的解析:観測値の四則演算 残差 の再解析 対応 の無視 再測は時系列 2016-08-09 kubostat2016i 49/59

見せかけの回帰 spurious regression yt xt Time_series1 ~ Time_series2 2016-08-09 kubostat2016i 50/59

ノイズの大きな時系列にうもれたワナ 時間的自己相関のない時系列 X Y ゆーい に なりやすい しかし glm(y ~ X) とすると 2016-08-09 51/59

疑わしい回帰 spurious regression 状態空間モデル (SSM)で あつかえないか?

二変量正規分布とランダムウォーク ρ = 0.0 ρ = 0.5 2016-08-09 53/59

二変量正規分布を部品とする状態空間モデル (R で実演) 2016-08-09 54/59

階層ベイズモデルである 状態空間モデル から得られた事後分布 ふたつの時系列データの変動が 相関しているかどうかを特定できる 2016-08-09 55/59

おわりに

時間的な相関はデータの 情報量を減少させる 空間相関も 時系列の ずれ 2017-07-03 kubostat2017 (h) GLM のずれ 57/59

時系列データの統計モデリング 安易に 回帰 してはいけない ランダムウォークモデルが基本 統計モデルが生成する時系列 パターンを意識する 階層ベイズモデルで推定 状態空間モデル 2017-07-03 kubostat2017 (h) 58/59

おしまい The Evolution of Linear Models Hierarchical Bayesian Model (HBM) Parameter Estimation MCMC Generalized Linear Mixed Model (GLMM) MLE データ解析は 階層ベイズモデルで Generalized Linear Model (GLM) MSE Linear Model 2017-07-03 59/59