今回次回の要点あぶない時系列データ解析はやめましょう! 統計モデルのあてはめ Danger!! (危 1) 時系列データの GLM あてはめ (危 2) 時系列Yt 時系列 Xt 各時刻の個体数気温とかこれは次回)

Size: px

Start display at page:

Download "今回次回の要点あぶない時系列データ解析はやめましょう! 統計モデルのあてはめ Danger!! (危 1) 時系列データの GLM あてはめ (危 2) 時系列Yt 時系列 Xt 各時刻の個体数気温とかこれは次回)"

ちかこむこやま
5 years ago
Views:

1 生態学の時系列データ解析でよく見るあぶないモデリング久保拓弥 statistical model for time-series data kubostat2017 (h) 1/59

2 今回次回の要点あぶない時系列データ解析はやめましょう! 統計モデルのあてはめ Danger!! (危 1) 時系列データの GLM あてはめ (危 2) 時系列Yt 時系列 Xt 各時刻の個体数気温とかこれは次回)

3 (危 1) 時系列データを GLM で Do NOT apply GLM to time-series data!

4 Danger! time-series Y ~ time-series X (危 2) 時系列Yt 時系列 Xt 見せかけの回帰 spurious regression No! Time_series y ~ Time_series x

5 時系列データの統計モデリング安易に回帰してはいけないランダムウォークモデルが基本統計モデルが生成する時系列パターンを意識する階層ベイズモデルで推定 Use state-space models kubostat2017 (h) 状態空間モデル 5/59

6 (危 1) 時系列データを GLM で

7 このような時系列データがあったとしましょう y y は何か連続値としましょう (今日でてくる y は連続値ばかりということで) t kubostat2017 (h) 7/59

8 時系列データの統計モデリング入門 y glm(y ~ t) とモデルをあてはめてみた t kubostat2017 (h) 8/59

9 やったーゆーいだ!!?? > summary(glm(formula = y ~ t)) Deviance Residuals: Min 1Q Median Q Max Coefficients: Estimate Std. Error t value Pr(> t ) (Intercept) e-06 t e-06 これはまちがい glm(時系列y ~ 時間 t) kubostat2017 (h) 9/59

10 時系列の各点は独立ではない time autocorrelation among data points! ゆーいな傾き (偽がぞろぞろでます傾きの検定やめて AIC モデル選択しても同様になる検定とかモデル選択とかそういう問題ではない統計モデルがおかしい? kubostat2017 (h) 10/59

11 時系列のずれ auto-correlation GLM のずれ no correlation to adjacent points! ずれかたがちがってる? kubostat2017 (h) 11/59

12 時系列のずれ GLM のずれ直線からのずれがちがう! 時間的自己相関がある時間的自己相関がない kubostat2017 (h) 12/59

13 時系列の基本モデルのひとつランダムウォーク (乱歩)

14 変数 Y Random walk model Y1 Y1 Y ランダムウォークもっとも単純なモデル正規分布 Y2 Y2 Y3 kubostat2017 (h) t 時間 14/59

15 ランダムウォークなサンプル時系列とりあえず 1000 本ほど生成してみました Generate 1000 time-series using random walk model 長さ kubostat2017 (h) 15/59

16 例外的な時系列というのはありえるたとえば t = 100 でかなり外れている 50 本 exceptional 50 time-series data? めったにないランダムウォーク?? kubostat2017 (h) 16/59

17 しかし直線回帰 GLM あてはめるとほとんどすべての場合でゆーい! significant? no! 統計モデルがおかしい時間 t を説明変数とする GLM はダメそう kubostat2017 (h) 17/59

18 ちょっとでも傾いてたらゆーい各データ点が独立ではない実際にはこんなデータなのに情報が少ない R の glm() はこんなデータだとみなしている情報が多い kubostat2017 (h) 18/59

19 temporal auto-correlation coefficient 時間的自己相関 (略称:自己相関時間相関) を調べたらいいの?

20 R の ts クラス: 時系列をあつかう plot(ts(y)) これはたんなる 100 個の正規乱数 plot(acf(ts(y))) 自己相関ない kubostat2017 (h) 20/59

21 自己相関減衰の様子を図示 plot(ts(y)) plot(acf(ts(y))) 自己相関あり kubostat2017 (h) 21/59

22 変数 Y 時間相関があるとは? Y1 Y1 Y とは似ている! 正規分布 Y2 Y2 Y3 kubostat2017 (h) t 時間 22/59

23 temporal auto-correlation coefficient 時間的自己相関いつも役にたつわけではない?

24 各点独立のデータをナナメにすると? plot(ts(y)) これをナナメにしたものなんだけど plot(acf(ts(y))) 自己相関ありえ? kubostat2017 (h) 24/59

25 各点独立のデータをナナメにすると? plot(ts(y)) これをナナメにしたもの plot(acf(ts(y))) 自己相関あり kubostat2017 (h) 25/59

26 自己相関係数みても区別がつかない傾向のある変化を推定する手段がない (これは下とは区別つくけど) 統計モデルを選べないから kubostat2017 (h) 26/59

27 変数 Y Y1 Y1 Y ランダムウォークもっとも単純なモデル正規分布 Y2 Y2 Y3 kubostat2017 (h) t 時間 27/59

28 状態空間モデルでたちむかう時系列データ解析いろいろな時系列データを統一的にあつかえないか?

29 変数 Y Y1 Y1 Y ランダムウォークもっとも単純なモデル正規分布 Y2 Y2 Y3 kubostat2017 (h) t 時間 29/59

30 状態空間モデル観測の誤差観測データY y1 二種類のσをもつ Y2 1 y2 Y3 y3 状態変数の変化 y4 t 時間観測できない世界 (状態空間) kubostat2017 (h) 30/59

31 State-space model! 大小小大 kubostat2017 (h) 31/59

32 状態空間モデルは state-space model is... 階層ベイズモデルだ! a hierarchical Bayesian model!

33 階層ベイズモデルとは? 多数の似たようなパラメーターたちに適切な制約を加えて推定できる全データ個体 33 のデータのデータ個体個体 33 のデータのデータ時刻時刻 2 のデータ時刻 1 のデータ {y1, y2, y3,..., y100} 局所的パラメータ大域的パラメータ一定の時間変化時系列のばらつき (たくさんの時点個体調査地 ) kubostat2017 (h) 33/59

34 どうやてモデルをあてはめる? R の状態空間モデルの package いろいろある library(dlm) library(kfas) しかしより一般化したモデルについての理解が必要かも kubostat2017 (h) 34/59

35 こういう問題も JAGS で BUGS 言語でこの単純な階層ベイズモデルを記述できる kubostat2017 (h) 35/59

36 model { Tau.Noninformative < Y[1] ~ dnorm(y[1], tau[2]) y[1] ~ dnorm(0, Tau.Noninformative) for (t in 2:N.Y) { Y[t] ~ dnorm(y[t], tau[2]) y[t] ~ dnorm(m[t], tau[1]) m[t] < delta + y[t 1] } delta ~ dnorm(0, Tau.Noninformative) for (k in 1:2) { tau[k] < 1 / (s[k] * s[k]) s[k] ~ dunif(0, 10000) } } kubostat2017 (h) 36/59

37 状態空間モデルを使う利点ばらばら解析の回避気象庁のデータ解析 An example: time change of yearly temperature

38 long-term change of yearly temperature 気象庁の長期変化傾向トレンドの解説 /59

39 気象庁の長期変化傾向トレンドの解説 /59

40 downloaded data 公開データをダウンロード /59

41 Do NOT apply GLM! とりあえず直線回帰の危険性 > summary(glm(gl ~ year, data = d)) Coefficients: Estimate Std. Error t value Pr(> t ) (Intercept) 1.41e e <2e 16 year 7.03e e <2e 年あたり時間相関その他ばらつきを無視して長期傾向を推定確率１京ぶんの 2? 41/59

42 Do NOT apply GLM! 直線あてはめ (GLM) が予測した温暖化 > summary(glm(gl ~ year, data = d)) Coefficients: Estimate Std. Error t value Pr(> t ) (Intercept) 1.41e e <2e 16 year 7.03e e <2e 年あたり /59

43 状態空間モデルすべてを同時に推定 Hierarchical Bayesian state-space model ランダムウォーク+各年独立なノイズ kubostat2016i 43/59

44 状態空間モデルすべてを同時に推定ランダムウォーク+各年独立なノイズ Y1 Y2 Y3 + trend Y3 Y Y2 trend δ kubostat2016i 時間 44/59

45 状態空間モデルすべてを同時に推定 Y[1] ~ dnorm(y[1], tau[2]) y[1] ~ dnorm(0.0, Tau.Noninformative) for (t in 2:N.Y) { Y[t] ~ dnorm(y[t], tau[2]) y[t] ~ dnorm(m[t], tau[1]) m[t] < delta + y[t 1] } delta ~ dnorm(0, Tau.Noninformative) for (k in 1:2) { tau[k] < 1.0 / (s[k] * s[k]) s[k] ~ dunif(0, 1.0E+4) } Y3 Y Y2 trend δ kubostat2016i 時間 45/59

46 GLM under-estimates standard-errors! 状態空間モデルが予測した温暖化 > summary(glm(gl ~ year, data = d)) Coefficients: Estimate Std. Error t value Pr(> t ) (Intercept) 1.41e e <2e 16 year 7.03e e <2e 年あたり状態空間モデル 100 年あたり0.84 事後分布の95%区間内にゼロあり GLM 46/59

47 観測値間に相関ありサンプルサイズが小さくなる 100年あたり状態空間モデル 100 年あたり0.84 事後分布の95%区間内にゼロあり GLM 47/59

48 疑わしい回帰 spurious regression 時系列どうしの回帰 time series Y ~ time series X

49 時系列データの統計モデリングでやめたほうがいいこと GLM: Y(t) ~ t とか Y(t) ~ X(t) 段階的解析:観測値の四則演算残差の再解析対応の無視再測は時系列 kubostat2016i 49/59

50 見せかけの回帰 spurious regression yt xt Time_series1 ~ Time_series kubostat2016i 50/59

51 ノイズの大きな時系列にうもれたワナ時間的自己相関のない時系列 X Y ゆーいになりやすいしかし glm(y ~ X) とすると /59

52 疑わしい回帰 spurious regression 状態空間モデル (SSM)であつかえないか?

53 二変量正規分布とランダムウォーク ρ = 0.0 ρ = /59

54 二変量正規分布を部品とする状態空間モデル (R で実演) /59

55 階層ベイズモデルである状態空間モデルから得られた事後分布ふたつの時系列データの変動が相関しているかどうかを特定できる /59

56 おわりに

57 時間的な相関はデータの情報量を減少させる空間相関も時系列のずれ kubostat2017 (h) GLM のずれ 57/59

58 時系列データの統計モデリング安易に回帰してはいけないランダムウォークモデルが基本統計モデルが生成する時系列パターンを意識する階層ベイズモデルで推定状態空間モデル kubostat2017 (h) 58/59

59 おしまい The Evolution of Linear Models Hierarchical Bayesian Model (HBM) Parameter Estimation MCMC Generalized Linear Mixed Model (GLMM) MLE データ解析は階層ベイズモデルで Generalized Linear Model (GLM) MSE Linear Model /59

今日の要点あぶない時系列データ解析はやめましょう! 統計モデルのあてはめ (危 1) 時系列データの GLM あてはめ (危 2) 時系列Yt 時系列 Xt 各時刻の個体数気温とか

今日の要点あぶない時系列データ解析はやめましょう! 統計モデルのあてはめ (危 1) 時系列データの GLM あてはめ (危 2) 時系列Yt 時系列 Xt 各時刻の個体数気温とか時系列データ解析でよく見るあぶないモデリング久保拓弥 (北海道大環境科学) 1/56 今日の要点あぶない時系列データ解析はやめましょう! 統計モデルのあてはめ (危 1) 時系列データの GLM あてはめ (危 2) 時系列Yt 時系列 Xt 各時刻の個体数気温とか (危 1) 時系列データを GLM で (危 2) 時系列Yt 時系列 Xt 相関は因果関係ではない問題の一部

今回 次回の要点 あぶない 時系列データ解析は やめましょう! 統計モデル のあてはめ Danger!! (危 1) 時系列データの GLM あてはめ (危 2) 時系列Yt 時系列 Xt 各時刻の個体数 気温 とか これは次回)

今回次回の要点あぶない時系列データ解析はやめましょう! 統計モデルのあてはめ Danger!! (危 1) 時系列データの GLM あてはめ (危 2) 時系列Yt 時系列 Xt 各時刻の個体数気温とかこれは次回)