今日の要点あぶない時系列データ解析はやめましょう! 統計モデルのあてはめ (危 1) 時系列データの GLM あてはめ (危 2) 時系列Yt 時系列 Xt 各時刻の個体数気温とか

時系列データ解析でよく見るあぶないモデリング久保拓弥 (北海道大環境科学) 1/56

(危 1) 時系列データを GLM で

(危 2) 時系列Yt 時系列 Xt 相関は因果関係ではない問題の一部にせの回帰

見せかけの回帰 spurious regression ちょっとだけ実演してみます 5/56

時系列データの統計モデリング安易に回帰してはいけないランダムウォークモデルが基本統計モデルが生成する時系列パターンを意識する階層ベイズモデルで推定状態空間モデル 6/56

(危 1) 時系列データを GLM で

このような時系列データがあったとしましょう y y は何か連続値としましょう (今日でてくる y は連続値ばかりということで) t 8/56

時系列データの統計モデリング入門 y glm(y ~ t) とモデルをあてはめてみた t 9/56

やったーゆーいだ!!?? > summary(glm(formula = y ~ t)) Deviance Residuals: Min 1Q Median -2.1295-1.0583-0.0817 3Q 0.9860 Max 2.0188 Coefficients: Estimate Std. Error t value Pr(> t ) (Intercept) -414.5655 71.4761-5.80 6.6e-06 t 0.2339 0.0357 6.55 1.1e-06 これはまちがい glm(時系列y ~ 時間 t) 10/56

時系列の各点は独立ではないゆーいな傾き (偽がぞろぞろでます傾きの検定やめて AIC モデル選択しても同様になる検定とかモデル選択とかそういう問題ではない統計モデルがおかしい? 11/56

時系列のずれ GLM のずれずれかたがちがってる? 12/56

時系列のずれ GLM のずれ直線からのずれがちがう! 時間的自己相関がある時間的自己相関がない 13/56

時系列の基本モデルのひとつランダムウォーク (乱歩)

変数 Y Y1 Y1 Y1 ランダムウォークもっとも単純なモデル正規分布 Y2 Y2 Y3 時間 t 15/56

ランダムウォークなサンプル時系列とりあえず 1000 本ほど生成してみました長さ 100 16/56

例外的な時系列というのはありえるたとえば t = 100 でかなり外れている 50 本めったにないランダムウォーク?? 17/56

しかし直線回帰 GLM あてはめるとほとんどすべての場合でゆーい! 統計モデルがおかしい時間 t を説明変数とする GLM はダメそう 18/56

ちょっとでも傾いてたらゆーい各データ点が独立ではない実際にはこんなデータなのに情報が少ない R の glm() はこんなデータだとみなしている情報が多い 19/56

時間的自己相関 (略称:自己相関時間相関) を調べたらいいの?

R の ts クラス: 時系列をあつかう plot(ts(y)) これはたんなる 100 個の正規乱数 plot(acf(ts(y))) 自己相関ない 21/56

自己相関減衰の様子を図示 plot(ts(y)) plot(acf(ts(y))) 自己相関あり 22/56

変数 Y 時間相関があるとは? Y1 Y1 Y1 とは似ている! 正規分布 Y2 Y2 Y3 時間 t 23/56

時間的自己相関はいつも役にたつわけではない?

各点独立のデータをナナメにすると? plot(ts(y)) これをナナメにしたものなんだけど plot(acf(ts(y))) 自己相関ありえ? 25/56

各点独立のデータをナナメにすると? plot(ts(y)) これをナナメにしたもの plot(acf(ts(y))) 自己相関あり 26/56

自己相関係数みても区別がつかない傾向のある変化を推定する手段がない (これは下とは区別つくけど) 統計モデルを選べないから 27/56

変数 Y Y1 Y1 Y1 ランダムウォークもっとも単純なモデル正規分布 Y2 Y2 Y3 時間 t 28/56

時系列データの差分をみよう自己相関係数もいいけど差分を調べるのが基本 29/56

状態空間モデルでたちむかう時系列データ解析いろいろな時系列データを統一的にあつかえないか?

統計モデルとは何か? どんな統計解析においても統計モデルが使用されている観察によってデータ化された現象を説明するために作られる確率分布が基本的な部品でありこれはデータにみられるばらつきを表現する手段であるデータとモデルを対応づける手つづきが準備されていてモデルがデータにどれぐらい良くあてはまっているかを定量的に評価できる 31/56

統計モデルのしくみを理解しよう! もうすこしわかったような気分? 種子数の平均値はサイズ x と種子数ともに増大するどのように変化するのか? 数式で書くとどうなる? 平均値が増大するとばらつきが変化するどのようにばらつくのか? 確率分布? 体サイズ統計モデルをデータにうまくあてはめるどのようにあてはめるのが妥当なのか? パラメーター推定法? 32/56

時系列データ解析の教科書ねえモデルがあれこれ多すぎる経済学よりのモデルばかりなんでも正規分布なんとかならないかな? 状態空間モデルどうでしょう? 33/56

変数 Y Y1 Y1 Y1 ランダムウォークもっとも単純なモデル正規分布 Y2 Y2 Y3 時間 t 34/56

状態空間モデル観測の誤差二種類のσをもつ観測データ Y1 y1 Y2 y2 Y3 y3 状態変数の変化 y4 時間 t 観測できない世界 (状態空間) 35/56

大小小大 36/56

大小傾きも追加 37/56

小大傾きも追加 38/56

状態空間モデル + GLM この部分にポアソン分布や二項分布をいれる 39/56

状態空間モデル + GLM 他にも季節変動などを入れることができます今日は省略すみません 40/56

階層ベイズモデルとは? 多数の似たようなパラメーターたちに適切な制約を加えて推定できる全データ個体 33 のデータのデータ個体個体 33 のデータのデータ時刻時刻 2 のデータ時刻 1 のデータ {y1, y2, y3,..., y100} 局所的パラメータ大域的パラメータ一定の時間変化時系列のばらつき (たくさんの時点個体調査地 ) 41/56

どうやてモデルをあてはめる? R の状態空間モデルの package いろいろある library(dlm) 伊東さんが library(kfas) 紹介しかしより一般化したモデルについての理解が必要かも 42/56

たとえば JAGS で BUGS 言語でこの単純な階層ベイズモデルを記述できる 43/56

model { Tau.Noninformative < 0.0001 Y[1] ~ dnorm(y[1], tau[2]) y[1] ~ dnorm(0, Tau.Noninformative) for (t in 2:N.Y) { Y[t] ~ dnorm(y[t], tau[2]) y[t] ~ dnorm(m[t], tau[1]) m[t] < delta + y[t 1] } delta ~ dnorm(0, Tau.Noninformative) for (k in 1:2) { tau[k] < 1 / (s[k] * s[k]) s[k] ~ dunif(0, 10000) } } 44/56

1000 個の架空データを推定いろいろなランダムウォークが生成される状態空間モデルのパラメーター推定は成功するか? 45/56

状態空間モデルをかたむきゼロランダムウォークな架空データにあてはめる小大

傾き δの事後分布を見る 1000回中 63回ずれた真のδは 0 横線は 95%区間 47/56

状態空間モデルをかたむきありランダムウォークな架空データにあてはめる大小小大

傾き δの事後分布を見る 1000回中 1回ずれた真のδは 1 横線は 95%区間 49/56

傾き δの事後分布を見る 1000回中 62回ずれた真のδは 1 横線は 95%区間 50/56

とりあえずの結論ひとつの状態空間モデルを使って右の4状態は区別可能でしょう 51/56

(危 2) 時系列データ Xt と時系列データ Yt Yt~ Xt なうたがわしい回帰 spurious regression

Grenger 因果??? 時系列データ解析の教科書にはよく登場する複数の時系列感の相関を調べる方法あまり生態学の役には立たないかも 53/56

おわりに

時間的な相関はデータの情報量を減少させる空間相関も時系列のずれ GLM のずれ 55/56

時系列データの統計モデリング安易に回帰してはいけないランダムウォークモデルが基本統計モデルが生成する時系列パターンを意識する階層ベイズモデルで推定状態空間モデル 56/56

今日の要点 あぶない 時系列データ解析は やめましょう! 統計モデル のあてはめ (危 1) 時系列データの GLM あてはめ (危 2) 時系列Yt 時系列 Xt 各時刻の個体数 気温 とか

今日の要点あぶない時系列データ解析はやめましょう! 統計モデルのあてはめ (危 1) 時系列データの GLM あてはめ (危 2) 時系列Yt 時系列 Xt 各時刻の個体数気温とか