今日の要点 あぶない 時系列データ解析は やめましょう! 統計モデル のあてはめ (危 1) 時系列データの GLM あてはめ (危 2) 時系列Yt 時系列 Xt 各時刻の個体数 気温 とか

Similar documents
今回 次回の要点 あぶない 時系列データ解析は やめましょう! 統計モデル のあてはめ Danger!! (危 1) 時系列データの GLM あてはめ (危 2) 時系列Yt 時系列 Xt 各時刻の個体数 気温 とか これは次回)

kubostat2018a p.1 統計モデリング入門 2018 (a) The main language of this class is 生物多様性学特論 Japanese Sorry An overview: Statistical Modeling 観測されたパターンを説明する統計モデル

統計モデリング入門 2018 (a) 生物多様性学特論 An overview: Statistical Modeling 観測されたパターンを説明する統計モデル 久保拓弥 (北海道大 環境科学) 統計モデリング入門 2018a 1

kubostat2017j p.2 CSV CSV (!) d2.csv d2.csv,, 286,0,A 85,0,B 378,1,A 148,1,B ( :27 ) 10/ 51 kubostat2017j (

スライド 1

60 (W30)? 1. ( ) 2. ( ) web site URL ( :41 ) 1/ 77

スライド 1

/ *1 *1 c Mike Gonzalez, October 14, Wikimedia Commons.

Microsoft PowerPoint - GLMMexample_ver pptx

日心TWS

EBNと疫学

kubo2015ngt6 p.2 ( ( (MLE 8 y i L(q q log L(q q 0 ˆq log L(q / q = 0 q ˆq = = = * ˆq = 0.46 ( 8 y 0.46 y y y i kubo (ht

Microsoft PowerPoint - e-stat(OLS).pptx

今回用いる例データ lh( 小文字のエル ) ある女性の血液中の黄体ホルモンを 10 分間隔で測定した時系列データ UKgas 1960 年 ~1986 年のイギリスのガス消費量を四半期ごとに観測した時系列データ ldeaths 1974 年 ~1979 年のイギリスで喘息 気管支炎 肺気腫による死

kubostat2017c p (c) Poisson regression, a generalized linear model (GLM) : :

第 3 回講義の項目と概要 統計的手法入門 : 品質のばらつきを解析する 平均と標準偏差 (P30) a) データは平均を見ただけではわからない 平均が同じだからといって 同一視してはいけない b) データのばらつきを示す 標準偏差 にも注目しよう c) 平均

> usdata01 と打ち込んでエンター キーを押すと V1 V2 V : : : : のように表示され 読み込まれていることがわかる ここで V1, V2, V3 は R が列のデータに自 動的につけた変数名である ( variable

統計的データ解析

多変量解析 ~ 重回帰分析 ~ 2006 年 4 月 21 日 ( 金 ) 南慶典

1.民営化

. 分析内容及びデータ () 分析内容中長期の代表的金利である円金利スワップを題材に 年 -5 年物のイールドスプレッドの変動を自己回帰誤差モデル * により時系列分析を行った * ) 自己回帰誤差モデル一般に自己回帰モデルは線形回帰モデルと同様な考え方で 外生変数の無いT 期間だけ遅れのある従属変

2. 時系列分析 プラットフォームの使用法 JMP の 時系列分析 プラットフォームでは 一変量の時系列に対する分析を行うことができます この章では JMP のサンプルデ ータを用いて このプラットフォームの使用法をご説明します JMP のメニューバーより [ ヘルプ ] > [ サンプルデータ ]

カイ二乗フィット検定、パラメータの誤差

回帰分析 単回帰

201711grade2.pdf

14 化学実験法 II( 吉村 ( 洋 mmol/l の半分だったから さんの測定値は くんの測定値の 4 倍の重みがあり 推定値 としては 0.68 mmol/l その標準偏差は mmol/l 程度ということになる 測定値を 特徴づけるパラメータ t を推定するこの手

Kumamoto University Center for Multimedia and Information Technologies Lab. 熊本大学アプリケーション実験 ~ 実環境における無線 LAN 受信電波強度を用いた位置推定手法の検討 ~ InKIAI 宮崎県美郷

Microsoft Word - eviews6_

Microsoft PowerPoint - 統計科学研究所_R_重回帰分析_変数選択_2.ppt

一般化線形 (混合) モデル (2) - ロジスティック回帰と GLMM

Microsoft PowerPoint - H17-5時限(パターン認識).ppt

講義のーと : データ解析のための統計モデリング. 第5回

Microsoft PowerPoint - 資料04 重回帰分析.ppt


Microsoft PowerPoint - R-stat-intro_04.ppt [互換モード]

講義のーと : データ解析のための統計モデリング. 第3回

情報工学概論

Probit , Mixed logit

<4D F736F F D208EC08CB18C7689E68A E F1918A8AD695AA90CD2E646F63>

みっちりGLM

13章 回帰分析

様々なミクロ計量モデル†

3. みせかけの相関単位根系列が注目されるのは これを持つ変数同士の回帰には意味がないためだ 単位根系列で代表的なドリフト付きランダムウォークを発生させてそれを確かめてみよう yと xという変数名の系列をを作成する yt=0.5+yt-1+et xt=0.1+xt-1+et 初期値を y は 10

0 スペクトル 時系列データの前処理 法 平滑化 ( スムージング ) と微分 明治大学理 学部応用化学科 データ化学 学研究室 弘昌

解析センターを知っていただく キャンペーン

スライド 1

Microsoft PowerPoint ppt

kubo2017sep16a p.1 ( 1 ) : : :55 kubo ( ( 1 ) / 10

スライド 1

スライド 1

Microsoft Word - HM-RAJ doc

ビジネス統計 統計基礎とエクセル分析 正誤表

PowerPoint プレゼンテーション

まず y t を定数項だけに回帰する > levelmod = lm(topixrate~1) 次にこの出力を使って先ほどのレジームスイッチングモデルを推定する 以下のように入力する > levelswmod = msmfit(levelmod,k=,p=0,sw=c(t,t)) ここで k はレジ

相関分析・偏相関分析

Microsoft Word - å“Ÿåłžå¸°173.docx

ファイナンスのための数学基礎 第1回 オリエンテーション、ベクトル

Microsoft PowerPoint - stat-2014-[9] pptx

OpRisk VaR3.2 Presentation

Microsoft PowerPoint - 時系列解析(11)_講義用.pptx

数値計算法

k2 ( :35 ) ( k2) (GLM) web web 1 :

Microsoft PowerPoint - statistics pptx

kubostat1g p. MCMC binomial distribution q MCMC : i N i y i p(y i q = ( Ni y i q y i (1 q N i y i, q {y i } q likelihood q L(q {y i } = i=1 p(y i q 1

1 環境統計学ぷらす 第 5 回 一般 ( 化 ) 線形混合モデル 高木俊 2013/11/21

DAA09

スライド 1

J1順位と得点者数の関係分析

Dependent Variable: LOG(GDP00/(E*HOUR)) Date: 02/27/06 Time: 16:39 Sample (adjusted): 1994Q1 2005Q3 Included observations: 47 after adjustments C -1.5

スライド 1

Excelにおける回帰分析(最小二乗法)の手順と出力

PowerPoint プレゼンテーション

横浜市環境科学研究所

kubostat7f p GLM! logistic regression as usual? N? GLM GLM doesn t work! GLM!! probabilit distribution binomial distribution : : β + β x i link functi

Microsoft PowerPoint - SDF2007_nakanishi_2.ppt[読み取り専用]

Microsoft Word - Time Series Basic - Modeling.doc

Medical3

青焼 1章[15-52].indd

(lm) lm AIC 2 / 1

最小二乗フィット、カイ二乗フィット、gnuplot

Microsoft PowerPoint - データ解析基礎4.ppt [互換モード]

統計学 - 社会統計の基礎 - 正規分布 標準正規分布累積分布関数の逆関数 t 分布正規分布に従うサンプルの平均の信頼区間 担当 : 岸 康人 資料ページ :

講義「○○○○」

はじめに Excel における計算式の入力方法の基礎 Excel では計算式を入力することで様々な計算を行うことができる 例えば はセルに =SQRT((4^2)/3+3*5-2) と入力することで算出される ( 答え ) どのような数式が使えるかは 数式

1 15 R Part : website:

Microsoft PowerPoint - statistics pptx

Excelによる統計分析検定_知識編_小塚明_1_4章.indd

自動車感性評価学 1. 二項検定 内容 2 3. 質的データの解析方法 1 ( 名義尺度 ) 2.χ 2 検定 タイプ 1. 二項検定 官能検査における分類データの解析法 識別できるかを調べる 嗜好に差があるかを調べる 2 点比較法 2 点識別法 2 点嗜好法 3 点比較法 3 点識別法 3 点嗜好

因子分析

Microsoft PowerPoint - LectureB1handout.ppt [互換モード]

2 散布図を書く意義 1) 視覚的にどんな関係かを考えることができる 2つの変数間の関係をどう表現するか 1 直線的関係 2 2 次関数 3 指数 対数 双曲線など 4 その他今回の授業では直線的関係についてしか学ばないが,2つの変数間の関係を曲線で表す方がよい場合も多い. 2) 異常値などを発見で

Microsoft PowerPoint - Statistics[B]

2 / 39

Microsoft PowerPoint slide2forWeb.ppt [互換モード]

<4D F736F F F696E74202D E738A5889BB8BE688E68A4F82CC926E89BF908492E882C98AD682B782E98CA48B862E707074>

簿記教育における習熟度別クラス編成 簿記教育における習熟度別クラス編成 濱田峰子 要旨 近年 学生の多様化に伴い きめ細やかな個別対応や対話型授業が可能な少人数の習熟度別クラス編成の重要性が増している そのため 本学では入学時にプレイスメントテストを実施し 国語 数学 英語の 3 教科については習熟

スライド 1

Microsoft PowerPoint - Econometrics pptx

CAEシミュレーションツールを用いた統計の基礎教育 | (株)日科技研

したがって このモデルではの長さをもつ潜在履歴 latent history が存在し 同様に と指標化して扱うことができる 以下では 潜在的に起こりうる履歴を潜在履歴 latent history 実際にデ ータとして記録された履歴を記録履歴 recorded history ということにする M

Transcription:

時系列データ解析でよく見る あぶない モデリング 久保拓弥 (北海道大 環境科学) 1/56

今日の要点 あぶない 時系列データ解析は やめましょう! 統計モデル のあてはめ (危 1) 時系列データの GLM あてはめ (危 2) 時系列Yt 時系列 Xt 各時刻の個体数 気温 とか

(危 1) 時系列データを GLM で

(危 2) 時系列Yt 時系列 Xt 相関は因果関係ではない 問題の一部 にせの回帰

見せかけの回帰 spurious regression ちょっとだけ実演してみます 5/56

時系列データの統計モデリング 安易に 回帰 してはいけない ランダムウォークモデルが基本 統計モデルが生成する時系列 パターンを意識する 階層ベイズモデルで推定 状態空間モデル 6/56

(危 1) 時系列データを GLM で

このような時系列データがあったとしましょう y y は何か連続値と しましょう (今日でてくる y は 連続値ばかり と いうことで) t 8/56

時系列データの統計モデリング入門 y glm(y ~ t) とモデル をあてはめてみた t 9/56

やったーゆーいだ!!?? > summary(glm(formula = y ~ t)) Deviance Residuals: Min 1Q Median -2.1295-1.0583-0.0817 3Q 0.9860 Max 2.0188 Coefficients: Estimate Std. Error t value Pr(> t ) (Intercept) -414.5655 71.4761-5.80 6.6e-06 t 0.2339 0.0357 6.55 1.1e-06 これはまちがい glm(時系列y ~ 時間 t) 10/56

時系列の各点は独立ではない ゆーいな傾き (偽 が ぞろぞろ でます 傾きの検定やめて AIC モデル選択 しても同様になる 検定とかモデル選択とかそういう問題ではない 統計モデルがおかしい? 11/56

時系列の ずれ GLM のずれ ずれかたが ちがってる? 12/56

時系列の ずれ GLM のずれ 直線からのずれがちがう! 時間的自己相関がある 時間的自己相関がない 13/56

時系列の基本モデルのひとつ ランダムウォーク (乱歩)

変数 Y Y1 Y1 Y1 ランダムウォーク もっとも単純な モデル 正規分布 Y2 Y2 Y3 時間 t 15/56

ランダムウォークなサンプル時系列 とりあえず 1000 本ほど生成してみました 長さ 100 16/56

例外的な時系列というのはありえる たとえば t = 100 でかなり外れている 50 本 めったにない ランダムウォーク?? 17/56

しかし直線回帰 GLM あてはめると ほとんどすべての場合で ゆーい! 統計モデルがおかしい 時間 t を説明変数とする GLM はダメそう 18/56

ちょっとでも傾いてたら ゆーい 各データ点が 独立ではない 実際には こんなデータ なのに 情報が少ない R の glm() は こんなデータ だとみなしている 情報が多い 19/56

時間的自己相関 (略称:自己相関 時間相関) を調べたらいいの?

R の ts クラス: 時系列をあつかう plot(ts(y)) これはたんなる 100 個の正規乱数 plot(acf(ts(y))) 自己相関ない 21/56

自己相関減衰の様子を図示 plot(ts(y)) plot(acf(ts(y))) 自己相関あり 22/56

変数 Y 時間相関がある とは? Y1 Y1 Y1 と は 似ている! 正規分布 Y2 Y2 Y3 時間 t 23/56

時間的自己相関 はいつも役にたつわけではない?

各点独立のデータをナナメにすると? plot(ts(y)) これを ナナメに したもの なんだけど plot(acf(ts(y))) 自己相関あり え? 25/56

各点独立のデータをナナメにすると? plot(ts(y)) これを ナナメに したもの plot(acf(ts(y))) 自己相関あり 26/56

自己相関係数みても区別がつかない 傾向のある変化 を推定する手段がない (これは下とは区別つくけど) 統計モデル を選べないから 27/56

変数 Y Y1 Y1 Y1 ランダムウォーク もっとも単純な モデル 正規分布 Y2 Y2 Y3 時間 t 28/56

時系列データの 差分 をみよう 自己相関係数もいいけど差分を調べるのが基本 29/56

状態空間モデルでたちむかう 時系列データ解析 いろいろな時系列データを 統一的にあつかえないか?

統計モデル とは何か? どんな統計解析においても 統計モデルが使用されている 観察によってデータ化された現象を説 明するために作られる 確率分布が基本的な部品であり これ はデータにみられるばらつきを表現す る手段である データとモデルを対応づける手つづき が準備されていて モデルがデータに どれぐらい良くあてはまっているかを 定量的に評価できる 31/56

統計モデル のしくみを理解しよう! もうすこし わかった ような気分? 種子数の平均値はサイズ x と 種子数 ともに増大する どのように変化するのか? 数式で書くとどうなる? 平均値が増大するとばらつきが 変化する どのようにばらつくのか? 確率分布? 体サイズ 統計モデルをデータにうまくあてはめる どのようにあてはめるのが妥当なのか? パラメーター推定法? 32/56

時系列データ解析の教科書 ねえ モデルがあれこれ多すぎる 経済学よりのモデルばかり なんでも正規分布 なんとかならないかな? 状態空間モデル どうでしょう? 33/56

変数 Y Y1 Y1 Y1 ランダムウォーク もっとも単純な モデル 正規分布 Y2 Y2 Y3 時間 t 34/56

状態空間モデル 観測の誤差 二種類のσをもつ 観測データ Y1 y1 Y2 y2 Y3 y3 状態変数の変化 y4 時間 t 観測できない世界 (状態空間) 35/56

大 小 小 大 36/56

大 小 傾き も追加 37/56

小 大 傾き も追加 38/56

状態空間モデル + GLM この部分にポアソン分布や 二項分布をいれる 39/56

状態空間モデル + GLM 他にも季節変動などを 入れることができます 今日は 省略 すみません 40/56

階層ベイズモデルとは? 多数の 似たようなパラメーター たちに 適切 な制約を加えて推定できる 全データ 個体 33 のデータ のデータ 個体 個体 33 のデータ のデータ 時刻 時刻 2 のデータ 時刻 1 のデータ {y1, y2, y3,..., y100} 局所的パラメータ 大域的パラメータ 一定の時間変化 時系列のばらつき (たくさんの時点 個体 調査地 ) 41/56

どうやてモデルをあてはめる? R の状態空間モデルの package いろいろある library(dlm) 伊東さんが library(kfas) 紹介 しかしより一般化したモデルに ついての理解が必要かも 42/56

たとえば JAGS で BUGS 言語でこの単純な 階層ベイズモデルを記述できる 43/56

model { Tau.Noninformative < 0.0001 Y[1] ~ dnorm(y[1], tau[2]) y[1] ~ dnorm(0, Tau.Noninformative) for (t in 2:N.Y) { Y[t] ~ dnorm(y[t], tau[2]) y[t] ~ dnorm(m[t], tau[1]) m[t] < delta + y[t 1] } delta ~ dnorm(0, Tau.Noninformative) for (k in 1:2) { tau[k] < 1 / (s[k] * s[k]) s[k] ~ dunif(0, 10000) } } 44/56

1000 個の架空データを推定 いろいろなランダムウォークが生成される 状態空間モデルのパラメーター推定は成功するか? 45/56

状態空間モデルを かたむきゼロ ランダムウォーク な架空データにあてはめる 小 大

傾き δの事後分布を見る 1000回中 63回ずれた 真のδは 0 横線は 95%区間 47/56

状態空間モデルを かたむきあり ランダムウォーク な架空データにあてはめる 大 小 小 大

傾き δの事後分布を見る 1000回中 1回ずれた 真のδは 1 横線は 95%区間 49/56

傾き δの事後分布を見る 1000回中 62回ずれた 真のδは 1 横線は 95%区間 50/56

とりあえずの結論 ひとつの状態空間 モデルを使って 右の4状態は 区別可能でしょう 51/56

(危 2) 時系列データ Xt と 時系列データ Yt Yt~ Xt なうたがわしい回帰 spurious regression

Grenger 因果??? 時系列データ解析の 教科書にはよく登場する 複数の時系列感の 相関 を調べる方法 あまり生態学の役には立たないかも 53/56

おわりに

時間的な相関はデータの 情報量を減少させる 空間相関も 時系列の ずれ GLM のずれ 55/56

時系列データの統計モデリング 安易に 回帰 してはいけない ランダムウォークモデルが基本 統計モデルが生成する時系列 パターンを意識する 階層ベイズモデルで推定 状態空間モデル 56/56