Microsoft PowerPoint - GLMMexample_ver pptx

Similar documents
1 環境統計学ぷらす 第 5 回 一般 ( 化 ) 線形混合モデル 高木俊 2013/11/21

> usdata01 と打ち込んでエンター キーを押すと V1 V2 V : : : : のように表示され 読み込まれていることがわかる ここで V1, V2, V3 は R が列のデータに自 動的につけた変数名である ( variable

講義のーと : データ解析のための統計モデリング. 第5回

一般化線形 (混合) モデル (2) - ロジスティック回帰と GLMM

多変量解析 ~ 重回帰分析 ~ 2006 年 4 月 21 日 ( 金 ) 南慶典

まず y t を定数項だけに回帰する > levelmod = lm(topixrate~1) 次にこの出力を使って先ほどのレジームスイッチングモデルを推定する 以下のように入力する > levelswmod = msmfit(levelmod,k=,p=0,sw=c(t,t)) ここで k はレジ

3 HLM High School and Beyond HLM6 HLM6 C: Program Files HLM6S 2 C: Program MATHACH Files HLM6S Examples AppendxA school SECTOR Socio-Economic

講義のーと : データ解析のための統計モデリング. 第3回

kubostat2017j p.2 CSV CSV (!) d2.csv d2.csv,, 286,0,A 85,0,B 378,1,A 148,1,B ( :27 ) 10/ 51 kubostat2017j (

切片 ( 定数項 ) ダミー 以下の単回帰モデルを考えよう これは賃金と就業年数の関係を分析している : ( 賃金関数 ) ここで Y i = α + β X i + u i, i =1,, n, u i ~ i.i.d. N(0, σ 2 ) Y i : 賃金の対数値, X i : 就業年数. (

今回 次回の要点 あぶない 時系列データ解析は やめましょう! 統計モデル のあてはめ Danger!! (危 1) 時系列データの GLM あてはめ (危 2) 時系列Yt 時系列 Xt 各時刻の個体数 気温 とか これは次回)

kubostat2017c p (c) Poisson regression, a generalized linear model (GLM) : :

スライド 1

J1順位と得点者数の関係分析

スライド 1

今日の要点 あぶない 時系列データ解析は やめましょう! 統計モデル のあてはめ (危 1) 時系列データの GLM あてはめ (危 2) 時系列Yt 時系列 Xt 各時刻の個体数 気温 とか

k2 ( :35 ) ( k2) (GLM) web web 1 :

Phys1_03.key

/ 60 : 1. GLM? 2. A: (pwer functin) x y?

Microsoft PowerPoint - 資料04 重回帰分析.ppt

Microsoft Word - 配布用新統計 備忘録 doc

BIC32_B6web用PDF台紙.indd

様々なミクロ計量モデル†

1 15 R Part : website:

日心TWS

微分方程式による現象記述と解きかた

60 (W30)? 1. ( ) 2. ( ) web site URL ( :41 ) 1/ 77

201711grade2.pdf

Microsoft PowerPoint - 統計科学研究所_R_重回帰分析_変数選択_2.ppt

Dependent Variable: LOG(GDP00/(E*HOUR)) Date: 02/27/06 Time: 16:39 Sample (adjusted): 1994Q1 2005Q3 Included observations: 47 after adjustments C -1.5

GLM PROC GLM y = Xβ + ε y X β ε ε σ 2 E[ε] = 0 var[ε] = σ 2 I σ 2 0 σ 2 =... 0 σ 2 σ 2 I ε σ 2 y E[y] =Xβ var[y] =σ 2 I PROC GLM

Use R

dae opixrae 1 Feb Mar Apr May Jun と表示される 今 必要なのは opixrae のデータだけなので > opixrae=opixdaa$opi

1 Stata SEM LightStone 3 2 SEM. 2., 2,. Alan C. Acock, Discovering Structural Equation Modeling Using Stata, Revised Edition, Stata Press.

1 Stata SEM LightStone 4 SEM 4.. Alan C. Acock, Discovering Structural Equation Modeling Using Stata, Revised Edition, Stata Press 3.

Microsoft PowerPoint - e-stat(OLS).pptx

kubostat7f p GLM! logistic regression as usual? N? GLM GLM doesn t work! GLM!! probabilit distribution binomial distribution : : β + β x i link functi

2 / 39

Microsoft PowerPoint - R-stat-intro_04.ppt [互換モード]

回帰分析 単回帰

フィルタとは

Z...QXD (Page 1)

Microsoft PowerPoint - R-stat-intro_12.ppt [互換モード]

4STEP 数学 Ⅲ( 新課程 ) を解いてみた関数 1 微分法 1 微分係数と導関数微分法 2 導関数の計算 272 ポイント微分法の公式を利用 (1) ( )( )( ) { } ( ) ( )( ) ( )( ) ( ) ( )( )

第 3 回講義の項目と概要 統計的手法入門 : 品質のばらつきを解析する 平均と標準偏差 (P30) a) データは平均を見ただけではわからない 平均が同じだからといって 同一視してはいけない b) データのばらつきを示す 標準偏差 にも注目しよう c) 平均

情報工学概論

統計的データ解析

kubostat2015e p.2 how to specify Poisson regression model, a GLM GLM how to specify model, a GLM GLM logistic probability distribution Poisson distrib

k3 ( :07 ) 2 (A) k = 1 (B) k = 7 y x x 1 (k2)?? x y (A) GLM (k

Microsoft Word - ミクロ経済学02-01費用関数.doc

ファイナンスのための数学基礎 第1回 オリエンテーション、ベクトル

横浜市環境科学研究所

% 10%, 35%( 1029 ) p (a) 1 p 95% (b) 1 Std. Err. (c) p 40% 5% (d) p 1: STATA (1). prtesti One-sample test of pr

現代日本論演習/比較現代日本論研究演習I「統計分析の基礎」

プログラミング基礎

タイトルを修正 軸ラベルを挿入グラフツール デザイン グラフ要素を追加 軸ラベル 第 1 横 ( 縦 ) 軸 凡例は削除 横軸は, 軸の目盛範囲の最小値 最 大値を手動で設定して調整 図 2 散布図の仕上げ見本 相関係数の計算 散布図を見ると, 因果関係はともかく, 人口と輸送量の間には相関関係があ

と入力する すると最初の 25 行が表示される 1 行目は変数の名前であり 2 列目は企業番号 (1,,10),3 列目は西暦 (1935,,1954) を表している ( 他のパネルデータを分析する際もデ ータをこのように並べておかなくてはならない つまりまず i=1 を固定し i=1 の t に関

第2回 複数の誤差を持つ実験データ

1

_KyoukaNaiyou_No.4

13章 回帰分析

C プログラミング演習 1( 再 ) 2 講義では C プログラミングの基本を学び 演習では やや実践的なプログラミングを通して学ぶ

(lm) lm AIC 2 / 1

Microsoft PowerPoint - Econometrics

kubostat2017e p.1 I 2017 (e) GLM logistic regression : : :02 1 N y count data or

1

Chapter 1 Epidemiological Terminology

電磁波レーダ法による比誘電率分布(鉄筋径を用いる方法)およびかぶりの求め方(H19修正)

0.0 Excelファイルの読み取り専用での立ち上げ手順 1) 開示 Excelファイルの知的所有権について開示する数値解析の説明用の Excel ファイルには 改変ができないようにパスワードが設定してあります しかし 読者の方には読み取り用のパスワードを開示しますので Excel ファイルを読み取

untitled

Microsoft Word - mstattext02.docx

Microsoft PowerPoint - prog03.ppt

航空機の運動方程式

消費 統計学基礎実習資料 2017/11/27 < 回帰分析 > 1. 準備 今回の実習では あらかじめ河田が作成した所得と消費のファイルを用いる 課題 19 統計学基礎の講義用 HP から 所得と消費のファイルをダウンロードしてみよう 手順 1 検索エンジンで 河田研究室 と入力し検索すると 河田

0 部分的最小二乗回帰 Partial Least Squares Regression PLS 明治大学理 学部応用化学科 データ化学 学研究室 弘昌

4名連記 P1-21

1.中山&内田 P1-9


発表の流れ 1. 回帰分析とは? 2. 単回帰分析単回帰分析とは? / 単回帰式の算出 / 単回帰式の予測精度 <R による演習 1> 3. 重回帰分析重回帰分析とは? / 重回帰式の算出 / 重回帰式の予測精度 質的変数を含む場合の回帰分析 / 多重共線性の問題 変数選択の基準と方法 <R による

Microsoft Word - BMDS_guidance pdf_final

Microsoft PowerPoint - システム創成学基礎2.ppt [互換モード]

以下 変数の上のドットは時間に関する微分を表わしている (ex. 2 dx d x x, x 2 dt dt ) 付録 E 非線形微分方程式の平衡点の安定性解析 E-1) 非線形方程式の線形近似特に言及してこなかったが これまでは線形微分方程式 ( x や x, x などがすべて 1 次で なおかつ

2

Rの基本操作

1

広報さっぽろ 2016年8月号 厚別区

< 染色体地図 : 細胞学的地図 > 組換え価を用いることで連鎖地図を書くことができる しかし この連鎖地図はあくまで仮想的なものであって 実際の染色体と比較すると遺伝子座の順序は一致するが 距離は一致しない そこで実際の染色体上での遺伝子の位置を示す細胞学的地図が作られた 図 : 連鎖地図と細胞学

…好きです 解説

1 対 1 対応の演習例題を解いてみた 微分法とその応用 例題 1 極限 微分係数の定義 (2) 関数 f ( x) は任意の実数 x について微分可能なのは明らか f ( 1, f ( 1) ) と ( 1 + h, f ( 1 + h)

1.民営化

MedicalStatisticsForAll.indd


好きですまえばし


<4D F736F F D208CF68BA48C6F8DCF8A C30342C CFA90B68C6F8DCF8A7782CC8AEE967B92E8979D32288F4390B394C529332E646F63>

A

2

PowerPoint プレゼンテーション

untitled

untitled

Transcription:

Linear Mixed Model ( 以下 混合モデル ) の短い解説 この解説のPDFは http://www.lowtem.hokudai.ac.jp/plantecol/akihiro/sumida-index.html の お勉強 のページにあります. ver 20121121

と との間に次のような関係が見つかったとしよう

全体的な傾向に対する回帰直線を点線で示した

ところが これらのデータは実は異なる 5 つの調査地からとったものだった

全データを使った回帰直線 ( 点線 ) は 特定の調査地内の傾向を表していないように見える

実際 個々の調査地ごとのデータを使って計算した調査地別の回帰直線 ( 色つき実線 ) は 全調査地データの回帰直線 ( 点線 ) と傾きが異なる すなわち 全調査地のデータをプールした回帰直線は 個々の調査地内の傾向を表現していない ここで知りたい事は 任意の調査地が与えられたときにその内部で x-y 関係がどうなるか という事である

もちろん 個々の調査地内の傾向は 調査地ごとに回帰関係を調べて表現すればすむことである しかし 複数の調査地のデータ全体から 各々の調査地内の傾向がどのようであるかについて 何か一般的な傾向を導きたい 個々の調査地内の関係にはあまり興味ない ここで知りたい事は 任意の調査地が与えられたときにその内部で x-y 関係がどうなるか という事である

そこで R のパッケージ lme4 の線形混合モデル用関数 lmer をつかった混合モデル解析をやってみよう (R に興味のない人は説明文だけ読んでください ) # R の画面上での混合モデルの計算命令の例 ( 式の見方 ) mixedm <- lmer( y ~ x + (x Site), data ) 計算結果を 'mixedm' という変数名で保存する という意味 データ y とデータ x の線形関係を データ x,y が属する Site ごとに処理する という指定 'data' はデータをいれたファイル名 この例の場合, 全サイトのデータから回帰の切片や傾きが決まるが それで決められた切片や傾きは調査地 (Site) ごとにランダムに変動する, と設定したモデルにしている. このランダム効果が入っているところが 混合モデル

調査地 "Site" をランダム効果にして混合モデルをやってみる 固定効果 (fixed effects) ランダム効果 (random effects) とは? y = (a Fixed + a Randome_by_site ) + (b Fixed + b Random_by_site ) x 上の式は 回帰式を次のようなモデルに設定している 固定効果で決められる回帰の切片や傾きは すべての調査地で共通している 一方 各調査地の切片や傾きは 調査ごとに決まるランダムな変動が固定効果で決められる切片や傾きに加わることによって決まる y = ( 固定効果の切片 + 調査地ごとのランダムな切片の変動 ) +( 固定効果の傾き + 調査地ごとのランダムな傾きの変動 ) x すなわち 各係数に固定効果とランダム効果が入るのが混合モデル 例 ) 混合モデル解析の結果 固定効果 Fixed effects だけを表記した例 y = 62.80 + 1.04 x 固定効果の切片 固定効果の傾き これに対し 各調査地の切片と傾きは 固定効果 + ランダム効果の両方を使って y = (62.80 + 調査地ごとのランダムな切片の変動 )+(1.04 + 調査地ごとのランダムな傾きの変動 ) 例 ) 調査地 3( 緑の点と回帰直線 ) の場合 y = ( 62.80 + 5.12 )+( 1.04 + 0.12) x = 67.92 + 1.16 x 調査地 3の切片の変動 調査地 3の傾きの変動 調査地 3の回帰直線 x

調査地 "Site" をランダム効果にして混合モデルをやってみる mixedm <- lmer( y ~ x + (x Site), data )# 'data' はデータをいれたファイル名 # R で データ x を Site ごとに処理する という意味 > summary( mixedm ) # [R] の出力 : Linear mixed model fit by REML Formula: y ~ x + (x Site) Data: data AIC BIC loglik deviance REMLdev 895 910.6-441.5 886 883 Random effects: Groups Name Variance Std.Dev. Corr Site (Intercept) 1.1714e+03 34.22531 x 8.4108e-03 0.09171 0.331 Residual 3.2439e+02 18.01079 Number of obs: 100, groups: Site, 5 Fixed effects: Estimate Std. Error t value 固定効果 Fixed effects; y = 62.80 + 1.04 x (Intercept) 62.79701 15.57403 4.032 x 1.04113 0.05134 20.278 # 解説は次のスライドに Correlation of Fixed Effects: (Intr) x 0.315 ここは読み飛ばしてもかまいません このモデルは, 回帰の切片や傾きは調査地ごとにランダムに変動する, と設定したモデルにしている. ランダム効果 random effects; ここでは切片および傾きがサイト間でどれだけばらついていたか という情報だけが出力される

混合モデルの結果の固定効果 Fixed Effects のパラメタだけを使った回帰直線 固定効果 Fixed effects; y = 62.80 + 1.04 x

# ランダム効果 Random effect の出力について : ここは読み飛ばしてもかまいません mixedm <- lmer(y ~ x + (x Site), data ) # 線形混合モデルの例, つづき # 線形混合モデルの結果から固定効果の回帰パラメターを取り出す方法 ALLA <- fixef(mixedm)[1] # 回帰の切片をALLAという名で保存 ; ALLA= 62.80 # 前の "GLMM の出力のスライド参照 " ALLB <- fixef(mixedm)[2] # 回帰の傾きをALLBという名で保存 ; ALLB = 1.04 固定効果 Fixed effects は y = 62.80 + 1.04 x > ranef(mixedm) # 各サイトごとのランダム効果パラメタの出力のさせかた : $Site # これらに固定効果の切片や傾きを足すと各調査地の値になる (Intercept) x(= 傾きの変動 ) 1-43.242669-0.082590168 2-21.029597-0.012001706 各調査地の回帰直線パラメタ = 3 5.121477 0.119677319 固定効果のパラメタ ( 青 ) + ランダム効果のパラメタ ( 茶 ) 4 14.748137-0.008703391 5 44.402652-0.016382055 調査地番号 # 結果の読み取り方の例 ; たとえば調査地 3 の場合, AA <- ALLA + ranef(mixedm)$site[3, 1] # 切片 AA = 62.80 + 5.12 = 67.92 BB <- ALLB + ranef(mixedm)$site[3, 2] # 傾き BB = 1.04 + 0.12 = 1.16 よって調査地 3 の場合, y = 67.92 + 1.16 x

固定効果のパラメタと 調査地ごとのランダム効果のパラメタの両方から計算した 5 つの調査地の回帰直線 ; 緑の線が調査地 3 固定効果 Fixed effects; y = 62.80 + 1.04 x 調査地 3 の場合, y = 67.92 + 1.16 x 調査地 3 の場合, y = ( 62.80 + 5.12) + (1.04 + 0.12 ) x

固定効果の回帰直線 ( 黒実線 ) および ランダム効果の結果も考慮した各調査地の回帰直線 ( 点線 ) 固定効果 Fixed effects; y = 62.80 + 1.04 x 調査地 3 の場合, y = 67.92 + 1.16 x 調査地 3 の場合, y = ( 62.80 + 5.12) + (1.04 + 0.12 ) x

固定効果の回帰直線 ( 黒実線 ) および ランダム効果の結果も考慮した各調査地の回帰直線 ( 点線 ) 固定効果 Fixed effects; y = 62.80 + 1.04 x 調査地 3 の場合, y = 67.92 + 1.16 x 固定効果による回帰直線 ( 黒実線 ) は 任意の調査地の中での x-y 関係を代表的に表している ただし調査地間では回帰の切片や傾きがランダムにばらつく

混合モデルの結果が何を意味するのかを理解するため 再度 最初の図にもどってみる ここで 全調査地のデータをプールした回帰直線 ( 点線 ) と混合モデルの固定効果による回帰直線 ( 実線 ) を比べてみよう 全調査地のデータをプールした回帰直線 ( 点線 ) は 1 つの調査地の中での傾向を考慮していないことを説明した すなわち

混合モデルの結果が何を意味するのかを理解するため 再度 最初の図にもどってみる ここで 全調査地のデータをプールした回帰直線 ( 点線 ) と混合モデルの固定効果による回帰直線 ( 実線 ) を比べてみよう 混合モデルの固定効果による結果は 1 つの調査地が与えられたとき その調査地内部での傾向を代表的に表しているのであって 全データをプールした時の傾向を表しているのではない

ちなみに この例では 混合モデルの結果から計算した各調査地の回帰直線 ( 点線 ) は 個々の調査地ごとに計算した回帰直線 ( 実線 ) と非常によく合っていた

まとめ ランダム効果を考慮しないで全調査値のデータをプールした回帰は 個々の調査地の中での傾向をうまく表すことができなかった 今回の例では 調査地をランダム効果とする混合モデルで取り扱った この混合モデルでは, 調査地間で回帰の切片や傾きがランダムに変動すると仮定したモデルにした. 混合モデルを使うと 1 つの調査地の内部での代表的な傾向を知ることができるばかりでなく ランダム効果の出力から 調査地間でその関係がどれくらいばらつくかを同時に知る事ができる

おまけ > summary( mixedm ) # [R] の出力 : Linear mixed model fit by REML Formula: y ~ x + (x Site) Data: data AIC BIC loglik deviance REMLdev 895 910.6-441.5 886 883 Random effects: Groups Name Variance Std.Dev. Corr Site (Intercept) 1.1714e+03 34.22531 x 8.4108e-03 0.09171 0.331 Residual 3.2439e+02 18.01079 Number of obs: 100, groups: Site, 5 ( 以下省略 ) (1) 調査地ごとに回帰させるモデル mixedm <- lmer(y ~ x + (x Site) ) 混合モデルの出力は, 各調査地のランダム効果の切片 (intercept) と傾き (x) との間に弱い相関 (Corr; 相関係数 0.331) があることを示している. つまり, 調査地の間で, 切片と傾きとは完全に独立ではない. 強い相関がある場合は over-parametarization( パラメタが多すぎ ) の状態なので, 切片あるいは傾きのどちらかのみをランダム効果に入れる. わざと切片と傾きとが独立に決まるように指定させたりもできる. いろいろな指定の仕方 (2) 調査地ごとに切片だけランダム効果にし, 傾きは固定させるモデル mixedm <- lmer(y ~ x + (1 Site) ) (3) 調査地ごとに傾きだけランダム効果にし, 切片は固定させるモデル mixedm <- lmer(y ~ x +(0 + x Site) ) # ほとんど無意味のような (4) 調査地ごとに傾きと切片とが独立に決まるようなランダム効果にするモデル mixedm <- lmer(y ~ x + (1 Site)+(0 + x Site) )

方法の比較 : 今回のデータの場合,(4) と (1) のモデルの結果はほとんど同じでした Linear mixed model fit by REML Formula: y ~ x + (1 Site) + (0 + x Site) Data: data AIC BIC loglik deviance REMLdev 893.2 906.3-441.6 886.4 883.2 Random effects: Groups Name Variance Std.Dev. Site (Intercept) 1.1383e+03 33.738746 Site x 8.0854e-03 0.089919 Residual 3.2485e+02 18.023617 Number of obs: 100, groups: Site, 5 Linear mixed model fit by REML Formula: y ~ x + (x Site) Data: data AIC BIC loglik deviance REMLdev 895 910.6-441.5 886 883 Random effects: Groups Name Variance Std.Dev. Corr Site (Intercept) 1.1714e+03 34.22531 x 8.4108e-03 0.09171 0.331 Residual 3.2439e+02 18.01079 Number of obs: 100, groups: Site, 5 Fixed effects: Estimate Std. Error t value (Intercept) 62.16809 15.35577 4.049 x 1.04128 0.05073 20.527 Correlation of Fixed Effects: (Intr) x 0.055 > ranef(mixedm) $Site (Intercept) x 1-43.180225-0.070578239 2-20.449339-0.004854395 3 5.511935 0.119333296 4 14.942348-0.013794757 5 43.175281-0.030105905 Fixed effects: Estimate Std. Error t value (Intercept) 62.79701 15.57403 4.032 x 1.04113 0.05134 20.278 Correlation of Fixed Effects: (Intr) x 0.315 > ranef(mixedm) $Site (Intercept) x 1-43.242669-0.082590168 2-21.029597-0.012001706 3 5.121477 0.119677319 4 14.748137-0.008703391 5 44.402652-0.016382055

方法の比較 : 今回のデータの場合,(2) と (1) のモデルの結果もほとんど同じでした Linear mixed model fit by REML Formula: y ~ x + (1 Site) Data: data AIC BIC loglik deviance REMLdev 893.8 904.2-442.9 888.1 885.8 Random effects: Groups Name Variance Std.Dev. Site (Intercept) 1311.87 36.220 Residual 346.03 18.602 Number of obs: 100, groups: Site, 5 Linear mixed model fit by REML Formula: y ~ x + (x Site) Data: data AIC BIC loglik deviance REMLdev 895 910.6-441.5 886 883 Random effects: Groups Name Variance Std.Dev. Corr Site (Intercept) 1.1714e+03 34.22531 x 8.4108e-03 0.09171 0.331 Residual 3.2439e+02 18.01079 Number of obs: 100, groups: Site, 5 Fixed effects: Estimate Std. Error t value (Intercept) 61.44680 16.36613 3.75 x 1.04125 0.03195 32.59 Correlation of Fixed Effects: (Intr) x 0.088 > ranef(mixedm) $Site (Intercept) 1-46.3475043 2-19.7849487 3 0.9295587 4 16.9620060 5 48.2408883 Fixed effects: Estimate Std. Error t value (Intercept) 62.79701 15.57403 4.032 x 1.04113 0.05134 20.278 Correlation of Fixed Effects: (Intr) x 0.315 > ranef(mixedm) $Site (Intercept) x 1-43.242669-0.082590168 2-21.029597-0.012001706 3 5.121477 0.119677319 4 14.748137-0.008703391 5 44.402652-0.016382055

おまけのおまけのきしゃぽっぽ この解説に使用したデータは, 全調査地のデータをプールした回帰の傾きと各調査地の回帰の傾きが違うようにするため, 各調査地の の値の平均値を 50 ずつずらしてつくったものです. 実際にこのようなデータを得たら, 各調査地ごとの回帰の切片とその調査地の の平均値との間に相関がある ( の平均値が小さいほど切片は大きくなる ), というモデルをまずやってみるのが普通でしょう. その場合には混合モデルは必要ありません. この解説では, 混合モデルがどんなものかを示すために, 混合モデル関数を使ってみました. ぽっぽー