Microsoft PowerPoint - GLMMexample_ver pptx

Linear Mixed Model ( 以下混合モデル ) の短い解説この解説のPDFは http://www.lowtem.hokudai.ac.jp/plantecol/akihiro/sumida-index.html のお勉強のページにあります. ver 20121121

ととの間に次のような関係が見つかったとしよう

全体的な傾向に対する回帰直線を点線で示した

ところがこれらのデータは実は異なる 5 つの調査地からとったものだった

全データを使った回帰直線 ( 点線 ) は特定の調査地内の傾向を表していないように見える

実際個々の調査地ごとのデータを使って計算した調査地別の回帰直線 ( 色つき実線 ) は全調査地データの回帰直線 ( 点線 ) と傾きが異なるすなわち全調査地のデータをプールした回帰直線は個々の調査地内の傾向を表現していないここで知りたい事は任意の調査地が与えられたときにその内部で x-y 関係がどうなるかという事である

もちろん個々の調査地内の傾向は調査地ごとに回帰関係を調べて表現すればすむことであるしかし複数の調査地のデータ全体から各々の調査地内の傾向がどのようであるかについて何か一般的な傾向を導きたい個々の調査地内の関係にはあまり興味ないここで知りたい事は任意の調査地が与えられたときにその内部で x-y 関係がどうなるかという事である

そこで R のパッケージ lme4 の線形混合モデル用関数 lmer をつかった混合モデル解析をやってみよう (R に興味のない人は説明文だけ読んでください ) # R の画面上での混合モデルの計算命令の例 ( 式の見方 ) mixedm <- lmer( y ~ x + (x Site), data ) 計算結果を 'mixedm' という変数名で保存するという意味データ y とデータ x の線形関係をデータ x,y が属する Site ごとに処理するという指定 'data' はデータをいれたファイル名この例の場合, 全サイトのデータから回帰の切片や傾きが決まるがそれで決められた切片や傾きは調査地 (Site) ごとにランダムに変動する, と設定したモデルにしている. このランダム効果が入っているところが混合モデル

調査地 "Site" をランダム効果にして混合モデルをやってみる固定効果 (fixed effects) ランダム効果 (random effects) とは? y = (a Fixed + a Randome_by_site ) + (b Fixed + b Random_by_site ) x 上の式は回帰式を次のようなモデルに設定している固定効果で決められる回帰の切片や傾きはすべての調査地で共通している一方各調査地の切片や傾きは調査ごとに決まるランダムな変動が固定効果で決められる切片や傾きに加わることによって決まる y = ( 固定効果の切片 + 調査地ごとのランダムな切片の変動 ) +( 固定効果の傾き + 調査地ごとのランダムな傾きの変動 ) x すなわち各係数に固定効果とランダム効果が入るのが混合モデル例 ) 混合モデル解析の結果固定効果 Fixed effects だけを表記した例 y = 62.80 + 1.04 x 固定効果の切片固定効果の傾きこれに対し各調査地の切片と傾きは固定効果 + ランダム効果の両方を使って y = (62.80 + 調査地ごとのランダムな切片の変動 )+(1.04 + 調査地ごとのランダムな傾きの変動 ) 例 ) 調査地 3( 緑の点と回帰直線 ) の場合 y = ( 62.80 + 5.12 )+( 1.04 + 0.12) x = 67.92 + 1.16 x 調査地 3の切片の変動調査地 3の傾きの変動調査地 3の回帰直線 x

調査地 "Site" をランダム効果にして混合モデルをやってみる mixedm <- lmer( y ~ x + (x Site), data )# 'data' はデータをいれたファイル名 # R でデータ x を Site ごとに処理するという意味 > summary( mixedm ) # [R] の出力 : Linear mixed model fit by REML Formula: y ~ x + (x Site) Data: data AIC BIC loglik deviance REMLdev 895 910.6-441.5 886 883 Random effects: Groups Name Variance Std.Dev. Corr Site (Intercept) 1.1714e+03 34.22531 x 8.4108e-03 0.09171 0.331 Residual 3.2439e+02 18.01079 Number of obs: 100, groups: Site, 5 Fixed effects: Estimate Std. Error t value 固定効果 Fixed effects; y = 62.80 + 1.04 x (Intercept) 62.79701 15.57403 4.032 x 1.04113 0.05134 20.278 # 解説は次のスライドに Correlation of Fixed Effects: (Intr) x 0.315 ここは読み飛ばしてもかまいませんこのモデルは, 回帰の切片や傾きは調査地ごとにランダムに変動する, と設定したモデルにしている. ランダム効果 random effects; ここでは切片および傾きがサイト間でどれだけばらついていたかという情報だけが出力される

混合モデルの結果の固定効果 Fixed Effects のパラメタだけを使った回帰直線固定効果 Fixed effects; y = 62.80 + 1.04 x

# ランダム効果 Random effect の出力について : ここは読み飛ばしてもかまいません mixedm <- lmer(y ~ x + (x Site), data ) # 線形混合モデルの例, つづき # 線形混合モデルの結果から固定効果の回帰パラメターを取り出す方法 ALLA <- fixef(mixedm)[1] # 回帰の切片をALLAという名で保存 ; ALLA= 62.80 # 前の "GLMM の出力のスライド参照 " ALLB <- fixef(mixedm)[2] # 回帰の傾きをALLBという名で保存 ; ALLB = 1.04 固定効果 Fixed effects は y = 62.80 + 1.04 x > ranef(mixedm) # 各サイトごとのランダム効果パラメタの出力のさせかた : $Site # これらに固定効果の切片や傾きを足すと各調査地の値になる (Intercept) x(= 傾きの変動 ) 1-43.242669-0.082590168 2-21.029597-0.012001706 各調査地の回帰直線パラメタ = 3 5.121477 0.119677319 固定効果のパラメタ ( 青 ) + ランダム効果のパラメタ ( 茶 ) 4 14.748137-0.008703391 5 44.402652-0.016382055 調査地番号 # 結果の読み取り方の例 ; たとえば調査地 3 の場合, AA <- ALLA + ranef(mixedm)$site[3, 1] # 切片 AA = 62.80 + 5.12 = 67.92 BB <- ALLB + ranef(mixedm)$site[3, 2] # 傾き BB = 1.04 + 0.12 = 1.16 よって調査地 3 の場合, y = 67.92 + 1.16 x

固定効果のパラメタと調査地ごとのランダム効果のパラメタの両方から計算した 5 つの調査地の回帰直線 ; 緑の線が調査地 3 固定効果 Fixed effects; y = 62.80 + 1.04 x 調査地 3 の場合, y = 67.92 + 1.16 x 調査地 3 の場合, y = ( 62.80 + 5.12) + (1.04 + 0.12 ) x

固定効果の回帰直線 ( 黒実線 ) およびランダム効果の結果も考慮した各調査地の回帰直線 ( 点線 ) 固定効果 Fixed effects; y = 62.80 + 1.04 x 調査地 3 の場合, y = 67.92 + 1.16 x 調査地 3 の場合, y = ( 62.80 + 5.12) + (1.04 + 0.12 ) x

固定効果の回帰直線 ( 黒実線 ) およびランダム効果の結果も考慮した各調査地の回帰直線 ( 点線 ) 固定効果 Fixed effects; y = 62.80 + 1.04 x 調査地 3 の場合, y = 67.92 + 1.16 x 固定効果による回帰直線 ( 黒実線 ) は任意の調査地の中での x-y 関係を代表的に表しているただし調査地間では回帰の切片や傾きがランダムにばらつく

混合モデルの結果が何を意味するのかを理解するため再度最初の図にもどってみるここで全調査地のデータをプールした回帰直線 ( 点線 ) と混合モデルの固定効果による回帰直線 ( 実線 ) を比べてみよう全調査地のデータをプールした回帰直線 ( 点線 ) は 1 つの調査地の中での傾向を考慮していないことを説明したすなわち

混合モデルの結果が何を意味するのかを理解するため再度最初の図にもどってみるここで全調査地のデータをプールした回帰直線 ( 点線 ) と混合モデルの固定効果による回帰直線 ( 実線 ) を比べてみよう混合モデルの固定効果による結果は 1 つの調査地が与えられたときその調査地内部での傾向を代表的に表しているのであって全データをプールした時の傾向を表しているのではない

ちなみにこの例では混合モデルの結果から計算した各調査地の回帰直線 ( 点線 ) は個々の調査地ごとに計算した回帰直線 ( 実線 ) と非常によく合っていた

まとめランダム効果を考慮しないで全調査値のデータをプールした回帰は個々の調査地の中での傾向をうまく表すことができなかった今回の例では調査地をランダム効果とする混合モデルで取り扱ったこの混合モデルでは, 調査地間で回帰の切片や傾きがランダムに変動すると仮定したモデルにした. 混合モデルを使うと 1 つの調査地の内部での代表的な傾向を知ることができるばかりでなくランダム効果の出力から調査地間でその関係がどれくらいばらつくかを同時に知る事ができる

おまけ > summary( mixedm ) # [R] の出力 : Linear mixed model fit by REML Formula: y ~ x + (x Site) Data: data AIC BIC loglik deviance REMLdev 895 910.6-441.5 886 883 Random effects: Groups Name Variance Std.Dev. Corr Site (Intercept) 1.1714e+03 34.22531 x 8.4108e-03 0.09171 0.331 Residual 3.2439e+02 18.01079 Number of obs: 100, groups: Site, 5 ( 以下省略 ) (1) 調査地ごとに回帰させるモデル mixedm <- lmer(y ~ x + (x Site) ) 混合モデルの出力は, 各調査地のランダム効果の切片 (intercept) と傾き (x) との間に弱い相関 (Corr; 相関係数 0.331) があることを示している. つまり, 調査地の間で, 切片と傾きとは完全に独立ではない. 強い相関がある場合は over-parametarization( パラメタが多すぎ ) の状態なので, 切片あるいは傾きのどちらかのみをランダム効果に入れる. わざと切片と傾きとが独立に決まるように指定させたりもできる. いろいろな指定の仕方 (2) 調査地ごとに切片だけランダム効果にし, 傾きは固定させるモデル mixedm <- lmer(y ~ x + (1 Site) ) (3) 調査地ごとに傾きだけランダム効果にし, 切片は固定させるモデル mixedm <- lmer(y ~ x +(0 + x Site) ) # ほとんど無意味のような (4) 調査地ごとに傾きと切片とが独立に決まるようなランダム効果にするモデル mixedm <- lmer(y ~ x + (1 Site)+(0 + x Site) )

方法の比較 : 今回のデータの場合,(4) と (1) のモデルの結果はほとんど同じでした Linear mixed model fit by REML Formula: y ~ x + (1 Site) + (0 + x Site) Data: data AIC BIC loglik deviance REMLdev 893.2 906.3-441.6 886.4 883.2 Random effects: Groups Name Variance Std.Dev. Site (Intercept) 1.1383e+03 33.738746 Site x 8.0854e-03 0.089919 Residual 3.2485e+02 18.023617 Number of obs: 100, groups: Site, 5 Linear mixed model fit by REML Formula: y ~ x + (x Site) Data: data AIC BIC loglik deviance REMLdev 895 910.6-441.5 886 883 Random effects: Groups Name Variance Std.Dev. Corr Site (Intercept) 1.1714e+03 34.22531 x 8.4108e-03 0.09171 0.331 Residual 3.2439e+02 18.01079 Number of obs: 100, groups: Site, 5 Fixed effects: Estimate Std. Error t value (Intercept) 62.16809 15.35577 4.049 x 1.04128 0.05073 20.527 Correlation of Fixed Effects: (Intr) x 0.055 > ranef(mixedm) $Site (Intercept) x 1-43.180225-0.070578239 2-20.449339-0.004854395 3 5.511935 0.119333296 4 14.942348-0.013794757 5 43.175281-0.030105905 Fixed effects: Estimate Std. Error t value (Intercept) 62.79701 15.57403 4.032 x 1.04113 0.05134 20.278 Correlation of Fixed Effects: (Intr) x 0.315 > ranef(mixedm) $Site (Intercept) x 1-43.242669-0.082590168 2-21.029597-0.012001706 3 5.121477 0.119677319 4 14.748137-0.008703391 5 44.402652-0.016382055

方法の比較 : 今回のデータの場合,(2) と (1) のモデルの結果もほとんど同じでした Linear mixed model fit by REML Formula: y ~ x + (1 Site) Data: data AIC BIC loglik deviance REMLdev 893.8 904.2-442.9 888.1 885.8 Random effects: Groups Name Variance Std.Dev. Site (Intercept) 1311.87 36.220 Residual 346.03 18.602 Number of obs: 100, groups: Site, 5 Linear mixed model fit by REML Formula: y ~ x + (x Site) Data: data AIC BIC loglik deviance REMLdev 895 910.6-441.5 886 883 Random effects: Groups Name Variance Std.Dev. Corr Site (Intercept) 1.1714e+03 34.22531 x 8.4108e-03 0.09171 0.331 Residual 3.2439e+02 18.01079 Number of obs: 100, groups: Site, 5 Fixed effects: Estimate Std. Error t value (Intercept) 61.44680 16.36613 3.75 x 1.04125 0.03195 32.59 Correlation of Fixed Effects: (Intr) x 0.088 > ranef(mixedm) $Site (Intercept) 1-46.3475043 2-19.7849487 3 0.9295587 4 16.9620060 5 48.2408883 Fixed effects: Estimate Std. Error t value (Intercept) 62.79701 15.57403 4.032 x 1.04113 0.05134 20.278 Correlation of Fixed Effects: (Intr) x 0.315 > ranef(mixedm) $Site (Intercept) x 1-43.242669-0.082590168 2-21.029597-0.012001706 3 5.121477 0.119677319 4 14.748137-0.008703391 5 44.402652-0.016382055

おまけのおまけのきしゃぽっぽこの解説に使用したデータは, 全調査地のデータをプールした回帰の傾きと各調査地の回帰の傾きが違うようにするため, 各調査地のの値の平均値を 50 ずつずらしてつくったものです. 実際にこのようなデータを得たら, 各調査地ごとの回帰の切片とその調査地のの平均値との間に相関がある ( の平均値が小さいほど切片は大きくなる ), というモデルをまずやってみるのが普通でしょう. その場合には混合モデルは必要ありません. この解説では, 混合モデルがどんなものかを示すために, 混合モデル関数を使ってみました. ぽっぽー