Microsoft PowerPoint - Rを利用した回帰分析.pptx

R を利した回帰分析中央水産研究所岡村寛

水産資源学における統計解析漁業調査データ解析 CPUE 標準化資源のトレンド体組成のモード分解成式などの生物パラメータの推定資源評価モデルによる個体群評価ほとんどがパラメータの推定問題

今日の概要前半 ( 岡村 ) 単回帰重回帰モデル一般化線形 ( 混合加法 ) モデルプロダクションモデル,VPA など最小二乗法最尤法ベイズ推定後半 ( 市野川 ) 異なるモデル間の選択

研修の成功と失敗 R 初心者成功 : 自分にもできそう, 面白そう, 仕事に役ちそう失敗 : 自分にはできないな, 今までどおり Excel で R 経験者成功 : そういうときのプログラムはこう書くのか, こんなパッケージがあるのか失敗 : 全部知ってることでつまらない, 私ならもっとうまく

Why R? 無料! 既存の統計処理をほぼ網羅組み合わせて新しい解析を乱数発シミュレーションが容易気軽にプログラミンググラフィックス他の言語 (WinBUGS, ADMB, ) を呼び出して使用

前半の目的 R を利したデータ解析のやりに慣れる回帰 /GLM の考えを理解する R による結果の解釈結果のグラフ化プログラミングの基礎 GLMM/GAM/VGAM についてなんとなく理解

Working directory 作業するフォルダを設定してやる getwd() setwd("c:/rkenshu") getwd() q() save workspace image? Yes なら次回から.Rdata をダブルクリックすれば前回の作業から続けられる

データの読み込み scan scan("dat.dat") read.table, read.csv, read.fwf bp.dat <- read.csv( bloodpressure.csv ) load load( mh.rda )

データの書き込み cat dat <- letters[:0]; cat(dat,file="dat.dat") write.table, write.csv write.csv(bp.dat, "bp_dat.csv", row.names=false) save mh <- lm(high~day,data=bp.dat); save(mh, file="modelh.rda")

データの型 x <- class(x) class(as.matrix(x)) class(as.data.frame(x)) class(as.integer(x)) class(as.character(x)) is.character(x) is.numeric(x) is.vector(x)

パッケージ library(mass) その他, 本日使用するパッケージ MuMIn lme4 VGAM mgcv

例データ bloodpressure.xls まず csv ファイルにしてやる R に読み込む bp.dat <- read.csv( bloodpressure.csv )

データ概要 class(bp.dat) names(bp.dat) head(bp.dat)?head summary(bp.dat) > c(mean(bp.dat$high), mean(bp.dat$low)) [] 36.36 90.92

血圧基準値正常血圧 25/80 未満男性血圧平均性圧平均高血圧 35/85 以上年齢 20 24: 28 / 75 25 29: 28 / 75 30 34: 29 / 77 35 39: 30 / 79 40 44: 32 / 8 45 49: 36 / 83 50 54: 44 / 87 55 59: 50 / 88 60 64: 56 / 9 65 69: 58 / 89 70 以上 : 65 / 89 年齢 20 24: 2 / 72 25 29: 22 / 73 30 34: 24 / 75 35 39: 27 / 78 40 44: 32 / 80 45 49: 40 / 84 50 54: 47 / 86 55 59: 50 / 88 60 64: 58 / 90 65 69: 66 / 9 70 以上 : 7 / 9

教えて! goo 血圧を下げる方法を教えてください薬を飲む方法以外に簡単に血圧を下げる方法を教えてください現在下が 90 0 上は 40 60 週 2 回水泳を時間位やっていますが下がりません ( 半年以上 ) アルコールを飲んだ時に計ると 80 30 位に下がります血圧を下げるのに成功した方よろしくお願いします

高血圧の原因遺伝塩分の取りすぎ運動不肥満加齢ストレス気温過度の飲酒と喫煙

高血圧になりやすいかチェック濃い味つけのものが好き野菜や果物はあまり食べない運動をあまりしない家族に高血圧の人がいるストレスがたまりやすいお酒をたくさん飲むたばこを吸う血糖値が高いといわれたことがある炒めものや揚げもの肉の脂身などあぶらっぽい食べものが好きチェックの数が多いほど高血圧になりやすいので注意が必要です

図 60 50 05 00 High 40 Low 95 90 30 20 AM PM 85 80 2 4 6 8 2 6 Day 2 4 6 8 2 6 Day

回帰分析 Y = a + bx + e, e ~ N(0, σ 2 ) modelh. <- lm(high~day,data=bp.dat) summary(modelh.)$coef confint(modelh.,level=0.9)

図描画 60 50 High 40 30 20 2 4 6 8 0 2 4 6 Day

最小二乗法 (y (a + bx)) 2 を最小化してパラメータを推定 b の推定値 = cov(x,y)/var(x) a の推定値 = E(y) b の推定値 E(x) 60 50 High 40 30 20 2 4 6 8 0 2 4 6 Day

最尤推定法 y = a + bx + e, e ~ N(0, σ 2 ) Pr, = 2 + exp 2 Pr(y a,b) を a, b の関数とみなして, その関数 ( 尤度関数 ) の最化によりパラメータ推定上の最大化は,exp( ) の中を最小にすることにより達成できる

Kullback-Leibler 距離確率分布間の距離真の分布 f(x), モデル g(x θ) Kullback-Leibler 距離 E[log{f(x)/g(x θ)}] = E[log(f(x)) log(g(x θ))] = E[log(f(x))] E[log(g(x θ))] E[log(g(x θ))] (/n) Σ log(g(x θ)) ( 対数 ) 尤度を最にするパラメータは Kullback-Leibler 距離を最小にする

モデルの適合度 Normal Q-Q Plot 20 20 0 0 Residual 0 Residual 0-0 -0-20 30 35 40 45-20 -2-0 2 Predicted Theoretical Quantiles

重回帰モデル AM AM High 50 40 30 20 2 2 2 2 3 2 3 2 3 2 2 3 2 2 Low 05 00 95 90 85 2 2 2 2 3 2 3 2 3 2 23 2 2 2 4 6 8 0 2 4 6 2 4 6 8 0 2 4 6 Day Day PM PM High 60 50 40 30 20 2 2 2 2 2 3 2 2 Low 00 95 90 85 80 2 2 2 2 2 3 2 2 2 4 6 8 0 2 4 2 4 6 8 0 2 4 Day Day

重回帰例 modelh.3 <- lm(high~day+ap+iteration,data=bp.dat) summary(modelh.3)$coef

重回帰注意線形モデルというのはパラメータに関して線形ということなので, 説明変数に非線形なものが入っていても OK 例 :modelh.poly <- lm(high~day+i(day^2)+i(day^3),data=bp.dat) summary(modelh.poly)$coef

交互作用による減少傾向は午前と午後で異なるか? modelh.ia <- lm(high~day*ap, data=bp.dat) summary(modelh.ia)$coef 60 50 High 40 30 20 2 4 6 8 0 2 4 6 Day

モデル選択 AIC E[log(g(x θ))] (/n) Σ log(g(x θ)) は悪い近似. より良い近似は, E[log(g(x θ))] (/n) (Σ log(g(x θ)) K) となる (K = dim(θ): パラメータ数 ). 良いモデルは KL 距離 = E[log(f(x))] E[log(g(x θ))] を最小にするものであるから, Σ log(g(x θ)) K を最にすれば良い. AIC = -2 対数尤度 + 2 パラメータ数と定義すると AIC を最にするモデルが良いモデル.

AIC 使例 AIC(modelH.,modelH.2,modelH.3) modelh.f <- update(modelh.3, ~.^2) library(mass) stepaic(modelh.f)

AICc AIC は大標本を仮定している小標本のときに使える AIC AICc = AIC + 2K(K+)/(n K ) n/k < 40 なら,AICc を使うべき (Burnham & Anderson 2002) 正規線形モデル仮定を利して導出しているので他のモデルではパフォーマンスが悪いかも

AICc 使例 library(mumin) dredge(modelh.f) model.avg(dredge(modelh.f),subset = weight > 0.05)

予測 predict(modelh.b, newdata=list(day=30,iteration=factor())) 問題 :. 何日目に正常血圧 (25) に達するか? 2. 何日目に 95% の確率で正常圧より低くなるか?

デルタ法 30 日後のHighとLowの比はどうなるか? var(f(x)) = (df/dx) 2 var(x) var(high/low) = (/Low) 2 var(high) + (-High/Low 2 ) 2 var(low) = (High/Low) 2 CV(High) 2 + (High/Low) 2 CV(Low) 2 = (High/Low) 2 {CV(High) 2 + CV(Low) 2 }

その他診断 plot(modelh.) influence.measures(modelh.) 切なしモデル lm(high~day-, data=bp.dat) 分散分析 anova(modelh.f) offset lm(high~offset(low)+day,data=bp.dat)

一般化線形モデル (GLM) 誤差分布が正規分布でなくても良い ( 項分布, ポアソン分布, ) 例 : glm(cbind(x, n-x) ~ z, family=binomial) glm(y ~ x, family=poisson) 説明変数としてカテゴリカル変数も扱える例 : glm(y ~ factor(a), family=poisson)

よく使われる確率分布とリンク関数離散変数連続変数 >? family 分布二項分布 (0/) binomial ポアソン分布 (0,, 2..) poisson 正規分布 gaussian ガンマ分布 Gamma デフォルトのリンク関数 logit log identity inverse

二値データ 0/ データ 0,,, 0,, ( 出生 / 死亡, 釣獲 / 脱落, ) n 回中 x 回起こった ( 船の出漁数, ) z <- rnorm(20) x <- rbinom(20,,/(+exp(-(0.3-0.2*z)))) glm(x~z,family=binomial) x <- rbinom(20,5,/(+exp(-(0.3-0.2*z)))) glm(cbind(x,5-x)~z,family=binomial)

カウントデータ 0,, 2, 3, 魚の尾数, オットセイの群れの数, 脈拍は実際は連続値であるが, ここでは離散データとして扱う modelp.f <- glm(pulse~day+ap+iteration,family=poisson,data=bp.dat)

過分散 Var(X) > E(X) 負の二項分布 Pr = Γ( + ) Γ! + + E(X)=μ, Var(X) = μ + μ 2 /d library(mass) z <- rnorm(30) x <- rnbinom(30,size=0.5,mu=exp(0.2-0.3*z)) glm.nb(x~z)

ランダム効果モデル同じ日の同じ時間帯の測定結果は同じ値を持つ傾向がある? w/o random effect w/ random effect BP 60 50 40 30 20 5 0 5 20 Day BP 200 80 60 40 20 00 80 5 0 5 20 Day

ランダム効果モデル同じ日の血圧は同じような値 Y ij = μ i + b day ij + e ij, (i = 日, j = 繰り返し ) e ij ~ N(0, σ 2 ) μ i = μ + r i r i ~ N(0, σ r2 ) パラメータ推定 : 尤度関数 p(y r)p(r)dr を最大化 library(lme4) lmer(high ~ Day+Iterarion+( ID), data=bp.dat,reml=false)

ランダム効果モデルの利点と点 Type I error 過小推定の回避過分散を扱う柔軟なモデリングを可能にする潜在要因構造を考慮欠測値を扱える計算が大変

GLMM Generalized Linear Mixed Models 応答変数の確率分布として正規分布以外の確率分布も扱うランダム効果は通常, 正規分布を仮定する lme4 には glmer という関数がある glmer((high - Low > 40) ~ Day+( ID),family=binomial,data=bp.dat) library(glmmml) なども

ベクトル回帰血圧の上と下には相関がある圧の上と下の減少率は同じか, 違うか? 血圧の上と下に朝夜の影響の違いはあるか? High 20 30 40 50 60 80 85 90 95 00 05 Low

ベクトル回帰 = + + + ~N 0 0, 温と漁獲量 (or CPUE) の間の関係は? 複数種の関係は?

ベクトル回帰 library(vgam) modelv. <- vglm(cbind(high, Low)~Day+AP+Iteration, data=bp.dat, binormal(eq.mean=false), maxit=000) modelv..4 <- vglm(cbind(high, Low)~Day+AP+Iteration, data=bp.dat, binormal(eq.mean=~day+ap-), maxit=000) Day の係数と午前 / 午後 (AP) の効果は High と Low で共通切と Iteration は High と Low で違うパラメータとして推定される

一般化加法モデル (GAM) ノンパラメトリック回帰非線形な変化を扱える ( 水温, 空間分布, ) s(day,.55) -5 0 5 0 library(mgcv) modelh.gam <- gam(high~s(day)+ap+iteration, data=bp.dat) 2 4 6 8 0 2 4 6 Day

GLM の応用状態空間モデル (State-Space Model) X t = F(X t-, e t ) Y t = G(X t, v t ) GLM-Tree Ichinokawa, M., and Brodziak, J. 200. Fish Res 06(3): 249-260. http://cse.fra.affrc.go.jp/ichimomo/tuna/glm.tree.html Zero-inflated Models ~ ZINBNB Okamura, H. et al. 202. Population Ecology 54(3): 467-474.

ベイズ推定事後確率尤度事前分布 MCMC https://sites.google.com/site/hiroshiokamura/bayes

水産資源学で使われる回帰 CPUE 標準化 ( 線形回帰 /GLM/GLMM) DeLury 法 ( 線形回帰 ) 死亡係数推定 ( 線形回帰 ) 成曲線推定 ( 線形非線形回帰 ) 成熟曲線推定 ( ロジスティック回帰 ) 個体群モデル ( 線形非線形回帰 /GLM/GLMM) 空間分布モデル (GLM/GLMM/GAM/GAMM) 年齢組成体組成 (VGAM/VGAMM) 種間関係モデル (VGAM/VGAMM)

Homework 血圧測定しよう! 自分のデータにモデルを適用してみよう!