Microsoft PowerPoint - Rを利用した回帰分析.pptx

Similar documents
みっちりGLM

kubostat2017c p (c) Poisson regression, a generalized linear model (GLM) : :

Probit , Mixed logit

スライド 1

様々なミクロ計量モデル†

1 環境統計学ぷらす 第 5 回 一般 ( 化 ) 線形混合モデル 高木俊 2013/11/21

一般化線形 (混合) モデル (2) - ロジスティック回帰と GLMM

講義「○○○○」

講義のーと : データ解析のための統計モデリング. 第3回

ベイズ統計入門

統計的データ解析

kubo2015ngt6 p.2 ( ( (MLE 8 y i L(q q log L(q q 0 ˆq log L(q / q = 0 q ˆq = = = * ˆq = 0.46 ( 8 y 0.46 y y y i kubo (ht

スライド 1

スライド 1

12/1 ( ) GLM, R MCMC, WinBUGS 12/2 ( ) WinBUGS WinBUGS 12/2 ( ) : 12/3 ( ) :? ( :51 ) 2/ 71

NLMIXED プロシジャを用いた生存時間解析 伊藤要二アストラゼネカ株式会社臨床統計 プログラミング グループグルプ Survival analysis using PROC NLMIXED Yohji Itoh Clinical Statistics & Programming Group, A

kubostat2017e p.1 I 2017 (e) GLM logistic regression : : :02 1 N y count data or

講義のーと : データ解析のための統計モデリング. 第5回

,, Poisson 3 3. t t y,, y n Nµ, σ 2 y i µ + ɛ i ɛ i N0, σ 2 E[y i ] µ * i y i x i y i α + βx i + ɛ i ɛ i N0, σ 2, α, β *3 y i E[y i ] α + βx i

Kumamoto University Center for Multimedia and Information Technologies Lab. 熊本大学アプリケーション実験 ~ 実環境における無線 LAN 受信電波強度を用いた位置推定手法の検討 ~ InKIAI 宮崎県美郷

Microsoft PowerPoint - 統計科学研究所_R_重回帰分析_変数選択_2.ppt

今回 次回の要点 あぶない 時系列データ解析は やめましょう! 統計モデル のあてはめ Danger!! (危 1) 時系列データの GLM あてはめ (危 2) 時系列Yt 時系列 Xt 各時刻の個体数 気温 とか これは次回)

Microsoft PowerPoint - 資料04 重回帰分析.ppt

統計学 - 社会統計の基礎 - 正規分布 標準正規分布累積分布関数の逆関数 t 分布正規分布に従うサンプルの平均の信頼区間 担当 : 岸 康人 資料ページ :

Microsoft PowerPoint - GLMMexample_ver pptx

一般化線型モデルとは? R 従属変数群が独立変数群の一次結合と誤差で表されるという形のモデルを線型モデルという ( 回帰分析はデータへの線型モデルの当てはめである ) 式で書けば Y = β 0 + βx + ε R では glm( ) という関数で実行する glm( ) は量的なデータが正規分布に

今日の要点 あぶない 時系列データ解析は やめましょう! 統計モデル のあてはめ (危 1) 時系列データの GLM あてはめ (危 2) 時系列Yt 時系列 Xt 各時刻の個体数 気温 とか

カイ二乗フィット検定、パラメータの誤差

Microsoft PowerPoint - H17-5時限(パターン認識).ppt

集中理論談話会 #9 Bhat, C.R., Sidharthan, R.: A simulation evaluation of the maximum approximate composite marginal likelihood (MACML) estimator for mixed mu

Microsoft PowerPoint - 14回パラメータ推定配布用.pptx

kubostat2017j p.2 CSV CSV (!) d2.csv d2.csv,, 286,0,A 85,0,B 378,1,A 148,1,B ( :27 ) 10/ 51 kubostat2017j (

kubostat1g p. MCMC binomial distribution q MCMC : i N i y i p(y i q = ( Ni y i q y i (1 q N i y i, q {y i } q likelihood q L(q {y i } = i=1 p(y i q 1

切片 ( 定数項 ) ダミー 以下の単回帰モデルを考えよう これは賃金と就業年数の関係を分析している : ( 賃金関数 ) ここで Y i = α + β X i + u i, i =1,, n, u i ~ i.i.d. N(0, σ 2 ) Y i : 賃金の対数値, X i : 就業年数. (

ii 3.,. 4. F. (), ,,. 8.,. 1. (75% ) (25% ) =9 7, =9 8 (. ). 1.,, (). 3.,. 1. ( ).,.,.,.,.,. ( ) (1 2 )., ( ), 0. 2., 1., 0,.

最小二乗フィット、カイ二乗フィット、gnuplot

スライド 1

この 2 つの式に基づきシェーファーが考えたのがシェーファーのプロダクションモデル 式 (3) です (Schaefer 1957) db/dt = rb (1 B/K) qxb (3) ここで q は漁具能率 X は漁獲努力量 Y は漁獲量で Y = qxb と仮定されています ロジスティック式を

Chapter 1 Epidemiological Terminology

<4D F736F F D208EC08CB18C7689E68A E F AA957A82C682948C9F92E82E646F63>

ii 3.,. 4. F. (), ,,. 8.,. 1. (75%) (25%) =7 20, =7 21 (. ). 1.,, (). 3.,. 1. ().,.,.,.,.,. () (12 )., (), 0. 2., 1., 0,.

PowerPoint プレゼンテーション

4 段階推定法とは 予測に使うモデルの紹介 4 段階推定法の課題 2

CAEシミュレーションツールを用いた統計の基礎教育 | (株)日科技研

スライド 1

Microsoft Word doc

<4D F736F F D208EC08CB18C7689E68A E F193F18D8095AA957A C C839395AA957A814590B38B4B95AA957A2E646F63>

OpRisk VaR3.2 Presentation

Presentation Title

当し 図 6. のように 2 分類 ( 疾患の有無 ) のデータを直線の代わりにシグモイド曲線 (S 字状曲線 ) で回帰する手法である ちなみに 直線で回帰する手法はコクラン アーミテージの傾向検定 疾患の確率 x : リスクファクター 図 6. ロジスティック曲線と回帰直線 疾患が発

Microsoft Word - å“Ÿåłžå¸°173.docx

Microsoft PowerPoint - R-stat-intro_12.ppt [互換モード]

kubostat2017b p.1 agenda I 2017 (b) probability distribution and maximum likelihood estimation :

7. フィリップス曲線 経済統計分析 (2014 年度秋学期 ) フィリップス曲線の推定 ( 経済理論との関連 ) フィリップス曲線とは何か? 物価と失業の関係 トレード オフ 政策運営 ( 財政 金融政策 ) への含意 ( 計量分析の手法 ) 関数形の選択 ( 関係が直線的でない場合の推定 ) 推

Microsoft PowerPoint - R-stat-intro_04.ppt [互換モード]

2 / 39

多変量解析 ~ 重回帰分析 ~ 2006 年 4 月 21 日 ( 金 ) 南慶典

ii 2. F. ( ), ,,. 5. G., L., D. ( ) ( ), 2005.,. 6.,,. 7.,. 8. ( ), , (20 ). 1. (75% ) (25% ). 60.,. 2. =8 5, =8 4 (. 1.) 1.,,

/22 R MCMC R R MCMC? 3. Gibbs sampler : kubo/

kubostat2018a p.1 統計モデリング入門 2018 (a) The main language of this class is 生物多様性学特論 Japanese Sorry An overview: Statistical Modeling 観測されたパターンを説明する統計モデル

統計モデリング入門 2018 (a) 生物多様性学特論 An overview: Statistical Modeling 観測されたパターンを説明する統計モデル 久保拓弥 (北海道大 環境科学) 統計モデリング入門 2018a 1

Excelにおける回帰分析(最小二乗法)の手順と出力

SAP11_03

基礎統計

回帰分析 重回帰(1)

③ 水産資源解析の概要 さまざまな資源量推定手法 どの資源評価モデルが良いのか 資源量推定のさいに重要な3つのこと 1

発表の流れ 1. 回帰分析とは? 2. 単回帰分析単回帰分析とは? / 単回帰式の算出 / 単回帰式の予測精度 <R による演習 1> 3. 重回帰分析重回帰分析とは? / 重回帰式の算出 / 重回帰式の予測精度 質的変数を含む場合の回帰分析 / 多重共線性の問題 変数選択の基準と方法 <R による

PowerPoint プレゼンテーション

Microsoft PowerPoint - S11_1 2010Econometrics [互換モード]

第 3 回講義の項目と概要 統計的手法入門 : 品質のばらつきを解析する 平均と標準偏差 (P30) a) データは平均を見ただけではわからない 平均が同じだからといって 同一視してはいけない b) データのばらつきを示す 標準偏差 にも注目しよう c) 平均

なぜ今 GLMM なのか 竹澤正哲 北海道大学 日本社会心理学会第 2 回春の方法論セミナー

0 部分的最小二乗回帰 Partial Least Squares Regression PLS 明治大学理 学部応用化学科 データ化学 学研究室 弘昌

最小二乗法とロバスト推定

Stats26新機能紹介

まず y t を定数項だけに回帰する > levelmod = lm(topixrate~1) 次にこの出力を使って先ほどのレジームスイッチングモデルを推定する 以下のように入力する > levelswmod = msmfit(levelmod,k=,p=0,sw=c(t,t)) ここで k はレジ

横浜市環境科学研究所

/ *1 *1 c Mike Gonzalez, October 14, Wikimedia Commons.

回帰分析 単回帰

EBNと疫学

memo

Microsoft PowerPoint - e-stat(OLS).pptx

Transcription:

R を利 した回帰分析 中央水産研究所 岡村 寛

水産資源学における統計解析 漁業 調査データ解析 CPUE 標準化 資源のトレンド 体 組成のモード分解 成 式などの生物パラメータの推定 資源評価モデルによる個体群評価 ほとんどがパラメータの推定問題

今日の概要 前半 ( 岡村 ) 単回帰 重回帰モデル一般化線形 ( 混合 加法 ) モデルプロダクションモデル,VPA など 最小二乗法 最尤法 ベイズ推定 後半 ( 市野川 ) 異なるモデル間の選択

研修の成功と失敗 R 初心者 成功 : 自分にもできそう, 面白そう, 仕事に役 ちそう 失敗 : 自分にはできないな, 今までどおり Excel で R 経験者 成功 : そういうときのプログラムはこう書くのか, こんなパッケージがあるのか 失敗 : 全部知ってることでつまらない, 私ならもっとうまく

Why R? 無料! 既存の統計処理をほぼ網羅 組み合わせて新しい解析を 乱数発 シミュレーションが容易 気軽にプログラミング グラフィックス 他の言語 (WinBUGS, ADMB, ) を呼び出して使用

前半の目的 R を利 したデータ解析のやり に慣れる 回帰 /GLM の考え を理解する R による結果の解釈 結果のグラフ化 プログラミングの基礎 GLMM/GAM/VGAM についてなんとなく理解

R

Working directory 作業するフォルダを設定してやる getwd() setwd("c:/rkenshu") getwd() q() save workspace image? Yes なら次回から.Rdata をダブルクリックすれば前回の作業から続けられる

データの読み込み scan scan("dat.dat") read.table, read.csv, read.fwf bp.dat <- read.csv( bloodpressure.csv ) load load( mh.rda )

データの書き込み cat dat <- letters[:0]; cat(dat,file="dat.dat") write.table, write.csv write.csv(bp.dat, "bp_dat.csv", row.names=false) save mh <- lm(high~day,data=bp.dat); save(mh, file="modelh.rda")

データの型 x <- class(x) class(as.matrix(x)) class(as.data.frame(x)) class(as.integer(x)) class(as.character(x)) is.character(x) is.numeric(x) is.vector(x)

パッケージ library(mass) その他, 本日使用するパッケージ MuMIn lme4 VGAM mgcv

例データ bloodpressure.xls まず csv ファイルにしてやる R に読み込む bp.dat <- read.csv( bloodpressure.csv )

データ概要 class(bp.dat) names(bp.dat) head(bp.dat)?head summary(bp.dat) > c(mean(bp.dat$high), mean(bp.dat$low)) [] 36.36 90.92

血圧基準値 正常血圧 25/80 未満 男性血圧平均 性 圧平均 高血圧 35/85 以上 年齢 20 24: 28 / 75 25 29: 28 / 75 30 34: 29 / 77 35 39: 30 / 79 40 44: 32 / 8 45 49: 36 / 83 50 54: 44 / 87 55 59: 50 / 88 60 64: 56 / 9 65 69: 58 / 89 70 以上 : 65 / 89 年齢 20 24: 2 / 72 25 29: 22 / 73 30 34: 24 / 75 35 39: 27 / 78 40 44: 32 / 80 45 49: 40 / 84 50 54: 47 / 86 55 59: 50 / 88 60 64: 58 / 90 65 69: 66 / 9 70 以上 : 7 / 9

教えて! goo 血圧を下げる方法を教えてください 薬を飲む方法以外に簡単に血圧を下げる方法を教えてください 現在 下が 90 0 上は 40 60 週 2 回水泳を 時間位やっていますが下がりません ( 半年以上 ) アルコールを飲んだ時に計ると 80 30 位に下がります 血圧を下げるのに成功した方よろしくお願いします

高血圧の原因 遺伝 塩分の取りすぎ 運動不 肥満 加齢 ストレス 気温 過度の飲酒と喫煙

高血圧になりやすいかチェック 濃い味つけのものが好き 野菜や果物はあまり食べない 運動をあまりしない 家族に高血圧の人がいる ストレスがたまりやすい お酒をたくさん飲む たばこを吸う 血糖値が高いといわれたことがある 炒めものや揚げもの 肉の脂身など あぶらっぽい食べものが好きチェックの数が多いほど 高血圧になりやすいので 注意が必要です

図 60 50 05 00 High 40 Low 95 90 30 20 AM PM 85 80 2 4 6 8 2 6 Day 2 4 6 8 2 6 Day

回帰分析 Y = a + bx + e, e ~ N(0, σ 2 ) modelh. <- lm(high~day,data=bp.dat) summary(modelh.)$coef confint(modelh.,level=0.9)

図描画 60 50 High 40 30 20 2 4 6 8 0 2 4 6 Day

最小二乗法 (y (a + bx)) 2 を最小化してパラメータを推定 b の推定値 = cov(x,y)/var(x) a の推定値 = E(y) b の推定値 E(x) 60 50 High 40 30 20 2 4 6 8 0 2 4 6 Day

最尤推定法 y = a + bx + e, e ~ N(0, σ 2 ) Pr, = 2 + exp 2 Pr(y a,b) を a, b の関数とみなして, その関数 ( 尤度関数 ) の最 化によりパラメータ推定 上の最大化は,exp( ) の中を最小にすることにより達成できる

Kullback-Leibler 距離 確率分布間の距離真の分布 f(x), モデル g(x θ) Kullback-Leibler 距離 E[log{f(x)/g(x θ)}] = E[log(f(x)) log(g(x θ))] = E[log(f(x))] E[log(g(x θ))] E[log(g(x θ))] (/n) Σ log(g(x θ)) ( 対数 ) 尤度を最 にするパラメータは Kullback-Leibler 距離を最小にする

モデルの適合度 Normal Q-Q Plot 20 20 0 0 Residual 0 Residual 0-0 -0-20 30 35 40 45-20 -2-0 2 Predicted Theoretical Quantiles

重回帰モデル AM AM High 50 40 30 20 2 2 2 2 3 2 3 2 3 2 2 3 2 2 Low 05 00 95 90 85 2 2 2 2 3 2 3 2 3 2 23 2 2 2 4 6 8 0 2 4 6 2 4 6 8 0 2 4 6 Day Day PM PM High 60 50 40 30 20 2 2 2 2 2 3 2 2 Low 00 95 90 85 80 2 2 2 2 2 3 2 2 2 4 6 8 0 2 4 2 4 6 8 0 2 4 Day Day

重回帰例 modelh.3 <- lm(high~day+ap+iteration,data=bp.dat) summary(modelh.3)$coef

重回帰注意 線形モデルというのはパラメータに関して線形ということなので, 説明変数に非線形なものが入っていても OK 例 :modelh.poly <- lm(high~day+i(day^2)+i(day^3),data=bp.dat) summary(modelh.poly)$coef

交互作用 による減少傾向は午前と午後で異なるか? modelh.ia <- lm(high~day*ap, data=bp.dat) summary(modelh.ia)$coef 60 50 High 40 30 20 2 4 6 8 0 2 4 6 Day

モデル選択 AIC E[log(g(x θ))] (/n) Σ log(g(x θ)) は悪い近似. より良い近似は, E[log(g(x θ))] (/n) (Σ log(g(x θ)) K) となる (K = dim(θ): パラメータ数 ). 良いモデルは KL 距離 = E[log(f(x))] E[log(g(x θ))] を最小にするものであるから, Σ log(g(x θ)) K を最 にすれば良い. AIC = -2 対数尤度 + 2 パラメータ数 と定義すると AIC を最 にするモデルが良いモデル.

AIC 使 例 AIC(modelH.,modelH.2,modelH.3) modelh.f <- update(modelh.3, ~.^2) library(mass) stepaic(modelh.f)

AICc AIC は大標本を仮定している 小標本のときに使える AIC AICc = AIC + 2K(K+)/(n K ) n/k < 40 なら,AICc を使うべき (Burnham & Anderson 2002) 正規線形モデル仮定を利 して導出しているので他のモデルではパフォーマンスが悪いかも

AICc 使 例 library(mumin) dredge(modelh.f) model.avg(dredge(modelh.f),subset = weight > 0.05)

予測 predict(modelh.b, newdata=list(day=30,iteration=factor())) 問題 :. 何日目に正常血圧 (25) に達するか? 2. 何日目に 95% の確率で正常 圧より低くなるか?

デルタ法 30 日後のHighとLowの比はどうなるか? var(f(x)) = (df/dx) 2 var(x) var(high/low) = (/Low) 2 var(high) + (-High/Low 2 ) 2 var(low) = (High/Low) 2 CV(High) 2 + (High/Low) 2 CV(Low) 2 = (High/Low) 2 {CV(High) 2 + CV(Low) 2 }

その他 診断 plot(modelh.) influence.measures(modelh.) 切 なしモデル lm(high~day-, data=bp.dat) 分散分析 anova(modelh.f) offset lm(high~offset(low)+day,data=bp.dat)

一般化線形モデル (GLM) 誤差分布が正規分布でなくても良い ( 項分布, ポアソン分布, ) 例 : glm(cbind(x, n-x) ~ z, family=binomial) glm(y ~ x, family=poisson) 説明変数としてカテゴリカル変数も扱える 例 : glm(y ~ factor(a), family=poisson)

よく使われる確率分布とリンク関数 離散変数 連続変数 >? family 分布 二項分布 (0/) binomial ポアソン分布 (0,, 2..) poisson 正規分布 gaussian ガンマ分布 Gamma デフォルトのリンク関数 logit log identity inverse

二値データ 0/ データ 0,,, 0,, ( 出生 / 死亡, 釣獲 / 脱落, ) n 回中 x 回起こった ( 船の出漁数, ) z <- rnorm(20) x <- rbinom(20,,/(+exp(-(0.3-0.2*z)))) glm(x~z,family=binomial) x <- rbinom(20,5,/(+exp(-(0.3-0.2*z)))) glm(cbind(x,5-x)~z,family=binomial)

カウントデータ 0,, 2, 3, 魚の尾数, オットセイの群れの数, 脈拍は実際は連続値であるが, ここでは離散データとして扱う modelp.f <- glm(pulse~day+ap+iteration,family=poisson,data=bp.dat)

過分散 Var(X) > E(X) 負の二項分布 Pr = Γ( + ) Γ! + + E(X)=μ, Var(X) = μ + μ 2 /d library(mass) z <- rnorm(30) x <- rnbinom(30,size=0.5,mu=exp(0.2-0.3*z)) glm.nb(x~z)

ランダム効果モデル 同じ日の同じ時間帯の測定結果は同じ値を持つ傾向がある? w/o random effect w/ random effect BP 60 50 40 30 20 5 0 5 20 Day BP 200 80 60 40 20 00 80 5 0 5 20 Day

ランダム効果モデル 同じ日の血圧は同じような値 Y ij = μ i + b day ij + e ij, (i = 日, j = 繰り返し ) e ij ~ N(0, σ 2 ) μ i = μ + r i r i ~ N(0, σ r2 ) パラメータ推定 : 尤度関数 p(y r)p(r)dr を最大化 library(lme4) lmer(high ~ Day+Iterarion+( ID), data=bp.dat,reml=false)

ランダム効果モデルの利点と 点 Type I error 過小推定の回避 過分散を扱う 柔軟なモデリングを可能にする 潜在要因 構造を考慮 欠測値を扱える 計算が大変

GLMM Generalized Linear Mixed Models 応答変数の確率分布として正規分布以外の確率分布も扱う ランダム効果は通常, 正規分布を仮定する lme4 には glmer という関数がある glmer((high - Low > 40) ~ Day+( ID),family=binomial,data=bp.dat) library(glmmml) なども

ベクトル回帰 血圧の上と下には相関がある 圧の上と下の減少率は同じか, 違うか? 血圧の上と下に朝夜の影響の違いはあるか? High 20 30 40 50 60 80 85 90 95 00 05 Low

ベクトル回帰 = + + + ~N 0 0, 温と漁獲量 (or CPUE) の間の関係は? 複数種の関係は?

ベクトル回帰 library(vgam) modelv. <- vglm(cbind(high, Low)~Day+AP+Iteration, data=bp.dat, binormal(eq.mean=false), maxit=000) modelv..4 <- vglm(cbind(high, Low)~Day+AP+Iteration, data=bp.dat, binormal(eq.mean=~day+ap-), maxit=000) Day の係数と午前 / 午後 (AP) の効果は High と Low で共通切 と Iteration は High と Low で違うパラメータとして推定される

一般化加法モデル (GAM) ノンパラメトリック回帰 非線形な変化を扱える ( 水温, 空間分布, ) s(day,.55) -5 0 5 0 library(mgcv) modelh.gam <- gam(high~s(day)+ap+iteration, data=bp.dat) 2 4 6 8 0 2 4 6 Day

GLM の応用 状態空間モデル (State-Space Model) X t = F(X t-, e t ) Y t = G(X t, v t ) GLM-Tree Ichinokawa, M., and Brodziak, J. 200. Fish Res 06(3): 249-260. http://cse.fra.affrc.go.jp/ichimomo/tuna/glm.tree.html Zero-inflated Models ~ ZINBNB Okamura, H. et al. 202. Population Ecology 54(3): 467-474.

ベイズ推定 事後確率 尤度 事前分布 MCMC https://sites.google.com/site/hiroshiokamura/bayes

水産資源学で使われる回帰 CPUE 標準化 ( 線形回帰 /GLM/GLMM) DeLury 法 ( 線形回帰 ) 死亡係数推定 ( 線形回帰 ) 成 曲線推定 ( 線形 非線形回帰 ) 成熟曲線推定 ( ロジスティック回帰 ) 個体群モデル ( 線形 非線形回帰 /GLM/GLMM) 空間分布モデル (GLM/GLMM/GAM/GAMM) 年齢組成 体 組成 (VGAM/VGAMM) 種間関係モデル (VGAM/VGAMM)

Homework 血圧測定しよう! 自分のデータにモデルを適用してみよう!