スライド 1

Similar documents
スライド 1

スライド 1

様々なミクロ計量モデル†

Probit , Mixed logit

みっちりGLM

スライド 1

Microsoft PowerPoint - 統計科学研究所_R_重回帰分析_変数選択_2.ppt

統計的データ解析

NLMIXED プロシジャを用いた生存時間解析 伊藤要二アストラゼネカ株式会社臨床統計 プログラミング グループグルプ Survival analysis using PROC NLMIXED Yohji Itoh Clinical Statistics & Programming Group, A

Microsoft Word - Time Series Basic - Modeling.doc

スライド 1

日心TWS

スライド 1

カイ二乗フィット検定、パラメータの誤差

ii 2. F. ( ), ,,. 5. G., L., D. ( ) ( ), 2005.,. 6.,,. 7.,. 8. ( ), , (20 ). 1. (75% ) (25% ). 60.,. 2. =8 5, =8 4 (. 1.) 1.,,

ii 3.,. 4. F. (), ,,. 8.,. 1. (75% ) (25% ) =9 7, =9 8 (. ). 1.,, (). 3.,. 1. ( ).,.,.,.,.,. ( ) (1 2 )., ( ), 0. 2., 1., 0,.

統計学 - 社会統計の基礎 - 正規分布 標準正規分布累積分布関数の逆関数 t 分布正規分布に従うサンプルの平均の信頼区間 担当 : 岸 康人 資料ページ :

スライド 1

Microsoft Word - 補論3.2

ベイズ統計入門

OpRisk VaR3.2 Presentation

Microsoft PowerPoint - e-stat(OLS).pptx

基礎統計

Microsoft PowerPoint - 資料04 重回帰分析.ppt

Excelにおける回帰分析(最小二乗法)の手順と出力

Microsoft Word doc

パーキンソン病治療ガイドライン2002

研修コーナー

Microsoft PowerPoint - S11_1 2010Econometrics [互換モード]

スライド 1

Microsoft Word - Matlab_R_MLE.docx

講義「○○○○」

14 化学実験法 II( 吉村 ( 洋 mmol/l の半分だったから さんの測定値は くんの測定値の 4 倍の重みがあり 推定値 としては 0.68 mmol/l その標準偏差は mmol/l 程度ということになる 測定値を 特徴づけるパラメータ t を推定するこの手

スライド 1

森林水文 水資源学 2 2. 水文統計 豪雨があった時, 新聞やテレビのニュースで 50 年に一度の大雨だった などと報告されることがある. 今争点となっている川辺川ダムは,80 年に 1 回の洪水を想定して治水計画が立てられている. 畑地かんがいでは,10 年に 1 回の渇水を対象として計画が立て

Microsoft PowerPoint slide2forWeb.ppt [互換モード]

今日の要点 あぶない 時系列データ解析は やめましょう! 統計モデル のあてはめ (危 1) 時系列データの GLM あてはめ (危 2) 時系列Yt 時系列 Xt 各時刻の個体数 気温 とか

Microsoft PowerPoint - H17-5時限(パターン認識).ppt

Microsoft PowerPoint - 基礎・経済統計6.ppt

ビジネス統計 統計基礎とエクセル分析 正誤表

1 (1) () (3) I 0 3 I I d θ = L () dt θ L L θ I d θ = L = κθ (3) dt κ T I T = π κ (4) T I κ κ κ L l a θ L r δr δl L θ ϕ ϕ = rθ (5) l

<4D F736F F D208EC08CB18C7689E68A E F AA957A82C682948C9F92E82E646F63>

今回 次回の要点 あぶない 時系列データ解析は やめましょう! 統計モデル のあてはめ Danger!! (危 1) 時系列データの GLM あてはめ (危 2) 時系列Yt 時系列 Xt 各時刻の個体数 気温 とか これは次回)

Microsoft PowerPoint - Econometrics pptx

最小二乗フィット、カイ二乗フィット、gnuplot

Microsoft PowerPoint - sc7.ppt [互換モード]

数値計算法

日本内科学会雑誌第102巻第4号

ファイナンスのための数学基礎 第1回 オリエンテーション、ベクトル

Microsoft PowerPoint - 時系列解析(11)_講義用.pptx

Microsoft Word - eviews6_

Microsoft PowerPoint - 測量学.ppt [互換モード]

Microsoft Word - å“Ÿåłžå¸°173.docx

ii 3.,. 4. F. (), ,,. 8.,. 1. (75%) (25%) =7 20, =7 21 (. ). 1.,, (). 3.,. 1. ().,.,.,.,.,. () (12 )., (), 0. 2., 1., 0,.

多変量解析 ~ 重回帰分析 ~ 2006 年 4 月 21 日 ( 金 ) 南慶典

Microsoft PowerPoint - データ解析基礎4.ppt [互換モード]

PowerPoint プレゼンテーション

第90回日本感染症学会学術講演会抄録(I)

切片 ( 定数項 ) ダミー 以下の単回帰モデルを考えよう これは賃金と就業年数の関係を分析している : ( 賃金関数 ) ここで Y i = α + β X i + u i, i =1,, n, u i ~ i.i.d. N(0, σ 2 ) Y i : 賃金の対数値, X i : 就業年数. (

SAP11_03

Ł\”ƒ-2005

Microsoft PowerPoint - SAS2012_ZHANG_0629.ppt [互換モード]

Kumamoto University Center for Multimedia and Information Technologies Lab. 熊本大学アプリケーション実験 ~ 実環境における無線 LAN 受信電波強度を用いた位置推定手法の検討 ~ InKIAI 宮崎県美郷

数値計算法

1

<4D F736F F F696E74202D E738A5889BB8BE688E68A4F82CC926E89BF908492E882C98AD682B782E98CA48B862E707074>

確率分布 - 確率と計算 1 6 回に 1 回の割合で 1 の目が出るさいころがある. このさいころを 6 回投げたとき,1 度も 1 の目が出ない確率を求めよ. 5 6 /6 6 =15625/46656= (5/6) 6 = ある市の気象観測所での記録では, 毎年雨の降る



Microsoft Word - 訋é⁄‘組渋å�¦H29æœ�末試é¨fi解ç�fl仟㆓.docx

回帰分析 単回帰

(1) 3 A B E e AE = e AB OE = OA + e AB = (1 35 e ) e OE z 1 1 e E xy e = 0 e = 5 OE = ( 2 0 0) E ( 2 0 0) (2) 3 E P Q k EQ = k EP E y 0

PowerPoint プレゼンテーション

情報工学概論

平成 7 年度数学 (3) あるゲームを 回行ったときに勝つ確率が. 8のプレイヤーがいる このゲームは 回ごとに独 立であるとする a. このゲームを 5 回行う場合 中心極限定理を用いると このプレイヤーが 5 回以上勝つ確率 は である. 回以上ゲームをした場合 そのうちの勝ち数が 3 割以上

3/4/8:9 { } { } β β β α β α β β

PowerPoint プレゼンテーション

4 段階推定法とは 予測に使うモデルの紹介 4 段階推定法の課題 2

kubo2015ngt6 p.2 ( ( (MLE 8 y i L(q q log L(q q 0 ˆq log L(q / q = 0 q ˆq = = = * ˆq = 0.46 ( 8 y 0.46 y y y i kubo (ht

EBNと疫学

<4D F736F F D208EC08CB18C7689E68A E F193F18D8095AA957A C C839395AA957A814590B38B4B95AA957A2E646F63>

CAEシミュレーションツールを用いた統計の基礎教育 | (株)日科技研

スライド 1

1.民営化

 

第7章

スライド 1

<4D F736F F D208EC08CB18C7689E68A E F193F18D8095AA957A C C839395AA957A814590B38B4B95AA957A2E646F63>

スライド 1

Microsoft Word - reg.doc

生命情報学

当し 図 6. のように 2 分類 ( 疾患の有無 ) のデータを直線の代わりにシグモイド曲線 (S 字状曲線 ) で回帰する手法である ちなみに 直線で回帰する手法はコクラン アーミテージの傾向検定 疾患の確率 x : リスクファクター 図 6. ロジスティック曲線と回帰直線 疾患が発

N cos s s cos ψ e e e e 3 3 e e 3 e 3 e

79!! 21

PowerPoint プレゼンテーション

基礎統計

基礎数理 ()Aさんは確定拠出年金の加入者となった 投資商品は収益率がそれぞれ独立な正規分布 N(7, σ ), N(, σ y ) に従う,Y から選択することとした の過去 8 年間の収益率の実績は {8,,,5,,-,6,}(%) Y の過去 6 年間の収益率の実績は {,,,4,,}(%)

本文/目次(裏白)

( )

一般化線型モデルとは? R 従属変数群が独立変数群の一次結合と誤差で表されるという形のモデルを線型モデルという ( 回帰分析はデータへの線型モデルの当てはめである ) 式で書けば Y = β 0 + βx + ε R では glm( ) という関数で実行する glm( ) は量的なデータが正規分布に

Transcription:

205 年 4 月 28 日 @ 統計モデリング 統計モデリング 第三回配布資料 文献 : A. J. Dobso ad A. G. Barett: A Itroducto to Geeralzed Lear Models. 3rd ed., CRC Press. J. J. Faraway: Etedg the Lear Model wth R. CRC Press. 配布資料の PDF は以下からも DL できます. 短縮 URL http://tyurl.com/lb7kb8 担当 : 田中冬彦

Chap. 3: データは主に Faraway から Google map から転載

Google map から転載 Locato

生データ 数値と記号のられつ ) Gve Data /2) > galapagos NS ES Area Aear Dst DstSC Elevato EM Baltra 58 23 25.09.84 0.6 0.6 NA 0 Bartolome 3 2.24 572.33 0.6 26.3 09 Caldwell 3 3 0.2 0.78 2.8 58.7 4 Champo 25 9 0.0 0.8.9 47.4 46 Coamao 2 0.05 903.82.9.9 NA 0 Daphe_Maor 8 0.34.84 8.0 8.0 NA 0 Darw 0 7 2.33 2.85 34. 290.2 68 Ede 8 4 0.03 7.95 0.4 0.4 NA 0 Ederby 2 2 0.8 0.0 2.6 50.2 2 Espaola 97 26 58.27 0.57. 88.3 98 Ferada 93 35 634.49 4669.32 4.3 95.3 494 Garder 58 7 0.57 58.27. 93. 49 Garder2 5 4 0.78 0.2 4.6 62.2 227 Geovesa 40 9 7.35 29.49 47.4 92.2 76 Isabela 347 89 4669.32 634.49 0.7 28. 707 Marchea 5 23 29.49 59.56 29. 85.9 343 Oslow 2 2 0.0 0.0 3.3 45.9 25 Pta 04 37 59.56 29.49 29. 9.6 777 Pzo 08 33 7.95 0.03 0.7 0.7 458 Las_Plazas 2 9 0.23 25.09 0.5 0.6 NA 0 Rabda 70 30 4.89 572.33 4.4 24.4 367 Sa_Crstobal 280 65 55.62 0.57 45.2 66.5 76 Sa_Salvador 237 8 572.33 4.89 0.2 9.8 906 Sata_Cruz 444 95 903.82 0.52 0.6 0.0 864 Sata_Fe 62 28 24.08 0.52 6.5 6.5 259 Sata_Mara 285 73 70.92 0.0 2.6 49.2 640 Seymour 44 6.84 25.09 0.6 9.6 NA 0 Tortuga 6 8.24 7.95 6.8 50.9 86 Wolf 2 2 2.85 2.33 34. 254.7 253 CRAN alr3 パッケージ内, galapagos データセット alr3 は, S. Wesberg による.

Gve Data 2/2) データの説明 galapagos 各島ごとの亀の種類 サンプルサイズ 29) 島の地理情報 NS=Number of speces, 島で観測された亀の種類 Area= 島の面積 [hr], Aear = 一番近い島の面積 [hr], Dst= 一番近い島との距離 [km], DstSC=Sata Cruz 島からの距離 [km], Elevato = 島の高度 [m] > galapagos NS Area Aear Dst DstSC Elevato Baltra 58 25. 09.84 0.6 0.6 NA Bartolome 3.24 572.33 0.6 26.3 09 Caldwell 3 0.2 0.78 2.8 58.7 4 データの図示 重要!) 見てわかること 定量的な確認

散布図 0 2000 4000 0 500 500 散布図 > parsgala.cor); NS 0 00 300 はずれ値? 散布図をみると Area でひとつでかいのが目立つ Isabera slad 0 2000 4000 Area Dst 0 0 20 30 40 0 500 500 Eleva 0 00 300 0 0 20 30 40

Chap. 3: データは主に Faraway から 面積 Area) の はずれ値! Google map から転載

Processed Data データの説明 gala.test = galapagos データの一部を削除 説明の都合 ) NS=Number of speces, 島で観測された亀の種類 Area= 島の面積 [hr], Aear = 一番近い島の面積 [hr], Dst= 一番近い島との距離 [km], DstSC=Sata Cruz 島からの距離 [km], Elevato = 島の高度 [m] > gala.test NS Area Aear Dst DstSC Elevato Bartolome 3.24 572.33 0.6 26.3 09 Caldwell 3 0.2 0.78 2.8 58.7 4 Champo 25 0.0 0.8.9 47.4 46... Sata_Mara 285 70.92 0.0 2.6 49.2 640 Tortuga 6.24 7.95 6.8 50.9 86 Wolf 2 2.85 2.33 34. 254.7 253 分析の課題 島ごとの亀の種類を説明する統計モデルを考える まずは線形モデルで )

線形モデルでむりやり解析 線形回帰 > gala.lm.res <- lmns~., data=gala.test); 線形回帰モデル 5 Y = α + β + ε = ε ~ 2 N0, σ ) あてはめた値 Ftted Value) 5 yˆ = ˆ α + = ˆ β α = 29.6, ˆ β = 0.285, ˆ β = 0.0667, ˆ β ˆ 2 3 = ˆ β = 0.33, ˆ β 4 5 = 0.44 0.290,

線形モデルでの残差プロット 回帰式は 6 次元なので図示できない 残差プロットでモデルのよさを検討 y yˆ Galapagos Tortose あてはめた値 Ftted Value) yˆ = ˆ α + 5 = ˆ β Resduals -50 0 50 00 残差 Resduals) y ˆ y 0 00 200 300 400 Ftted ŷ > plotpredctgala.lm.res), resdualsgala.lm.res), lab="ftted", ylab="resduals", ma="galapagos Tortose" ); > ableh=0, col="red"); モデルが正しいなら, 残差は平均 0 分散一定の正規分布から発生しているようにみえるはずだが

一般化線形モデルの導入 問題点 NS=Number of speces, 島で観測された亀の種類 離散値 Categorcal Data) 残差分析の結果 分散が一定とはいいがたい モデルが不適切であることを示唆 ) 分析の課題 線形モデルよりもよいモデルを考える Remark * 一般にAICや検定統計量の計算以前に残差はチェック 相関, 等分散 etc.)

ポアソン回帰モデル /2) 一般のポアソン回帰モデル Y Po µ ) ~ E[ Y ] = µ =,, log µ = p = β 説明変数の意味 µ µ = 0, = ) = = 0) 男 女, 喫煙 喫煙なし, etc.) e β 他の条件が同じ場合 説明変数が連続量でも同様に β を解釈できる.

ポアソン回帰モデル 2/2) ポアソン回帰モデルでの解析例 > gala.glm.res <- glmns~., famly=posso, data=gala.test); ポアソン回帰モデル Y Po µ ) ~ E[ Y ] = µ log µ = α + 5 = β あてはめた値 Ftted Value) 5 log ˆ µ = ˆ α + = ˆ β ˆ 4 ˆ 4 α = 3.48, β 5.26 0, 5.26 0, ˆ = β2 = β3 ˆ 3 ˆ 3 β4 = 4.55 0, β = 2.4 0 3 ˆ 5 = 7.00 0,

ポアソン回帰の残差プロット /3) 残差 * いくつかある ) Devace resduals スケーリングされた残差の一種 ) r = sg y ˆ µ ) DR d = d y, ˆ µ ) = 2 y log y / ˆ µ y + ˆ µ ) d Devace Resduals -5 0 5 0 Galapagos Tortose 00 200 300 400 ^ µˆ > plotpredctgala.glm.res, type="respose"), resdualsgala.glm.res), lab=epressohatmu)), ylab="devace Resduals", ma="galapagos Tortose"); > そのままのスケールだと, 左によってしまっている log mu) を横軸にとって残差プロットする

ポアソン回帰の残差プロット 2/3) Galapagos Tortose 残差 * いくつかある ) Devace resduals r = sg y ˆ µ ) DR d = d y, ˆ µ ) = 2 y log y / ˆ µ y + ˆ µ ) d Devace Resduals -5 0 5 0 3.0 3.5 4.0 4.5 5.0 5.5 6.0 ^ log > plotpredctgala.glm.res, type= lk"), resdualsgala.glm.res), lab=epressohatlogmu))), ylab="devace Resduals", ma="galapagos Tortose"); > 特徴的なパターンは見つからない

ポアソン回帰の残差プロット 3/3) Galapagos Tortose 残差 * いくつかある ) Respose resduals r = µˆ RR y ポアソン分布の分散 Var Y 5 ) = µ = + ep α β = Respose Resduals -00-50 0 50 00 50 3.0 3.5 4.0 4.5 5.0 5.5 6.0 ^ log >plotpredctgala.glm.res, type="lk"), resdualsgala.glm.res, type="respose"), lab=epressohatlogmu))), ylab="respose Resduals", ma="galapagos Tortose"); 実はもっと良いモデルが作れる 詳細は Faraway Chap.3, Chap.6 を参照 )

Offset ポアソン回帰の注意点 N 例 : 各地区ごとに人口 ) が違う場合の患者数 p p µ = N ep β = ep log N + β = = Y というモデル化をする offset term kow costat) Overdsperso 本来, ポアソン分布は期待値と分散は一致 Var Y ) = E[ ] = µ Y しかし, 実際のデータは分散が大きくみえる 負の二項分布でモデル化できる * 詳細は文献を参照

一般化線形モデル

Epoetal Famly /2) Y 確率変数 θ θ,, θ ) = パラメータ p Y の確率密度関数 もしくは確率分布 ) が以下の形でかける時 変数の ) 指数型分布族 Epoetal Famly) という. p y θ ) = s y) t θ )ep a y) b θ )) = ep a y) b θ ) + c θ ) + d y)) s y) > 0, t θ ) > 0 Caocal form p z θ ) = ~ s z) t θ )ep z b θ )) Natural Parameter η : = b θ ) 多くの確率分布が指数型分布族になっている.

)) ) )ep ) ) θ θ θ b y a t y s y p = )) ) ) ) ep y d c b y a + + = θ θ 例 :,) N m 2 ) 2 2 ) m e m p = π 平均 m, 分散の正規分布 ガウス分布 ) σ 2 = = ) log2 2 2 2 ep 2 2 π µ m 二項分布 回の試行, は固定 ),,,2, = 0 q q q p = ) ) = q q q log ep ) Epoetal Famly 2/2)

独立な確率変数 Geeralzed Lear Models /2) Y,,Y 各々, 同じ指数型分布族に従うとき 変数の ) 一般化線形モデル Geeralzed Lear Models; GLM) という. p y θ ) = ep yb θ ) + c θ ) + d y )) = p y θ ) ep yb θ ) + c θ ) + = = ここで興味あるパラメータは = E[ Y ] = µ GLM では共変量 説明変数 ) で以下を仮定 g µ ) = β p = = d y gµ) lk fucto リンク関数 ) )

ポアソン回帰の例 p y 以下を仮定 Geeralzed Lear Models 2/2) µ ) = µ ) y! ここで興味あるパラメータは log µ ) = p = y e β µ E[ Y ] = µ 以下の対数尤度関数をについて数値最大化 最尤推定 ) = = log p y µ ) = µ + y log µ β,, =,2,, = GLM ではプログラムによる数値解法が前提になっている β p = log y!

統計モデリング ~ 次回予告 Schstosoma apocum の卵 *) Schstosoma apocum の成虫 イメージイラスト ) 成虫 Schstosoma apocum) の写真は日本住血吸虫で検索してください 閲覧注意 *http://www.dpd.cdc.gov/dpd/html/schstosomass.htm