スライド 1

Similar documents
スライド 1

スライド 1

Microsoft PowerPoint - 統計科学研究所_R_重回帰分析_変数選択_2.ppt

Microsoft PowerPoint - e-stat(OLS).pptx

スライド 1

スライド 1

統計的データ解析

スライド 1

スライド 1

Microsoft PowerPoint - 資料04 重回帰分析.ppt

ビジネス統計 統計基礎とエクセル分析 正誤表

切片 ( 定数項 ) ダミー 以下の単回帰モデルを考えよう これは賃金と就業年数の関係を分析している : ( 賃金関数 ) ここで Y i = α + β X i + u i, i =1,, n, u i ~ i.i.d. N(0, σ 2 ) Y i : 賃金の対数値, X i : 就業年数. (

スライド 1

スライド 1

PowerPoint プレゼンテーション

日心TWS

カイ二乗フィット検定、パラメータの誤差

1.民営化

Kumamoto University Center for Multimedia and Information Technologies Lab. 熊本大学アプリケーション実験 ~ 実環境における無線 LAN 受信電波強度を用いた位置推定手法の検討 ~ InKIAI 宮崎県美郷

Microsoft Word - mstattext02.docx

Microsoft PowerPoint - H17-5時限(パターン認識).ppt

13章 回帰分析

発表の流れ 1. 回帰分析とは? 2. 単回帰分析単回帰分析とは? / 単回帰式の算出 / 単回帰式の予測精度 <R による演習 1> 3. 重回帰分析重回帰分析とは? / 重回帰式の算出 / 重回帰式の予測精度 質的変数を含む場合の回帰分析 / 多重共線性の問題 変数選択の基準と方法 <R による


Microsoft Word - å“Ÿåłžå¸°173.docx

多変量解析 ~ 重回帰分析 ~ 2006 年 4 月 21 日 ( 金 ) 南慶典

基礎統計

Microsoft Word - 補論3.2

統計学 - 社会統計の基礎 - 正規分布 標準正規分布累積分布関数の逆関数 t 分布正規分布に従うサンプルの平均の信頼区間 担当 : 岸 康人 資料ページ :

Probit , Mixed logit

基礎統計

<4D F736F F D208EC08CB18C7689E68A E F1918A8AD695AA90CD2E646F63>

データ解析

みっちりGLM

様々なミクロ計量モデル†

JMP による 2 群間の比較 SAS Institute Japan 株式会社 JMP ジャパン事業部 2008 年 3 月 JMP で t 検定や Wilcoxon 検定はどのメニューで実行できるのか または検定を行う際の前提条件の評価 ( 正規性 等分散性 ) はどのメニューで実行できるのかと

EBNと疫学

Microsoft Word - Stattext13.doc

Python-statistics5 Python で統計学を学ぶ (5) この内容は山田 杉澤 村井 (2008) R によるやさしい統計学 (

<4D F736F F D208EC08CB18C7689E68A E F AA957A82C682948C9F92E82E646F63>

Microsoft Word - Stattext12.doc

数値計算法

Microsoft PowerPoint - 測量学.ppt [互換モード]

構造方程式モデリング Structural Equation Modeling (SEM)

横浜市環境科学研究所

0 部分的最小二乗回帰 Partial Least Squares Regression PLS 明治大学理 学部応用化学科 データ化学 学研究室 弘昌

ベイズ統計入門

Microsoft PowerPoint - ch04j

第7章

スライド 1

Microsoft Word - eviews6_

14 化学実験法 II( 吉村 ( 洋 mmol/l の半分だったから さんの測定値は くんの測定値の 4 倍の重みがあり 推定値 としては 0.68 mmol/l その標準偏差は mmol/l 程度ということになる 測定値を 特徴づけるパラメータ t を推定するこの手

DAA04

Microsoft PowerPoint - R-stat-intro_04.ppt [互換モード]

講義「○○○○」

Microsoft PowerPoint - Econometrics pptx

因子分析

Microsoft Word doc

スライド 1

<4D F736F F F696E74202D E738A5889BB8BE688E68A4F82CC926E89BF908492E882C98AD682B782E98CA48B862E707074>

Microsoft PowerPoint - S11_1 2010Econometrics [互換モード]

はじめに Excel における計算式の入力方法の基礎 Excel では計算式を入力することで様々な計算を行うことができる 例えば はセルに =SQRT((4^2)/3+3*5-2) と入力することで算出される ( 答え ) どのような数式が使えるかは 数式

タイトルを修正 軸ラベルを挿入グラフツール デザイン グラフ要素を追加 軸ラベル 第 1 横 ( 縦 ) 軸 凡例は削除 横軸は, 軸の目盛範囲の最小値 最 大値を手動で設定して調整 図 2 散布図の仕上げ見本 相関係数の計算 散布図を見ると, 因果関係はともかく, 人口と輸送量の間には相関関係があ

<4D F736F F F696E74202D BD95CF97CA89F090CD F6489F18B4195AA90CD816A>

相関分析・偏相関分析

<4D F736F F D2090B695A8939D8C768A E F AA957A82C682948C9F92E8>

Microsoft PowerPoint - 基礎・経済統計6.ppt

当し 図 6. のように 2 分類 ( 疾患の有無 ) のデータを直線の代わりにシグモイド曲線 (S 字状曲線 ) で回帰する手法である ちなみに 直線で回帰する手法はコクラン アーミテージの傾向検定 疾患の確率 x : リスクファクター 図 6. ロジスティック曲線と回帰直線 疾患が発

_KyoukaNaiyou_No.4

Microsoft Word - appendix_b

「統 計 数 学 3」

PowerPoint プレゼンテーション

Microsoft PowerPoint - データ解析基礎4.ppt [互換モード]

スライド タイトルなし

ii 3.,. 4. F. (), ,,. 8.,. 1. (75% ) (25% ) =9 7, =9 8 (. ). 1.,, (). 3.,. 1. ( ).,.,.,.,.,. ( ) (1 2 )., ( ), 0. 2., 1., 0,.

研修コーナー

パーキンソン病治療ガイドライン2002

PowerPoint プレゼンテーション

計量経済学の第一歩 田中隆一 ( 著 ) gretl で例題と実証分析問題を 再現する方法 発行所株式会社有斐閣 2015 年 12 月 20 日初版第 1 刷発行 ISBN , Ryuichi Tanaka, Printed in Japan

Excelによる統計分析検定_知識編_小塚明_5_9章.indd

Microsoft PowerPoint - sc7.ppt [互換モード]

. 分析内容及びデータ () 分析内容中長期の代表的金利である円金利スワップを題材に 年 -5 年物のイールドスプレッドの変動を自己回帰誤差モデル * により時系列分析を行った * ) 自己回帰誤差モデル一般に自己回帰モデルは線形回帰モデルと同様な考え方で 外生変数の無いT 期間だけ遅れのある従属変

Microsoft Word - econome4.docx

If(A) Vx(V) 1 最小 2 乗法で実験式のパラメータが導出できる測定で得られたデータをよく近似する式を実験式という. その利点は (M1) 多量のデータの特徴を一つの式で簡潔に表現できること. また (M2) y = f ( x ) の関係から, 任意の x のときの y が求まるので,

経営統計学

Microsoft PowerPoint - A1.ppt [互換モード]

解析センターを知っていただく キャンペーン

Microsoft PowerPoint - GLMMexample_ver pptx

Excelにおける回帰分析(最小二乗法)の手順と出力

Microsoft Word - Time Series Basic - Modeling.doc

(3) 検定統計量の有意確率にもとづく仮説の採否データから有意確率 (significant probability, p 値 ) を求め 有意水準と照合する 有意確率とは データの分析によって得られた統計値が偶然おこる確率のこと あらかじめ設定した有意確率より低い場合は 帰無仮説を棄却して対立仮説

Medical3

今日の要点 あぶない 時系列データ解析は やめましょう! 統計モデル のあてはめ (危 1) 時系列データの GLM あてはめ (危 2) 時系列Yt 時系列 Xt 各時刻の個体数 気温 とか

Microsoft PowerPoint - データ解析発表2用パワポ

データの整理 ( 度数分布表とヒストグラム ) 1 次元のデータの整理の仕方として代表的な ものに度数分布表とヒストグラムがあります 度数分布表観測値をその値に応じていくつかのグループ ( これを階級という ) に分類し 各階級に入る観測値の数 ( これを度数という ) を数えて表にしたもの 2

13章 回帰分析

2. 時系列分析 プラットフォームの使用法 JMP の 時系列分析 プラットフォームでは 一変量の時系列に対する分析を行うことができます この章では JMP のサンプルデ ータを用いて このプラットフォームの使用法をご説明します JMP のメニューバーより [ ヘルプ ] > [ サンプルデータ ]

NLMIXED プロシジャを用いた生存時間解析 伊藤要二アストラゼネカ株式会社臨床統計 プログラミング グループグルプ Survival analysis using PROC NLMIXED Yohji Itoh Clinical Statistics & Programming Group, A

講義のーと : データ解析のための統計モデリング. 第5回

1

Transcription:

担当 : 田中冬彦 016 年 4 月 19 日 @ 統計モデリング 統計モデリング 第二回配布資料 文献 : A. J. Dobson and A. G. Barnett: An Introduction to Generalized Linear Models 3rd ed., CRC Press. 配布資料の PDF は以下からも DL できます. 短縮 URL http://tinyurl.com/lxb7kb8

第二回 ( 今回 ) 線形モデル 今後の予定 第三回一般化線形モデル Location 第四回ベイズ統計 ( 導入 ) Google map から転載 画像は You tube, 新唐人日本 011 年 5 月 5 日付ニュース より * ニュースの内容の信ぴょう性には言及しません ( たとえば, 日本住血吸虫の場合, 経口感染でないことが実験で示されています ) ガンバ大阪ホームページより http://www.gamba-osaka.net/stadium/ 第五回ベイズファクター Google map から転載

復習もかねて ~ 相関分析の初歩

アンケート 番から 学習したいこと ( おもに統計 3 研究室以外 ) 複数のデータの関係性を見つける方法を知りたい 多変量解析, グラフィカルモデリング, 因果推論 etc. ( 上級の話題 ) 復習もかねて, 相関分析の話を少し ( 阪大学部 1 年統計学 B-/C- より )

標本相関係数 変量データで因果関係が不明瞭な場合 二つの項目の関連を見るには? 例 英語の点数 (X) と統計の点数 (Y) (100 点満点 ) 男女カップルにおける男の身長 (X) と女の身長 (Y) (X, Y) 88, 90 45, 78 56, 100 (X, Y) 188, 190 145, 178 156, 00... まずは散布図を作って, 標本相関係数を求める

標本相関係数 散布図 変量データで片方を横軸にもう片方を縦軸にとってプロットしたもの 標本相関係数 変量データの線形的な関係 (y=ax+b といった関係 ) をはかる指標 r = xy ただし, ここで s S x xy S y 1 r 1 xy s x = S xy =

散布図と標本相関係数の例 r= r= r= Y 44 46 48 50 5 54 56 r xy = 0.00357 Y 44 46 48 50 5 54 56 58 r xy = 0.658 Y 45 50 55 r xy = 0.79-4 - 0 4 6 X -6-4 - 0 4 6 X -4-0 4 6 X

考えてみよう r xy = s S x xy S y =? r= r= Y 0.0 0. 0.4 0.6 0.8 1.0 Y 0.0 0. 0.4 0.6 0.8 1.0-1.0-0.5 0.0 0.5 1.0 X -1.0-0.5 0.0 0.5 1.0 X a. 0.109 b. 0.89 c. -0.009 d. -0.74 e. -0.37 f. 0.44

まとめ : 標本相関係数 標本相関係数 変量データの をはかる指標 r = xy s S x xy S y 1 r 1 xy 注意点 ( 統計学 B-1/C-1 の内容 ) y = ax + b できない!! といった関係 ( 非線形という ) をはかることは r の値のみでなく必ず散布図を目で確認することが大事 多変量データの散布図は第三回で出てきます

復習もかねて ~ 分析前の作業

本講義のスタンスデータは所与とする. データの下ごしらえ 本来 : 仮説立案とその検証を目的とする場合, データの収集段階で統計の専門家が入って収集方法 ( データ数など ) を検討すべき 分析前の作業 分析前に生データに手を加えることが多い データの出典に関する情報, 収集方法, 分野固有の専門知識 が必要 そのまま調理したらダメ! ( アク抜き必須 )

考えてみよう : データの下ごしらえ 1. 実際に生データを分析したことがある人は 分析前に データの一部を削ったことがあるかもしれない その理由を思い出してみる. 分析経験がない人は 自由に想像してみること 正解を求めているわけではない!

分析前の作業 分析データの精錬作業 データの中身の確認 ( 数値チェック ) プロット, 図示 ( 視覚的に見ておかしくないか?) 加工 削除 ( 慎重に!)

1. 線形モデル

1.1 単回帰と統計モデル

回帰分析 (B-/C- 資料より ) 例題 : みずほの部屋探し O 大学新入生のみずほさんは賃貸情報をネットで検索. 以下のようなデータを得ました. 豊中キャンパス近くの賃貸物件 (1K) 最寄り駅からの距離 ( 徒歩 ): 3 5 6 10 11 17 一カ月の賃料 ( 万円 ): 8 7.3 6. 4 4. 3.5 傾向をみるため, 横軸に距離, 縦軸に賃料をとりプロット ( 点を打つ )

データのプロット Kaiki 10^4 YEN 0 4 6 8 10 R プログラム例 x <- c(3, 5,6, 10, 11, 17); y <- c(8, 7.3, 6., 4, 4., 3.5); plot(x,y, pch=18, col=, xlim=c(0, 0), ylim=c(0, 10), main="kaiki", xlab="min Walk", ylab="10^4 YEN"); abline(h=0, lty=, col="gray"); # hori line abline(v=0, lty=, col="gray"); # vert line 0 5 10 15 0 Min Walk

線形モデルの導入 線形モデル ( 説明変数 目的変数が各々 1 変数 ; 線形回帰モデル ) Y = α + βx + ε i i i i =1,,,6 ε ~ N(0, σ ) i x: 最寄駅からの距離 ( 分 : 徒歩換算 ), y: 一か月の家賃 ( 万円 ) モデルのパラメータ, α, β; σ パラメータを最尤推定法によって推定し以下の直線を引いてみる Y = αˆ + βx ˆ

推定したパラメータでの直線 R プログラム例 ( 回帰分析 ) x <- c(3, 5,6, 10, 11, 17); y <- c(8, 7.3, 6., 4, 4., 3.5); res <- lm(y~x); ahat <- res$coefficients[1]; bhat <- res$coefficients[]; R プログラム例 ( 回帰直線 ) plot(x,y, pch=18, col=, xlim=c(0, 0), ylim=c(0, 10), main="kaiki", xlab="min Walk", ylab="10^4 YEN"); abline(h=0, lty=, col="gray"); # hori line abline(v=0, lty=, col="gray"); # vert line abline(a=ahat, b=bhat); 10^4 YEN 0 4 6 8 10 Kaiki 0 5 10 15 0 Min Walk

考えてみよう 下図は最小二乗法を用いて求めた直線を引いたもの. 最尤推定法に基づくものと同じだろうか, 違うだろうか Kaiki 最小二乗法 min α, β 6 { yi ( α + βx i )} i= 1 10^4 YEN 0 4 6 8 10 0 5 10 15 0 Min Walk

考えてみよう 重要! 最小二乗法 最尤推定法 min α, β 6 { yi ( α + βx i )} i= 1 Y = α + β + ε i x i i ε ~ i N(0, σ ) Kaiki 10^4 YEN 0 4 6 8 10 0 5 10 15 0 Min Walk

統計モデリングの概念的な式 統計モデリングの立場 Y = f (x) + ε ( 真の ) 関係式確率的な変動 ε 部分に確率分布を導入 ( 仮定 ) データが少ないことによる効果 ( 統計誤差 ) や実験で不可避の測定誤差を踏まえた議論が可能になる!

統計モデリングの概念的な式 注意すべきこと Y = f (x) + ε ε 1. の項は加法的とは限らない. 正しい関係式があるとは限らないし, 理解しやすい近似式の方が有効なこともある 3. 独立で同一な正規分布を使う理由は計算上の都合 ( 正規分布以外を仮定, 異分散や相関をもたせたモデル = 上級の話題 ) ε 4. 部分に 正しい確率分布 はないと考えてよい.

1. 複数の線形モデル

Birthweight vs Gestational Age データ例 ( 余計なものは取り除いてある ) 胎内にいた期間 [ 週 ], 出生時の体重 [g], 男児 (b)/ 女児 (g) 男児, 女児ともに標本サイズは 1 ずつ 1 40 968 b 38 795 b 3 40 3163 b 4 35 95 b 5 36 65 b 6 37 847 b 7 41 39 b 8 40 3473 b 9 37 68 b 10 38 3176 b 11 40 341 b 1 38 975 b 13 40 3317 g 14 36 79 g 15 40 935 g 16 38 754 g 17 4 310 g 18 39 817 g 19 40 316 g 0 37 539 g 1 36 41 g 38 991 g 3 39 875 g 4 40 331 g

データのプロット 見てわかること Weight 400 600 800 3000 300 3400 b g Chap. 35 36 37 38 39 40 41 4 定量的な確認 : ρ = 0. 744 たとえば相関係数の計算 Age

線形モデルの導入 線形モデル ( 説明変数 目的変数が各々 1 変数 ) E[ Y i ] = µ = α + βx i Y = α + βx + ε i i i i i =1,,,4 ε ~ N(0, σ ) i モデルのパラメータ, x: 胎内にいた期間 ( 週 ), y: 出生時の体重 α, β; σ パラメータを最尤推定法によって推定し以下の直線を引いてみる Y = αˆ + βx ˆ

回帰直線を引いてみる Chap. R プログラム例 データ > dat AGE WEI TYPE 1 40 968 b 38 795 b 3 39 875 g 4 40 331 g 線形回帰 Weight 400 600 800 3000 300 3400 b g > dat.res <- lm(wei~ AGE, data= dat); 35 36 37 38 39 40 41 4 回帰直線 y = ˆ α + βx ˆ ˆ α = 1484, ˆ β = 115. 5 Age

男児 女児に分けて推定すると データを男児 (j=1), 女児 (j=) に分けて分析 Chap. 線形モデル Y ji = α + β x + ε j 回帰直線 y = ˆ α + ˆ β x j j j ji α = 169, ˆ β ˆ1 1 = = 14, ˆ β ˆ = α ji 11 130 ε ji ~ N(0, σ ) Weight 400 600 800 3000 300 3400 b g 35 36 37 38 39 40 41 4 Age 分析の課題 線形回帰はよさそうだが, 男児と女児で分けて考えた方がいいのか?

仮説検定によるモデル選択 (1/) 種類の線形モデルで仮説検定 ( 一般的な形 ) j =1,..., J; k = 1,..., K H0: 傾きは等しい線形モデル (0) Yjk = j + βx jk α + ε jk ε jk ~ N(0, σ ) H1: 傾きが異なる線形モデル (1) Yjk = j + β j α x + ε jk jk ε jk ~ N(0, σ ) 検定統計量 : J S S S 0 1 ~ 1 = ; K = 1 J ( K ) J 1 F J 1, J ( K ) S 0 (0) (1) : = Y jk ˆ α j ˆ βx S = ˆ 1 α j j, k jk : Y ˆ jk β x j, k j jk

仮説検定によるモデル選択 (/) 種類の線形モデルで仮説検定 H0: 傾きは等しい線形モデル VS H1: 傾きが異なる線形モデル ( 有意水準 0.05) 仮説 H0 が正しいとすると, 検定統計量の値は 0 から 4.35 程度におさまるはず 実際に ( がんばって ) 計算すると S0 S1 J ( K ) = 0.19 << S J 1 1 4.35 S 0 (0) (1) : = Y jk ˆ α j ˆ βx S = ˆ 1 α j j, k jk : Y ˆ jk β x j, k j jk J = ; K = 1 (H0 は棄却されないため ) 傾きが異なるとは言えない

一般のモデル選択 ( ネイマン ピアソン流の ) 仮説検定 途中の計算がとても大変 初学者にはかなりわかりにくい 使用上の制約が多い 赤池情報量規準 (Akaike Information Criterion) を用いたモデル選択 AIC = L( θ ˆ) + p L (θ ) θˆ 尤度関数 最尤推定での推定値 p パラメータ数 尤度関数の最大値 L ( ˆ) θ = max L( θ ) ( 最尤推定は尤度関数を最大化 ) とパ θ ラメータ数からAICを計算 ; 相対的にAICの小さいモデルを選ぶ 本講義は統計モデルの紹介が主, AIC などは機械的に使用してよい.