<4D F736F F F696E74202D BD95CF97CA89F090CD F6489F18B4195AA90CD816A>

Similar documents
Microsoft PowerPoint - 資料04 重回帰分析.ppt

(lm) lm AIC 2 / 1

DAA09

多変量解析 ~ 重回帰分析 ~ 2006 年 4 月 21 日 ( 金 ) 南慶典

Microsoft PowerPoint - 統計科学研究所_R_重回帰分析_変数選択_2.ppt

untitled

Microsoft Word - mstattext02.docx

発表の流れ 1. 回帰分析とは? 2. 単回帰分析単回帰分析とは? / 単回帰式の算出 / 単回帰式の予測精度 <R による演習 1> 3. 重回帰分析重回帰分析とは? / 重回帰式の算出 / 重回帰式の予測精度 質的変数を含む場合の回帰分析 / 多重共線性の問題 変数選択の基準と方法 <R による

スライド 1

Use R

回帰分析 単回帰

Microsoft PowerPoint - A1.ppt [互換モード]

スライド 1

0 部分的最小二乗回帰 Partial Least Squares Regression PLS 明治大学理 学部応用化学科 データ化学 学研究室 弘昌

201711grade2.pdf

> usdata01 と打ち込んでエンター キーを押すと V1 V2 V : : : : のように表示され 読み込まれていることがわかる ここで V1, V2, V3 は R が列のデータに自 動的につけた変数名である ( variable

13章 回帰分析

重回帰式 y= x x 2 重症度 5 TC TC 重症度

1.民営化

回帰分析の用途・実験計画法の意義・グラフィカルモデリングの活用 | 永田 靖教授(早稲田大学)

スライド 1

Microsoft PowerPoint - ch03j

J1順位と得点者数の関係分析

スライド 1

Microsoft PowerPoint - e-stat(OLS).pptx

PowerPoint プレゼンテーション

Microsoft Word - SDA2012kadai07.doc

データ分析のまとめ方

R による共和分分析 1. 共和分分析を行う 1.1 パッケージ urca インスツールする 共和分分析をするために R のパッケージ urca をインスツールする パッケージとは通常の R には含まれていない 追加的な R のコマンドの集まりのようなものである R には追加的に 600 以上のパッ

8 A B B B B B B B B B 175

1. 多変量解析の基本的な概念 1. 多変量解析の基本的な概念 1.1 多変量解析の目的 人間のデータは多変量データが多いので多変量解析が有用 特性概括評価特性概括評価 症 例 主 治 医 の 主 観 症 例 主 治 医 の 主 観 単変量解析 客観的規準のある要約多変量解析 要約値 客観的規準のな


一般化線型モデルとは? R 従属変数群が独立変数群の一次結合と誤差で表されるという形のモデルを線型モデルという ( 回帰分析はデータへの線型モデルの当てはめである ) 式で書けば Y = β 0 + βx + ε R では glm( ) という関数で実行する glm( ) は量的なデータが正規分布に

Microsoft Word - SPSS2007s5.doc

第2回 回帰と分散分析

経済統計分析1 イントロダクション

Microsoft Word - 計量研修テキスト_第5版).doc

統計的データ解析

Microsoft PowerPoint - Econometrics pptx

Excelにおける回帰分析(最小二乗法)の手順と出力

BMIdata.txt DT DT <- read.table("bmidata.txt") DT head(dt) names(dt) str(dt)

Microsoft Word - reg.doc

Chapter 1 Epidemiological Terminology

0506

ビジネス統計 統計基礎とエクセル分析 正誤表

Microsoft Word - reg2.doc

1 15 R Part : website:

13章 回帰分析

Microsoft PowerPoint - H17-5時限(パターン認識).ppt

R John Fox R R R Console library(rcmdr) Rcmdr R GUI Windows R R SDI *1 R Console R 1 2 Windows XP Windows * 2 R R Console R ˆ R

本日の内容 相関関係散布図 相関係数偏相関係数順位相関係数 単回帰分析 対数目盛 2

当し 図 6. のように 2 分類 ( 疾患の有無 ) のデータを直線の代わりにシグモイド曲線 (S 字状曲線 ) で回帰する手法である ちなみに 直線で回帰する手法はコクラン アーミテージの傾向検定 疾患の確率 x : リスクファクター 図 6. ロジスティック曲線と回帰直線 疾患が発

14 化学実験法 II( 吉村 ( 洋 mmol/l の半分だったから さんの測定値は くんの測定値の 4 倍の重みがあり 推定値 としては 0.68 mmol/l その標準偏差は mmol/l 程度ということになる 測定値を 特徴づけるパラメータ t を推定するこの手

Microsoft Word - econome5.docx

スライド 1

Microsoft Word - å“Ÿåłžå¸°173.docx

Microsoft PowerPoint - Econometrics

インターネットを活用した経済分析 - フリーソフト Rを使おう

Microsoft Word - 補論3.2

Microsoft PowerPoint - ch04j

講義「○○○○」

Medical3

6. 消費関数と 乗数効果 経済統計分析 (2017 年度秋学期 )

構造方程式モデリング Structural Equation Modeling (SEM)

以下の内容について説明する 1. VAR モデル推定する 2. VAR モデルを用いて予測する 3. グレンジャーの因果性を検定する 4. インパルス応答関数を描く 1. VAR モデルを推定する ここでは VAR(p) モデル : R による時系列分析の方法 2 y t = c + Φ 1 y t

Excelによるデータ分析

第7章

講義のーと : データ解析のための統計モデリング. 第3回

Microsoft Word - econome4.docx

<4D F736F F F696E74202D2091E63989F1837D815B F A B836093C1985F D816A2E >

スライド タイトルなし

6. 消費関数と乗数効果 経済統計分析 (2014 年度秋学期 ) 消費関数 ( 統計分析手法 ) 回帰分析 ( 単回帰 重回帰 ) 最小二乗法 回帰分析の推定結果の読み取り方 回帰係数の意味 実績値 推定値 残差 決定係数 自由度修正済決定係数 説明変数の選択 外れ値 ( 異常値 ) の影響 推定

Microsoft Word - 計量研修テキスト_第5版).doc

情報工学概論

基礎統計

回帰分析の重要な手続きは 次の 3 点にまとめられる 順に説明しよう ( 1) もっともよい線を引く ( 2) その線はどのくらいよい線であるかを評価する ( 3) 母集団についても同様の線を引く価値があるかどうかを判断する 概要をスライドで確認 テキスト p.99 の図が回帰分析の本質 実際のデー

Microsoft PowerPoint - 統計科学研究所_R_主成分分析.ppt

「統 計 数 学 3」

計量経済学の第一歩 田中隆一 ( 著 ) gretl で例題と実証分析問題を 再現する方法 発行所株式会社有斐閣 2015 年 12 月 20 日初版第 1 刷発行 ISBN , Ryuichi Tanaka, Printed in Japan

要旨 1. 始めに PCA 2. 不偏分散, 分散, 共分散 N N 49

EBNと疫学

スライド タイトルなし

モジュール1のまとめ

参考1中酪(H23.11)

経営戦略研究_1.indb

回帰分析 重回帰(1)

R Console >R ˆ 2 ˆ 2 ˆ Graphics Device 1 Rcmdr R Console R R Rcmdr Rcmdr Fox, 2007 Fox and Carvalho, 2012 R R 2

はじめに Excel における計算式の入力方法の基礎 Excel では計算式を入力することで様々な計算を行うことができる 例えば はセルに =SQRT((4^2)/3+3*5-2) と入力することで算出される ( 答え ) どのような数式が使えるかは 数式

Microsoft Word - apstattext01b.docx

<4D F736F F F696E74202D B835E89F090CD89898F4B81408F6489F18B4195AA90CD A E707074>

1 kawaguchi p.1/81

目次 1 章 SPSS の基礎 基本 はじめに 基本操作方法 章データの編集 はじめに 値ラベルの利用 計算結果に基づく新変数の作成 値のグループ化 値の昇順

目次 はじめに P.02 マクロの種類 ---

Microsoft PowerPoint - 福島放射能汚染状況 a

Microsoft Word - 教育経済学:課題1.docx

SPSSによる実習

Microsoft PowerPoint - Econometrics

目次 第 1 章序論 第 2 章データの概要 第 3 章 J リーグの現状 第 4 章分析 第 5 章まとめ 第 6 章今後の課題

<4D F736F F D CBB8D B898BE695AA964082CC89FC97C781408EE78CFB>

Probit , Mixed logit

Transcription:

主な多変量解析 9. 多変量解析 1 ( 重回帰分析 ) 目的変数 量的 説明変数 質的 あり量的 重回帰分析 数量化 Ⅰ 類 質的 判別分析 数量化 Ⅱ 類 なし 主成分分析因子分析多次元尺度構成法 数量化 Ⅲ 類数量化 Ⅳ 類 その他 クラスタ分析共分散構造分析 説明変数 : 独立変数 予測変数 目的変数 : 従属変数 基準変数 3 1. 単回帰分析各データの構造 y b ax a α: 1,,, n (nはサンプル数) a: 回帰係数 b: 切片 ε: 誤差 4 回帰式 yˆ b ax 身長 166 173 177 160 174 175 169 169 体重 66 70 76 65 74 75 74 7 5 身長 166 173 177 160 174 175 169 169 体重 66 70 76 65 74 75 74 7 6 身長から体重を予測する height <- c(166,173,177,160,174,175,169,169) weight <- c(66,70,76,65,74,75,74,7) taikei <- data.frame(height,weight) colnames(taikei) <- c(" 身長 ", " 体重 ") rownames(taikei) <- 1:8 taikei.lm <- lm( 体重 ~ 身長, taikei) summary(taikei.lm) 1

7 モデル式 8 lm(formula = 体重 ~ 身長, data = taikei) Residuals: Min 1Q Median 3Q Max -3.1841-0.5560 0.119 0.7451 3.38 (Intercept) -37.8083 6.4304-1.430 0.053 身長 0.6416 0.1551 4.138 0.00609 ** Signif. codes: 0 *** 0.001 ** 0.01 * 0.05. 0.1 1 Residual standard error:.78 on 6 degrees of freedom Multiple R-squared: 0.7405, Adjusted R-squared: 0.697 F-statistic: 17.1 on 1 and 6 DF, p-value: 0.006095 lm(formula = 体重 ~ 身長, data = taikei) Residuals: Min 残差の基本統計量 1Q Median 3Q Max -3.1841-0.5560 0.119 0.7451 3.38 (Intercept) -37.8083 6.4304-1.430 0.053 身長 0.6416 0.1551 4.138 0.00609 ** Signif. codes: 0 *** 0.001 ** 0.01 * 0.05. 0.1 1 Residual standard error:.78 on 6 degrees of freedom Multiple R-squared: 0.7405, Adjusted R-squared: par(cex=1.8, pch=16, lwd=3) plot(taikei, ylim=c(60,85), cex=1.5, col="red", xlab=" 身長 (cm)", ylab=" 体重 (Kg) ") abline(taikei.lm) 9 個々の残差の表示 taikei.lm$residuals でも同じ 10 残差 y a yˆ > ( 残差 <- residuals(taikei.lm)) 1 3 4 5 -.6931094-3.1841343 0.495657 0.1563405 0.174907 C 標準誤差 t 値 p 値 (Intercept) -37.8083 6.4304-1.430 0.053 身長 0.6416 0.1551 4.138 0.00609 ** Signif. codes: 0 *** 0.001 ** 0.01 * 0.05. 0.1 1 切片 回帰係数 Residual standard error:.78 on 6 degrees of freedom Multiple R-squared: 0.7405, Adjusted R-squared: 0.697 F-statistic: 17.1 on 1 and 6 DF, p-value: 0.006095 11 回帰係数残差の 乗和を最小にする a と b ( x Sxy x)( y y) a S ( x x) xx b y ax 回帰式 Weight 37.8083 0. 6416 Height 1

回帰係数の標準誤差 t 値 残差平方和 残差不偏分散 S e s e y yˆ ( ) Se n k 1 n : 標本数 k : 説明変数の数 13 切片の標準誤差 回帰係数の t 値 SE( b) se ( x x) t a a SE(a) 14 回帰係数の標準誤差 SE( a) 1 se n x ( x x) 切片の t 値 t b b SE(b) 推定値の標準誤差 = 残差の標準偏差 Residual standard error:.78 on 6 degrees of freedom Multiple R-squared: 0.7405, Adjusted R-squared: 0.697 F-statistic: 17.1 on 1 and 6 DF, p-value: 0.006095 決定係数 R ( 寄与率 ) 調整済み決定係数 R モデル全体のF 値 回帰の変動 0.8<R かなりよい 目的変数の変動 0.5<R <0.8 まあよい 15 決定係数 R 調整済み決定係数 R ~ S S R T R ~ S 1 1 e n k R S ( n 1) T n : 標本数 k : 説明変数の数 S T ( y y) ( yˆ y) S R 16 S e ( y yˆ) S T S R S e F 値 R F 1 R n k 1 k 17 予測値 残差 予測 <- predict(taikei.lm) data.frame(taikei, 予測, 残差 ) 身長体重 予測 残差 1 166 66 68.69311 -.6931094 173 70 73.18413-3.1841343 3 177 76 75.75043 0.495657 4 160 65 64.84366 0.1563405 5 174 74 73.8571 0.174907 6 175 75 74.4678 0.537157 7 169 74 70.61783 3.381656 8 169 7 70.61783 1.381656 18 3

19 0 回帰診断図残差と予測値 ( フィット値 ) par(mfrow=c(,)) 残差と予測値 残差の正規 Q-Q plot(taikei.lm, col="red", which=1) plot(taikei.lm) 残差の平方根 てこ比 標準化残差 残差の正規 Q-Q 1 残差の平方根 plot(taikei.lm, col="red", which=) plot(taikei.lm, col="red", which=3) Cook の距離 3 てこ比 標準化残差 4 plot(taikei.lm, col="red", which=4) plot(taikei.lm, col="red", which=5) 4

例題 ) データセット cars を使って 速度から停止距離を回帰分析せよ > (cars) 5. 重回帰分析各データの構造 ( 説明変数が i 個 ) y b a x a x a x i 1 1 i a 6 speed dist 1 4 4 10 3 7 4 4 7 組み込みのデータセットは > data() で一覧を見ることができるさらにヘルプで詳細が表示される α: 1,,, n (nはサンプル数) a i : 偏回帰係数 b: 切片 ε: 誤差 47 4 9 48 4 93 49 4 10 50 5 85 重回帰式 y b a1x1 ax a i x i 誤差の独立性 不偏性 等分散性 正規性を仮定 身長 体重 ウェスト 胸囲 166 66 79 83 173 70 78 80 177 76 80 86 160 65 78 81 174 74 79 84 175 75 81 84 169 74 84 91 169 7 81 85 7 相関行列 round(cor(taikei),3) 身長 体重ウェスト 胸囲 身長 1.000 0.861 0.180 0.08 体重 0.861 1.000 0.569 0.594 ウェスト 0.180 0.569 1.000 0.933 胸囲 0.08 0.594 0.933 1.000 8 height <- c(166,173,177,160,174,175,169,169) weight <- c(66,70,76,65,74,75,74,7) waist <- c(79,78,80,78,79,81,84,81) chest <- c(83,80,86,81,84,84,91,85) taikei <- data.frame(height,weight,waist,chest) colnames(taikei) <- c(" 身長 ", " 体重 ", " ウェスト ", " 胸囲 ") rownames(taikei) <- 1:8 対散布図 9 30 pairs(taikei, pch=1, bg="red", cex=, panel=panel.smooth) 5

31 3 重回帰分析 (taikei.lm <- lm( 体重 ~.,data=taikei)) summary(taikei.lm) lm(formula = 体重 ~., data = taikei) lm(formula = 体重 ~., data = taikei) (Intercept) 身長 ウェスト 胸囲 -85.4741 0.5765 0.4175 0.3009 Residuals: 1 3 4 5 6 7 8 -.1841-0.8996 0.1540 1.94 0.909 0.4913-0.408 0.6495 (Intercept) -85.4741 33.5930 -.544 0.06368. 身長 0.5765 0.1040 5.543 0.00518 ** ウェスト 0.4175 0.786 0.533 0.6197 胸囲 0.3009 0.4671 0.644 0.55457 Signif. codes: 0 *** 0.001 ** 0.01 * 0.05. 0.1 1 Residual standard error: 1.494 on 4 degrees of freedom Multiple R-squared: 0.956, Adjusted R-squared: 0.8699 F-statistic: 16.6 on 3 and 4 DF, p-value: 0.01011 lm(formula = 体重 ~., data = taikei) Residuals: 個々のデータの残差 1 3 4 5 6 7 -.1841-0.8996 0.1540 1.94 0.909 0.4913-0.408 0 (Intercept) -85.4741 33.5930 -.544 0.06368. 身長 0.5765 0.1040 5.543 0.00518 ** ウェスト 0.4175 0.786 0.533 0.6197 胸囲 0.3009 0.4671 0.644 0.55457 Signif. codes: 0 *** 0.001 ** 0.01 * 0.05. 1 Residual standard error: 1 494 on 4 degrees of freedom 33 偏回帰係数標準誤差 t 値 p 値 (Intercept) -85.4741 33.5930 -.544 0.06368. 身長 0.5765 0.1040 5.543 0.00518 ** ウェスト 0.4175 0.786 0.533 0.6197 胸囲 0.3009 0.4671 0.644 0.55457 Signif. codes: 0 *** 0.001 ** 0.01 * 0.05. 0.1 1 推定値の標準誤差 = 残差の標準偏差 Residual standard error: 1.494 on 4 degrees of freedom Multiple R-squared: 0.956, Adjusted R-squared: 0.8699 F-statistic: 16.6 on 3 and 4 DF, p-value: 0.01011 モデル全体の F 値 決定係数 R 調整済み決定係数 R 34 偏回帰プロット install.packages("car") library(car) avplot(taikei.lm," 身長 ") avplot(taikei.lm," ウェスト ") avplot(taikei.lm," 胸囲 ") 35 説明変数の選択 予測精度を低めずに 必要最小限の説明変数を選択する AIC= )+(q+1) 36 AIC が小さいほど良いモデル 6

37 38 (taikei.lm <- step(taikei.lm)) Start: AIC=8.87 体重 ~ 身長 + ウェスト + 胸囲 - ウェスト 1 0.635 9.559 7.439 - 胸囲 1 0.96 9.849 7.6636 <none> 8.94 8.8741 - 身長 1 68.540 77.464 4.1630 Step: AIC=7.4 体重 ~ 身長 + 胸囲 <none> 9.559 7.439 - 胸囲 1 1.583 31.14 14.879 - 身長 1 68.17 77.686.1858 lm(formula = 体重 ~ 身長 + 胸囲, data = taikei) (Intercept) 身長 胸囲 -71.316 0.5743 0.537 Start: AIC=8.87 体重 ~ 身長 + ウェスト + 胸囲 - ウェスト 1 0.635 9.559 7.439 - 胸囲 1 0.96 9.849 7.6636 <none> 8.94 8.8741 - 身長 1 68.540 77.464 4.1630 Step: AIC=7.4 体重 ~ 身長 + 胸囲 <none> 9.559 7.439 - 胸囲 1 1.583 31.14 14.879 - 身長 1 68.17 77.686.1858 39 summary(taikei.lm) 40 lm(formula = 体重 ~ 身長 + 胸囲, data = taikei) (Intercept) 身長 胸囲 -71.316 0.5743 0.537 回帰式 体重 71.316 0.5743身長 0. 537胸囲 lm(formula = 体重 ~ 身長 + 胸囲, data = taikei) Residuals: 1 3 4 5 6 7 8 -.314-0.7437-0.37 1.1900 0.551 0.9769-0.3060 0.890 (Intercept) -71.3163 18.87440-3.774 0.0197 * 身長 0.57433 0.0961 5.970 0.00189 ** 胸囲 0.5370 0.15854 3.360 0.0011 * Signif. codes: 0 *** 0.001 ** 0.01 * 0.05. 0.1 1 Residual standard error: 1.383 on 5 degrees of freedom Multiple R-squared: 0.903, Adjusted R-squared: 0.8885 F-statistic: 8.89 on and 5 DF, p-value: 0.001791 予測値 残差残差 <- residuals(taikei.lm) 予測 <- predict(taikei.lm) data.frame(taikei, 予測, 残差 ) 身長体重ウェスト胸囲 予測 残差 1 166 66 79 83 68.314 -.3144 173 70 78 80 70.74366-0.7436585 3 177 76 80 86 76.3717-0.37173 4 160 65 78 81 63.81004 1.1899647 5 174 74 79 84 73.44878 0.551196 6 175 75 81 84 74.0311 0.976887 7 169 74 84 91 74.30600-0.3060005 8 169 7 81 85 71.1098 0.8901839 41 予測平面 install.packages("scatterplot3d") library(scatterplot3d) s3d <- scatterplot3d(cbind(height,chest,weight), type="h", pch=16) s3d$plane3d(taikei.lm, lty.box ="solid") 4 7

VIF:Variance Inflation factor( 分散拡大係数 ) 43 VIF 44 VIFが4~10 程度以上は多重共線性が疑われるトレランス ( 許容度 )=1/VIF install.packages("car") library(car) vif(taikei.lm) 多重共線性 (multicolinearlity) 身長ウェスト胸囲 1.046850 7.687803 7.77490 説明変数間に関係が強い場合 vif(taikei.lm) 解が求まらないあるいは安定しない 身長胸囲 1.0454 1.0454 相関行列 45 標準回帰係数 46 round(cor(taikei),3) 測定値を標準得点化 身長 体重ウェスト 胸囲 身長 1.000 0.861 0.180 0.08 体重 0.861 1.000 0.569 0.594 ウェスト 0.180 0.569 1.000 0.933 胸囲 0.08 0.594 0.933 1.000 staikei <- data.frame(scale(taikei)) staikei 身長 体重ウェスト 胸囲 1-0.7878180-1.38376-0.5-0.3709159 0.476908-0.36844-1.0-1.6111411 3 1.199816 1.0868533 0.0 0.51988 4-1.868541-1.5698991-1.0-0.96438138 5 0.657635 0.6038074-0.5-0.07418318 6 0.83836 0.8453303 0.5-0.07418318 7-0.475999 0.6038074.0.0094594 8-0.475999 0.107615 0.5 0.54955 staikei.lm <- lm( 体重 ~., data=staikei) staikei.lm <- step(staikei.lm) Start: AIC=-13.86 体重 ~ 身長 + ウェスト + 胸囲 - ウェスト 1 0.0370 0.5576-15.3087 - 胸囲 1 0.0540 0.5745-15.0691 <none> 0.505-13.8586 - 身長 1 3.998 4.5187 1.4303 Step: AIC=-15.31 体重 ~ 身長 + 胸囲 <none> 0.5576-15.3087 - 胸囲 1 1.590 1.8166-7.8598 - 身長 1 3.9741 4.5317-0.5468 47 summary(staikei.lm) lm(formula = 体重 ~ 身長 + 胸囲, data = staikei) Residuals: 1 3 4 5 6-0.56068-0.17961-0.0578 0.8740 0.13313 0.3594 標準回帰係数 (Intercept).e-16 1.181e-01 0.00 1.00000 身長 7.703e-01 1.90e-01 5.97 0.00189 ** 胸囲 4.336e-01 1.90e-01 3.36 0.0011 * Signif. codes: 0 *** 0.001 ** 0.01 * 0.05 Residual standard error: 0.3339 on 5 degrees of freedo 48 8

標準化残差 標準化残差 <=3 標準化残差 <- residuals(taikei.lm) 標準化予測 <- predict(taikei.lm) data.frame(taikei, 標準化予測, 標準化残差 ) 身長体重ウェスト胸囲標準化予測標準化残差 1 166 66 79 83 68.314 -.3144 173 70 78 80 70.74366-0.7436585 3 177 76 80 86 76.3717-0.37173 4 160 65 78 81 63.81004 1.1899647 5 174 74 79 84 73.44878 0.551196 6 175 75 81 84 74.0311 0.976887 7 169 74 84 91 74.30600-0.3060005 8 169 7 81 85 71.1098 0.8901839 49 残差分析 誤差分散の推定値 See <- sum(residuals(taikei.lm)^) Ve <- See/(8-1-1) [1] 1.593087 データ数ー説明変数の数ー 1 標準化残差 sr <- residuals(taikei.lm)/sqrt(ve) 1 3 4-1.83947-0.5891879-0.1879075 0.94788 50 51 plot(taikei$height,sr,xlab="height",ylab="standardized residuals") abline(h=0) plot(taikei$waist,sr,xlab="waist",ylab="standardized residuals") abline(h=0) plot(taikei$chest,sr,xlab="chest",ylab="standardized residuals") abline(h=0) 偏回帰プロット avplot(taikei.lm," 身長 ") avplot(taikei.lm," 胸囲 ") 5 回帰診断図 par(mfrow=c(,)) plot(taikei.lm) 残差と予測値 残差の正規 Q-Q 53 青木先生の mreg を使う方法 目的変数は最右列におく 54 source("../r/all.r", encoding="euc-jp") taikei3 <- data.frame(height, waist, chest, weight) colnames(taikei3) <- c(" 身長 ", " ウェスト ", " 胸囲 ", " 体重 ") rownames(taikei3) <- 1:8 (a <- mreg(taikei3)) 残差の平方根 てこ比 標準化残差 9

偏回帰係数標準誤差 t 値 P 値標準化偏回帰係数トレラ 身長 0.5765 0.10401 5.5484 0.0051809 0.7736 0.9 ウェスト 0.4175 0.7864 0.53348 0.619695 0.0168 0.1 胸囲 0.30087 0.46709 0.64413 0.5545698 0.4489 0.1 定数項 -85.47413 33.5995 -.54441 0.06368 回帰の分散分析表 平方和自由度平均平方 F 値 P 値回帰 111.0764 3 37.055 16.597 0.010108 残差 8.936 4.309 全体 10.0000 7 17.149 重相関係数 = 0.961 重相関係数の二乗 = 0.9564 自由度調整済重相関係数の二乗 = 0.86986 対数尤度 = -11.78855 AIC = 33.57709 55 (sreg(taikei3)) 有効ケース数 : 8 従属変数 : 体重 平均値不偏分散標準偏差 身長 170.38 30.839 5.5533 ウェスト 80.00 4.000.0000 胸囲 84.5 11.357 3.3700 体重 71.50 17.143 4.1404 ***** 相関係数行列 ***** 身長ウェスト 胸囲 体重 身長 1.00000 0.18007 0.0801 0.86051 ウェスト 0.18007 1.00000 0.9359 0.56930 胸囲 0.0801 0.9359 1.00000 0.5938 体重 0.86051 0.56930 0.5938 1.00000 変数編入基準 Pin: 0.05 変数除去基準 Pout: 0.05 編入候補変数 : 身長 ***** ステップ 1 ***** 編入変数 : 身長 P : 0.00609 ***** 編入されました 56 偏回帰係数標準誤差 t 値 P 値標準化偏回帰係数トレランス分散拡大要因 途中省略 ===================== 結果 ===================== 偏回帰係数標準誤差 t 値 P 値標準化偏回帰係数トレランス分散拡大要因 身長 0.57433 0.09609 5.9697 0.00189 0.7703 0.95673 1.045 胸囲 0.5370 0.158537 3.3601 0.0011 0.43358 0.95673 1.045 定数項 -71.3163 18.874396 3.7740 0.0197 平方和自由度平均平方 F 値 P 値回帰 110.4415 55.07 8.886 0.00179 残差 9.5585 5 1.9117 全体 10.0000 7 重相関係数 0.95935 決定係数 ( 重相関係数の二乗 ) 0.9035 自由度調整済み重相関係数の二乗 0.88848 対数尤度 -1.06347 AIC 3.1695 57 $ 分析結果 偏回帰係数標準誤差 t 値 P 値標準化偏回帰係数トレランス分散拡大要因 身長 0.57433 0.09609 5.9697 0.00189 0.7703 0.95673 1.045 胸囲 0.5370 0.158537 3.3601 0.0011 0.43358 0.95673 1.045 定数項 -71.3163 18.874396 3.7740 0.0197 $ 分散分析表 平方和自由度平均平方 F 値 P 値回帰 110.4415 55.07 8.886 0.00179 残差 9.5585 5 1.9117 全体 10.0000 7 $ 決定係数 重相関係数 0.95935 決定係数 ( 重相関係数の二乗 ) 0.9035 自由度調整済み重相関係数の二乗 0.88848 対数尤度 -1.06347 AIC 3.1695 58 $ 予測観察値 予測値 残差標準化残差 1 66 68.314 -.3144-1.9011451 70 70.74366-0.7436585-0.714030 3 76 76.3717-0.37173-0.1103 4 65 63.81004 1.1899647 1.5053339 5 74 73.44878 0.551196 0.4436400 6 75 74.0311 0.976887 0.8068656 7 74 74.30600-0.3060005-0.4555635 8 7 71.1098 0.8901839 0.69677 59 重回帰分析をする前の注意点 説明変数は 10 個未満とする データ数は説明変数の数より 0 以上多い 60 説明変数の数 < データ数 /3 各説明変数は目的変数と直線相関がある 説明変数間の相関はあまり大きすぎない 10

重回帰分析をした後の注意点 疑似相関相関係数が大きいが 標準偏回帰係数が小さい 多重共線性相関係数と標準偏回帰係数が異符号で大きい説明変数間の相関が高い場合が多い 61 例題 data(attitude) attitude rating 会社に対する総合評価 complaints 従業員の苦情の取り扱い privileges 特別な特権は許さない learning 学習の機会 raises 能力に基づいた昇給 critical 加重 advance 昇進 ratingを他の変数で予測 attitude <- cbind(attitude[,:7],rating=attitude[,1]) 6 相関行列 round(cor(attitude),) rating complaints privileges learning raises critical advance rating 1.00 0.83 0.43 0.6 0.59 0.16 0.16 complaints 0.83 1.00 0.56 0.60 0.67 0.19 0. privileges 0.43 0.56 1.00 0.49 0.45 0.15 0.34 learning 0.6 0.60 0.49 1.00 0.64 0.1 0.53 raises 0.59 0.67 0.45 0.64 1.00 0.38 0.57 critical 0.16 0.19 0.15 0.1 0.38 1.00 0.8 advance 0.16 0. 0.34 0.53 0.57 0.8 1.00 63 pairs(attitude,panel=panel.smooth,attitude) 40 60 40 60 80 40 60 80 40 60 50 70 90 69, 68, 77, 81, 74, 65, 6, 83, 77, 90, 85, 60 57, 83, 54, 50, 64, 65 4, 45, 7, 7, 69, 75, 55, 59, 79, 60, 79, 55 40 60 80 30 50 70 50 70 64 50 70 90 63, 77, 77, 54, 79, 80, 5, 35, 46, 36, 63, 60 30 50 70 40 60 80 30 50 70 50 70 30 50 70 attitude <- cbind(attitude[,:7],rating=attitude[,1]) (a <- mreg(attitude)) 65 偏回帰係数標準誤差 t 値 P 値 標準化偏回帰係数 トレランス complaints 0.613188 0.16098 3.8090 0.0009087 0.67075 0.37494 privileges -0.073050 0.1357-0.538 0.5955939-0.07347 0.6465 learning 0.3033 0.1685 1.90085 0.0699535 0.308870 0.44033 raises 0.08173 0.148 0.36903 0.71548009 0.06981 0.3486 critical 0.038381 0.14700 0.6111 0.7963346 0.03100 0.8146 advance -0.17057 0.1781-1.1799 0.3557705-0.183464 0.5140 定数項 10.787076 11.5896 0.93078 0.3616337 回帰の分散分析表平方和自由度平均平方 F 値 P 値 回帰 3148.0 6 54.661 10.50 1.404e-05 残差 1149.0 3 49.957 全体 497.0 9 148.171 重相関係数 = 0.8559 重相関係数の二乗 = 0.736 自由度調整済重相関係数の二乗 = 0.6685 対数尤度 = -97.4991 AIC = 10.4998 66 11

回帰分析の要約情報 attitude.lm1 <- lm(rating ~., data = attitude) summary(attitude.lm1) 67 lm(formula = rating ~., data = attitude) Residuals: Min 1Q Median 3Q Max -10.9418-4.3555 0.3158 5.545 11.5990 68 (Intercept) 10.78708 11.5896 0.931 0.361634 complaints 0.61319 0.16098 3.809 0.000903 *** privileges -0.07305 0.1357-0.538 0.595594 learning 0.3033 0.1685 1.901 0.06995. raises 0.08173 0.148 0.369 0.715480 critical 0.03838 0.14700 0.61 0.796334 advance -0.1706 0.1781-1.18 0.35577 Residual standard error: 7.068 on 3 degrees of freedom Multiple R-squared: 0.736, Adjusted R-squared: 0.668 F-statistic: 10.5 on 6 and 3 DF, p-value: 1.40e-05 4.058e-05 69 AIC によるモデルの変数選択 AIC=- ( モデルの最大対数尤度 )+ ( モデルのパラメータ数 ) attitude.lm<-step(attitude.lm1) 70 Start: AIC=13.36 rating ~ complaints + privileges + learning + raises + critical + advance - critical 1 3.41 115.4 11.45 - raises 1 6.80 1155.8 11.54 - privileges 1 14.47 1163.5 11.74 - advance 1 74.11 13.1 13.4 <none> 1149.0 13.36 - learning 1 180.50 139.5 15.74 - complaints 1 74.80 1873.8 136.04 71 Step: AIC=11.45 rating ~ complaints + privileges + learning + raises + advance - raises 1 10.61 1163.0 119.73 - privileges 1 14.16 1166.6 119.8 - advance 1 71.7 13.7 11.5 <none> 115.4 11.45 - learning 1 177.74 1330.1 13.75 - complaints 1 74.70 1877.1 134.09 7 1

6 6 1 1 13 1 4 0.5 0.5 自動車感性評価学 Step: AIC=119.73 rating ~ complaints + privileges + learning + advance - privileges 1 16.10 1179.1 118.14 - advance 1 61.60 14.6 119.8 <none> 1163.0 119.73 - learning 1 197.03 1360.0 1.4 - complaints 1 1165.94 38.9 138.56 73 Step: AIC=118.14 rating ~ complaints + learning + advance - advance 1 75.54 154.7 118.00 <none> 1179.1 118.14 - learning 1 186.1 1365. 10.54 - complaints 1 159.91 439.0 137.94 Step: AIC=118 rating ~ complaints + learning 74 <none> 154.7 118.00 - learning 1 114.73 1369.4 118.63 - complaints 1 1370.91 65.6 138.16 最終結果 summary(attitude.lm) 75 lm(formula = rating ~ complaints + learning, data = attitude) 76 Residuals: Min 1Q Median 3Q Max -11.5568-5.7331 0.6701 6.5341 10.3610 (Intercept) 9.8709 7.061 1.398 0.174 complaints 0.6435 0.1185 5.43 9.57e-06 *** learning 0.11 0.1344 1.571 0.18 77 回帰診断図 78 par(mfrow=c(,)) Residual standard error: 6.817 on 7 degrees of freedom Multiple R-squared: 0.708, Adjusted R-squared: 0.6864 F-statistic: 3.74 on and 7 DF, p-value: 6.058e-08 plot(attitude.lm) Residuals -10-5 0 5 10 Residuals vs Fitted 113 Standardized residuals -1 0 1 Normal Q-Q rating = 9.8709+0.6435*complaints+0.11*learning 50 60 70 80 Fitted values - -1 0 1 Theoretical Quantiles Scale-Location Residuals vs Leverage Standardized residuals 0.0 0.4 0.8 1. 6 113 Standardized residuals - -1 0 1 Cook's distance 50 60 70 80 0.00 0.10 0.0 0.30 Fitted values Leverage 13

例題 airquality 79 1973 年 5 月 ~9 月のニューヨーク Ozone オゾンの量 (ppb) Solar.R 太陽の放射の量 (lang) Wind 風力 (mph) Temp 温度 ( 華氏 F) Month 月 1 1 Day 月の日数 1 31 Ozone を他の変数で予測 14