Microsoft PowerPoint - 資料04 重回帰分析.ppt

04. 重回帰分析京都大学加納学 Division of Process Control & Process Sstems Engineering Department of Chemical Engineering, Koto Universit manabu@cheme.koto-u.ac.jp http://www-pse.cheme.koto-u.ac.jp/~kano/

Outline 重回帰式の導出幾何学的解釈重回帰式の評価具体例多重共線性リッジ回帰

身近な例 3 身長体重から身長を推定できる? 身長定数体重 + 定数 + 誤差 b x e b 0 体重 n n ei ( i bx i b0) i i を最小にする係数 b を求める.

因果関係を探る 4 重回帰分析結果である目的変数と原因である説明変数の関係を重回帰式で表現する手法 ( 標本 ) 偏回帰係数現実には, 目的変数は説明変数以外の要因にも影響されるため, それらの n 番目の標本 ( 測定値 ) が単回帰モデルによって表現されると考える. 母偏回帰係数誤差項 ε n は互いに独立に N(0, σ ) に従うと仮定する.

目的変数の予測 5 目的変数の予測値各変数の平均を 0 とすれば誤差項 ε n の期待値は 0 残差目的変数の測定値と予測値の差

回帰分析における誤差の考え方 6 目的変数に影響を与える説明変数 x 以外の要因をまとめて誤差とみなすため, のみに誤差がある, つまり, x は正確に指定できると考える.

最小二乗法 7 最小二乗法残差平方和 ( 目的変数の測定値と推定値の差の二乗和 ) が最小となるように, 偏回帰係数を決定する. 予測値残差平方和

正規方程式の導出 8 残差平方和必要条件 Q 極値であること! 正規方程式 b

偏回帰係数の推定 9 正規方程式偏回帰係数の推定値行列 X T X が正則である ( 逆行列を持つ ) 場合共分散行列

標準化 0 各変数を平均 0, 分散の変数に変換する. x nm x σ * nm m x m 変数 m サンプル n 平均 x N * m x nm N n 分散 σ m N N n ( x * nm x m )

重回帰分析 : 重回帰式標準化後の変数による表現 ˆ P bpx p p b p 標準偏回帰係数標準化前の変数による表現 * ˆ σ P b p p x * p σ p x p σ σ p b p 偏回帰係数 P b P * pσ b * pσ ˆ xp + x p σ p p σ p p

Outline 重回帰式の導出幾何学的解釈重回帰式の評価具体例多重共線性リッジ回帰

重回帰分析の幾何学的解釈 3 誤差が最小となるためには, 誤差と予測値が直交すればよい. ˆ, ˆ Xb, Y Xb T T T b ( X Y X Xb) 0 正規方程式 N 次元線形空間 x 測定値誤差予測値 ˆ ŷ bx + b x x M 次元部分空間

重相関係数の最大化 4 誤差が最小となるためには, 誤差と予測値が直交すればよい. 誤差が最小となるためには, 測定値と予測値がなす角 θ が最小になればよい. 誤差が最小となるためには, 測定値と予測値の相関係数が最大になればよい. 重相関係数 r ˆ T sˆ ˆ ss ˆ ˆ cosθ

重回帰式の評価 5 重相関係数目的変数とその推定値の相関係数寄与率 ( 決定係数 ) 目的変数の分散に対する推定値の分散の比

寄与率に関する式 6

Outline 7 重回帰式の導出幾何学的解釈重回帰式の評価具体例多重共線性リッジ回帰

分散分析 8 変動要因平方和自由度不偏分散分散比全変動 SS N - - 回帰による変動残差の変動 SS r SS e N P P V e V r N SS P SS r e P F V V r e 分散比 F は自由度 P, N-P- の F 分布に従う. F > F( P, N P ; α ) であれば, 重回帰式は無意味ではない. 自由度 P, N-P- の F 分布, 危険率 α

分散分析の心 9 分散比 F は自由度 P, N-P- の F 分布に従う. F > F( P, N P ; α ) であれば, 重回帰式は無意味ではない. 自由度 P, N-P- の F 分布, 危険率 α でたらめに重回帰式を作ったとしよう. そのとき, 分散比 F はある F 分布に従う. もし,F が普通でないほど大きかったら, つまり, 回帰による変動が残差の変動を凌駕していれば, その重回帰式は無意味ではない! 普通はこの範囲に入る α0.05 普通でない!

0 重要な式 N i i SS * ) ( N i i r SS * ) ˆ ( N i i i e SS * ) ˆ ( e r SS SS SS + * * ( ) P p p p p b x x ) ) /( ( / p N R p R V V F e r

F 分布表 (α0.05).50.577.66.773.98 3.60 3.555 4.44 8.548.64.699.80.965 3.97 3.59 4.45 7.59.657.74.85 3.007 3.39 3.634 4.494 6.64.707.790.90 3.056 3.87 3.68 4.543 5 3.07 3.35 3.7 3.36 3.478 3.708 4.03 4.965 0 3.30 3.93 3.374 3.48 3.633 3.863 4.56 5.7 9 3.438 3.500 3.58 3.687 3.838 4.066 4.459 5.38 8 3.76 3.787 3.866 3.97 4.0 4.347 4.737 5.59 7 4.47 4.07 4.84 4.387 4.534 4.757 5.43 5.987 6 4.88 4.876 4.950 5.050 5.9 5.409 5.786 6.608 5 6.04 6.094 6.63 6.56 6.388 6.59 6.944 7.709 4 8 7 6 5 4 3 自由度自由度

Outline 重回帰式の導出幾何学的解釈重回帰式の評価具体例多重共線性リッジ回帰

例 : 対象データ 3 身長 () 胸囲 (x) 体重 (x) 67.0 84.0 6.0 67.5 87.0 55.5 3 68.4 86.0 57.0 4 7.0 85.0 57.0 5 55.3 8.0 50.0 6 5.4 87.0 50.0 7 63.0 9.0 66.5 8 74.0 94.0 65.0 9 68.0 88.0 60.5 0 60.4 84.9 49.5

例 : 重回帰分析 4 身長 () 胸囲 (x) 体重 (x) 平均 64.7 87.0 57. 標準偏差 7.8 3.63 6.3 偏回帰係数 - -0.47 0.969 標準偏回帰係数 - -0.6 0.88 重相関係数 (R) 0.687 - - 決定係数 (R) 0.47 - -

例 : 分散分析 5 変動要因平方和自由度不偏分散分散比全変動 464. 9 - - 回帰による変動残差の変動 9.0 45. 7 09.5 35.0 3.3 FPN (, P ; α) 自由度 P, N-P- の F 分布, 危険率 α F(,7;0.05) 4.737 > 3.3 重回帰式に意味なし!

Outline 6 重回帰式の導出幾何学的解釈重回帰式の評価具体例多重共線性リッジ回帰

重回帰分析の問題点 7 偏回帰係数 ( T T b X X) X Y X T X が逆行列を持たない場合, 最小二乗法は使えない. 入力変数が線形従属である場合サンプル数が入力変数の数より少ない場合もダメ. 以下では, サンプル数は十分にあるとする.

多重共線性 8 Data A Data B x x x3 x x x3 4 3 8 56 5.9 37.0 6. 86.0 34.6 6. 83.0 65.9 64.8 7. 8.6 33.9 6. 36.9 60.6 85.9 34.7 6.3 8.8 65.9 65. 7.0 8.9 34. 係数.36-0.80 5.0-4.8-8.9-6.0 入力変数が厳密に線形従属でなくても, 入力変数間に強い相関関係が存在する場合には, 係数推定値の分散が大きくなり, 推定結果の信頼性が低下してしまう.

何が問題なのか? 9 推定値の分散が大きくなると, 何が問題なのか? 推定ができれば良いのではないか? < 重回帰分析で酷い目に遭う例 > + 測定データ Model Model Model 3 x x ax ax ˆ x ˆ 0.5x + ˆ.00, x.0, x 0. 5 x 00x 99x 0.99.00.99 0.99 係数が大きいほど, 測定ノイズの影響を受けやすい.

最小二乗法の拡張 30 Ordinar Least Squares (OLS) a ( X X ) T X T Y min Y Xa Minimum Norm Solution a X + Y X + : 一般化逆行列 Ridge Regression (RR) a ( X X + λi) T X T Y min Y Xa + λ a Principal Component Regression (PCR) Partial Least Squares (PLS) いずれの手法も係数を小さく抑えようとする.

Outline 3 重回帰式の導出幾何学的解釈重回帰式の評価具体例多重共線性リッジ回帰

リッジ回帰 3 評価関数の違い重回帰 min Y Xa リッジ回帰 min Y Xa + λ a 必要条件 ( 評価が最小となるための ) 回帰係数に対する懲罰 J T T ( X Xa X Y + λa) a a ( X X + λi) T X T Y 0

33 例題 : リッジ回帰ーーーーーー偏回帰係数 -6.0-8.9-4.8 5.0-0.80.36 重回帰 34. 65.9 85.9 33.9 65.9 86.0 56 4.34 -.38 0.87.36 -.34 0.86 リッジ回帰 8.9 8.8 60.6 8.6 83.0 6. 8 3 7.0 6.3 36.9 7. 6. 37.0 3 65. 34.7 6. 64.8 34.6 5.9 4 x3 x x x3 x x Data Set: B Data Set: A