多変量解析 ~ 重回帰分析 ~ 2006 年 4 月 21 日 ( 金 ) 南慶典

重回帰分析とは? 重回帰分析とは複数の説明変数から目的変数との関係性を予測評価説明変数 ( 数量データ ) は目的変数を説明するのに有効であるか得られた関係性より未知のデータの妥当性を判断するこれを重回帰分析というつまりどんなことをするのか? 1 最小 2 乗法により重回帰モデルを想定 2 自由度調整済寄与率を求め得られた回帰式の性能を評価する 3 説明変数の選択 ( 変数選択 ) を行い有用な変数を選択する 4 残差とテコ比の検討を行い得られた回帰式の妥当性を検討 5 将来得られるデータ値を予測

重回帰分析の具体例表は東京のある駅の徒歩圏内の中古マンションに関するデータであるサンプルNO. 広さ x1 築年数 x2 価格 y 1 51 16 3.0 2 38 4 3.2 3 57 16 3.3 4 51 11 3.9 5 53 4 4.4 6 77 22 4.5 7 63 5 4.5 8 69 5 5.4 9 72 2 5.4 10 73 1 6.0 このデータに基づいて知りたいことは次の通りである (1) 価格は広さと築年数とによって予測できるだろうか (2) 予測できるとすればその精度はどのくらいか (3) 同じ地区でを掲示された価格は妥当か x 1 =70, x 2 =10, y=5.8 などを重回帰分析で検討する

説明変数が 2 個の場合の解析方法最小 2 乗法による回帰式の推定表 1 のデータに関して次の重回帰モデル ( 回帰モデル ) を想定する y i ~ N 0, 2 i = 0 1 2 i i 番目の予測値 i 番目の残差 y i = 0 1 2 e i = y i y i 最小 2 乗法実測値と予測値の残差平方和を最小にする 0, 1, 2,, p を求める方法残差平方和 S e S e = e 2 i = {y i 0 1 } 2 これを最小にする 0, 1, 2 を求める

S e を 0, 正規方程式 1, 2 のそれぞれで偏微分して 0 とおくと S e = 2 y i 0 1 2 = 0 0 S e = 2 y i 0 1 2 = 0 1 S e = 2 y i 0 1 2 = 0 2 (1) (2) (3) (1) (2) (3) 式を整理すれば 0 1 = y i 0 1 x 2 i1 = y i 2 0 1 = y i 0 = y i 1 2 と変形して下の 2 つに代入していくこれらは 0, 1, 2 に関する連立方程式であり正規方程式と呼ぶ

偏回帰係数を求める正規方程式を変形して以下の連立方程式を得る 1 S 11 1 S 22 = S 1y = S 2y ただし各変数の平方和と偏差積和を次のように定義する S 11 = S yy = x 1 2 y i y 2 行列で表現すると S 22 = x 2 2 S 1y = [ S 11 S 22][ 1 2] = [ S 1y S 2y] x 1 y i y = x 1 x 2 S 2y = x 2 y i y この連立方程式を解けば偏回帰係数 0, 1, 2 が求まる

多重共線性に注意する (1) 多重共線性が存在するとは行列の逆行列が存在しない状況をいう実際に偏回帰係数の解を求めていくと [ 1 2] = [ S 11 S 22] 1[ S 1y S 2y] = 1 [ S 22 S 1y S 2 S 11 S 22 S 1y S 11 S 2y] すなわち 2 S 11 S 22 が 0 であると解は無数に存在するかまったく存在しない例 ) S 11 =1, S 22 =4, =2 である場合 1 2 2 = S 1y 2 1 4 2 = S 2y

多重共線性に注意する (2) 2 S 11 S 22 = 0 2 r x 1 x 2 2 S 11 S 22 r x 1 x 2 = ±1 = 1 = { S 11 S 22}2 = 1 すなわち x 1 と x 2 の相関係数が 1 または -1 の時に多重共線性が存在する相関係数が ±1 となるのは点 x 1,,2,, の全てが 1 直線上に並んでいる場合であり x 1 と x 2 が共通の直線状にある ( 共線 ) この場合他方の情報は不要である予測を行うという観点から偏回帰係数が定められるので, 重回帰式に含まれた変数相互間の関連で符号が決められるためである多重共線性の存在の有無を考慮することが必要

寄与率と自由度調整済み寄与率 (1) まず残差平方和を整理しておく S e = = {y i 0 1 } 2 {y i y 1 x 1 2 x 2 } 2 = S yy 1 2 S 11 2 S 22 2 1 S 1y 2 2 S 2y 2 1 2 ~ 回帰式の評価 ~ = S yy 1 1 S 11 1 S 22 2 1 S 1y 2 2 S 2y = S yy 1 S 1y S 2y 重回帰モデルの誤差の母分散 2 を次のように推定することができる 2 = V e = S e e = S e 3

ちょっとした準備 ~ 平方和の分解 ~ 偏差平方和 = 残差平方和 + 回帰平方和 S yy = y i y 2 = {y i 0 1 0 1 y} 2 = {y i 0 1 } 2 { 0 1 y} 2 2 {y i 0 1 }{ 0 1 y} = {y i 0 1 } 2 { 0 1 y} 2 (4)

補足スライド ~ ここはいんじゃない?~ {y i 0 1 }{ 0 1 y} = e i { 0 1 y} = 0 y e i 1 e i e i = 0 = x 1 e i e = e i x 1 e i = 0 e i = 0 e = 0

寄与率と自由度調整済寄与率 (2) S R = 1 S 1y S 2y とおくと S yy = 1 S 1y S 2y S e = S R S e (5) (4) 式と (5) 式を見比べることにより回帰平方和は S R = { 0 1 y} 2 = 1 S 1y S 2y 各平方和には各自由度が対応している S yy T = 1 S R R = 2 S e e = 3

寄与率と自由度調整済寄与率 (3) 実測値と理論値の相関係数 y i y y i y R = y i y 2 y i y 2 これを重相関係数という実測値と理論値がどれだけ一致しているかを求めている R 2 = S R S yy = S yy S e S yy = 1 S e S yy これを寄与率 ( または決定係数 ) と呼ぶこれは y の変動のうちの回帰による変動の割合を表している決定係数が大きければよいわけではなくどんなに意味のない説明変数を加えてもこの値は上昇してしまうよって自由度を用いて調整して R * 2 = 1 S e / e S yy / T このような決定係数を自由度調整済寄与率という

説明変数の選択 ( 変数選択 ) できるだけ説明変数は目的変数に効いている説明変数だけをモデルに含めたい意味のない説明変数を加えていっても多重共線性の原因を招いてしまったり分析の精度が低くなる説明変数の選択が重要になる説明変数の選択基準目的変数と相関の高い変数を説明変数にする単相関係数を用い相関が 0.7 以上のものを説明変数にするのが一般的説明変数の相互間で相関係数が 1 に近い場合どちらか解釈しやすいものを選択する R * 2 が増加する限り, 追加された独立変数は有効であることを意味する

変数の選択方法変数減少法すべての変数を取り込んだ段階から不要な変数を消去していく変数増加法定数項だけのモデルから有用な変数を追加していく変数増減法それら両方を取り入れた方法変数増加法 S yy T = 1 y の平方和 ( 自由度 ) と残差平方和 ( 自由度 ) を用いて不偏分散比の大きさを目安にしていく不偏分散比が有意水準 α( 一般的には 0.01or0.05) における F 分布の値より大きければ有意この値が大きい方の説明変数をモデルに取り込む S e e = p 1 F 0 = S yy S e M1 / T e M1 S yy / T 寄与率自由度調整済寄与率を求めそのモデルが妥当か評価する

変数増加法による変数選択次に変数を追加するかどうかは残差平方和 (M1) と加えたときの残差平方和 (M2) の不偏分散比の F 値を比較する F 0 = S e M1 S e M2 / e M1 e M2 S e M2 / e M2 F 値が大きければ (2 以上 ) であればその変数を取り込む式の分子は MODEL1 から MODEL2 に変更することにより残差平方和がどれくらい減少するのかを測る量を示している例 ) 変数が 2 つの場合 MODEL1 y i = 0 1 i MODEL2 y i = 0 1 2 i S yy S R M1 S e M1 S R M2 S e M2 S e M1 S e M2 MODEL1 MODEL2

残差とテコ比の検討 ~ 重回帰式の妥当性の評価 ~ 残差 e k を標準化したものまた残差の t 値について求める e' k = e k V e t k = e k 1 h kk V e 各値の絶対値が 3.0 以上または 2.5 以上である場合はサンプルが異常でないか検討できれば各説明変数を横軸にとり標準化残差また t を縦軸にとって散布図を描く曲線的な傾向や説明変数が大きくなるに従って残差のばらつきが系統的に変化していないかなどを検討する

h kk = 1 D 2 k 1 テコ比? 予測値の第 k サンプルを表すテコ比を使って表すと y k = h k1 y 1 h k2 y 2 h kk y k h k y y k の係数 h kk をテコ比 ( レベレッジ ) と呼び但し D 2 k をマハラノビスの距離の2 乗と呼ばれ判別分析で重要な役割を果たす D k 2 = 1 { x k1 x 1 2 S 11 2 x k1 x 1 x k2 x 2 x k2 x 2 2 S 22 } [ 11 S 22] S = [ S 11 S 但し 12 S 22] 1 このテコ比が大きすぎると y k の値が y k の値の変動によって強く影響を受けるので望ましくない 2.5{( 説明変数の個数 )+1}/ = 2.5 ( テコ比の平均 ) データ取得時に調整できるならテコ比がこれより小さくなるように工夫する

得られた回帰式の利用回帰式の 0 1 x 1 x 2 推定量の確率分布 0 1 x 1 x 2 ~ N 0 1 x 1 2 x 2, { 1 D 2 1} 2 x 01 x 02 これを用いてとを任意の値, に設定して母回帰の区間推定や予測区間を構成することができる母回帰の信頼率 95% の信頼区間は次のように構成する 0 1 x 01 x 02 ± t e, 0.05 { 1 D 2 0 1} V e と設定した場合に回帰直線上の縦座標の信頼区間である信頼率 95% の予測区間は次のように計算する 0 1 x 01 2 x 02 ± t e, 0.05 { 1 1 D } 0 1 V e 2