回帰分析 重回帰 (3)
内容 分散不均一性 分散不均一性とは何か 分散不均一性の検出 Heteroskedstcty robust estmator 加重最小二乗法 (Weghted Least Square) 誤差項の系列相関 多重共線性 説明変数の誤差 誤差項と説明変数の相関
回帰分析の前提 モデルの線型性 u ~N(0,s )..d. 誤差項の期待値は0 誤差項は互いに独立 ( 系列相関は無い ) 誤差項の分散は一定 ( 分散均一性 ) 誤差項は正規分布 (t 検定,F 検定のための前提 ) 説明変数と誤差項は独立 説明変数の行列 Xはfull rank 説明変数間の多重共線性は存在しない
分散不均一性 heteroskedastcty 分散均一性 (homoskedastcty) 誤差項は互いに独立で同一の分布に従う var( u ) s 回帰係数 b の分布 ( 特に分散 ) はこの仮定に依存 E b = β, b = β + σ ҧ u S var b = σ ҧ σ (S ) b β ~t n (k + 1) s. e. (b) = σ S 分散均一性の仮定が満たされなくても不偏性は成立 しかし,b の分散は上式のようにはならない t 検定,F 検定は正しくない
分散不均一性 () 誤差項の分散が不均一 誤差項の分散がある変数の関数になっている場合 例 ) 賃金方程式で, 高学歴者ほど賃金の分散が大 説明変数と残差の散布図でチェックする 被説明変数 ( の推定値 ) と残差の散布図でチェックする 分散不均一性のテスト 時系列データでの回帰分析では, 誤差項に系列相関があるかもしれない
分散不均一性の検出 残差の平方と説明変数または y の予測値の間に相関があるかどうかを調べる なぜ残差の平方か 最小二乗法による推計では, 残差と説明変数は直交する ( 相関がない ) 単回帰, 重回帰の理論の解説を参照せよ したがって, 残差を, 説明変数 (y の予測値 ) に回帰してもその係数はゼロ 残差の平方と, や y の予測値との間にシステマティックな関係があるかどうかを調べる
分散不均一性の検出 () Breusch and Pagan のテスト 1) (, ~ 1)) ( /( / 1)) ( /( ) / ( 0 : test : estmate compure save : : estmate 1 0,, 1, 1 0,, 1, 1,, 1, 1 k n k F k n RSS k ESS k n RSS k TSS RSS H v e e b b b a y e u y k k k k k k k
分散不均一性の検出 (3) Whte のテスト 残差の平方 e を被説明変数 説明変数 : j, j の平方, j と h の交差項 これらの説明変数の係数が全て 0 という仮説を検定する 簡便な方法 y の予測値 ( 説明変数の線形関数 ), およびその平方を説明変数に加える
Evews: Breusch and Pagan の検定 回帰式を推定した後, Vew/ Resdual Dagnostcs/ Heteroskedastcty Tests を選択 Breusch and Pagan test Whte test などの Opton がある
Evews: Whte の検定 回帰分析の後, Vew/ Resdual Tests/ Heteroskedastcty tests を選択 Whte の test を選択すると, 自動的に説明変数のクロス項, 平方を説明変数のリストに加えてくれる
Evews: 分散不均一性の検定メニューを使わない方法 Breusch and Pagan 残差の平方を計算 直前の回帰の残差は resd に保存されている seres res = resd^ コマンドウィンドウで上のコマンドをタイプ res を被説明変数にして回帰分析 説明変数の係数 =0 の F 検定 Whte の検定 残差の平方を計算 直前の回帰の残差 resd と被説明変数の差で予測値を計算 seres res =resd seres ft = lnwage - res res を被説明変数に,ft, ft の平方を説明変数にした回帰分析を行い,F 検定
R での分散不均一性 wage1.lm <- lm(wage ~ educ + eper + tenure) 残差の平方は resd(wage1.lm) で取り出せる 残差の平方を被説明変数として回帰 > res <- resd(wage1.lm) > res <- res^ > wage1_bptest.lm <- lm(res ~ educ + eper + tenure) > summary(wage1_bptest.lm) 結果 ---( 途中省略 )--- F-statstc: 15.53 on 3 and 5 DF, p-value: 1.09e-09 res を被説明変数とした回帰で全ての説明変数の係数が 0 であるという仮説は棄却される パーケージ lmtest の bptest( ) という関数を用いる方法もあり
問題 1 wage1.raw で次の賃金方程式を推計する 被説明変数 wage 説明変数 educ, eper, tenure, female 分散不均一性のテストを行え Breusch and Pagan の test Whte の test 被説明変数を log(wage) に変えて回帰分析を行い, 分散不均一性が検出されるかどうか確かめよ
問題 HPRICE1.RAW 次のモデルを推計せよ 被説明変数 :prce( 住宅価格 ) 説明変数 :lotsze, sqrft, bdrms 分散不均一性のテストを行え 上のモデルを対数形で推計せよ 被説明変数 : log(prce) 説明変数 :log(lotsze), log(sqrft), log(bdrms) 分散不均一性のテストを行え
Heteroskedastcty Consstent Estmator 分散不均一性 係数の推定値は不偏性をもつが, 分散の推定値は正しくない t 検定,F 検定は正しくない Evews では, 最小二乗法の opton で,heteroskedastcty robust estmator を算出してくれる Evews では Whte の方法と HAC(Newey West) の方法が選択できる HAC は誤差項に系列相関がある場合の方法 漸近的に正しい統計量 ( サンプルサイズが十分に大きいとき ) var( b) S e Heteroskedastcty robust estmator: OLS の残差を e として, 左のように計算
Evews での HC estmator Menu から Quck /Estmate Equaton speccfcaton に回帰式を書き (method は LS), optons のタブをクリック Coeffcent covarance の covarance method で Huber-Whte を選択する ( 他の opton は Ordnary( 通常の OLS),HAC) 通常の OLS と係数の値, s.e.,t 値の比較をせよ
vcov(object 名 ) R での HC estmator 回帰分析の係数の分散共分散行列 vcovhc(object 名 ) OLS の残差をもとに係数の分散共分散行列を修正 パッケージ sandwtch が必要 lbrary(sandwch) 回帰分析の結果 -->wage1.lm vcov(wage1.lm) で通常の分散共分散行列, vovhc(wage1.lm) で誤差項の分散不均一性を考慮した分散共分散行列
R での HC estmator () OLS の結果を object として保存 ( 例えば wage1.lm) coeftest(wage1.lm) 係数の推定値, 標準誤差,t 値,p 値などが出力される coeftest(wage1.lm, vcov=vcovhc) 分散不均一性を考慮して, 標準誤差,t 値,p 値が修正された結果が出力される 係数の推定値自体は, 分散不均一性があっても変わらない ( 不偏性を持つ ) ことに注意 複数の制約がある場合は waldtest( 制約なしモデル, 制約付きモデル ) を用いる
加重最小二乗法 Weghted Least Square 不均一性のテストは検出のみ どのような方法で対処すべきかは教えてくれない 推定する方程式の関数型を変えることで解決する場合もある 誤差項の分散がある変数に比例していることがわかっている場合 Weghted Least Square 加重最小二乗法 WLS : 次の式を最小化するように係数を決定 n =1 w y a b 1 1, b k k, w : weght
Weghted Least Square 次のモデルを考える y = α + β 1 1, + + β k k, + u (1) ただし,var u = σ = h σ ( 誤差項の分散が変数 hに比例している 分散不均一性 ) このとき次のように式変換すれば y h = α 1 h + β 1 1, h + + β k k, h + u h () var u h = σ 分散は均一
Weghted Least Square () () 式をもとに係数を推定 次の式の最小化 = n =1 y h n 1 =1 n = =1 a 1 h b 1 1, h b k k, h h y a b 1 1, b k k, w y a b 1 1, b k k, 元のモデルの誤差項の分散が h に比例する weght 変数を 1/h にする
Evews での WLS Quck/Estmate Equaton で最小二乗法 (LS) を選択し, モデル式を記述 Opton のタブを選択 Weghts の欄 Type Varance ( 誤差項の分散が h に比例 ) Weght Serese 変数 h を指定 例 ) 賃金方程式で残差の分散が EDUC( 教育年数 ) に比例している場合 Type: Varance ; Weght Serese: EDUC とする Evews の WLS の opton の指定はわかりにくいので注意 w=1/h の wegt の場合,weght 変数に h を指定する Opton の Type Std.dev ( 誤差項の標準偏差が h に比例 ) Inverse Varance ( 誤差項の分散が 1/h に比例 ) Inverse Std.dev( 誤差項の標準偏差が 1/h に比例 )
R での WLS wls: lm(y~1++3,weghts=w) で実行 (w=1/h) 例 ) 賃金方程式で誤差項の分散が教育年数 (EDUC) に比例する場合,weghts=1/EDUC とし wage.wls <- lm(lwage ~educ + epre + tenure, weghts=1/educ, subset=(educ>0)) summary(wage.wls) で結果を取り出す 注意 )weght 変数に0があるとエラーが出ます ( 自動的に除外してくれない ) lm() のoptonでsubset=( ) を指定すると,( ) 内の条件を満たすようなデータについてのみの回帰を行うことができる
誤差項の系列相関 回帰分析の前提 : 誤差項は互いに独立 誤差項に系列相関がある場合 回帰係数 b の分散が s (X X) -1 にならない クロスセクションデータの場合には問題にならない オブザベーションの並び方が, 隣接した地域や人の順番になっている場合には意味がある場合あり 時系列データの場合には意味がある ある時点で生じたショックがしばらく尾をひく ( 誤差項の系列相関アリ )
Durbn Watson 検定 1 階の系列相関を調べる検定 DW T t T t e e T t1 t (1 ) t e e t t1 T 1 t1 T e t1 t e t T 1 e e t1 t t1 DW 比は多くの統計パッケージでは自動的に出力される Rではdwtest( ) 関数を用いる ( パッケージlmtestが必要 ) 経済データでは,>0のケースが普通 (は1 階の相関係数 ) 大雑把なルールではDW 比が1に近いと系列相関あり 現在では, 誤差項はもっと一般的に AR(p) 過程に従うとして, 推計ができる また, 時系列データの分析では, 説明変数が定常過程か非定常過程かの区別が重要
多重共線性 multcolnearty 説明変数間の相関が高いこと 回帰分析において, 個々の変数の影響を分離して推計することができなくなる 単相間だけで判断してはいけない 変数間の単相間は低くても, ある説明変数が別の複数の説明変数の線形結合でかなり説明できる場合もある 多重共線性が存在すると 回帰式全体では当てはまりが良いが, 個々の説明変数の係数が有意でない (s.e. が大きい ) という現象が生じる 実験データ 個々の変数の影響が十分に分離できるように実験計画を立てる 経済データ 上のようなことは不可能 分析方法の再検討
多重共線性の検出 OLS において説明変数 j の係数の分散は次の通りになる var b j = σ S j 1 R j s : 誤差項の分散, S j : 説明変数 j の平均値の回りの平方和, R j : 説明変数 j を他の説明変数に回帰した場合の R ( 決定係数 ) 多重共線性 R j が高い b j の分散が大きくなる VIF ( Varance nflaton factor 分散増幅因子 ) VIF b j = 1 1 R j VIF は手動でも計算できるが,evews では estmaton output の wndow の menu から Vew /Coeffcent Dagnostcs /Varance Inflaton Factors とたどれば求められる R の場合 : vf( 回帰分析の object 名 ) で出力される ただし,car という package を読み込んでおく必要がある
多重共線性の例 地方政府の行動 ( 支出 ) を, 地域の財政状況 ( 債務残高, 税収, 国からの補助金, 交付税額 ), 地域の属性 ( 山間地, 豪雪地帯,..), 所得, 面積等で説明 国からの補助金は, その地域属性によって決まる 所得が低い, 中山間地,. 財政状況と地域属性の間の多重共線性 個々の変数の効果が捉えられない MLB プレイヤーの年俸の決定要因の分析 HR 数と打点数に非常に強い単相間 HR 数の効果と打点の効果を分離できない
説明変数の誤差 u y * j v u v v j, all for 0 ), cov( 0, E * 真のモデル説明変数 * は観察できない : そのかわり が観察できる w v u u v y 誤差項 w の期待値は 0, 分散は一定 しかし,w と には相関がある
説明変数の誤差 () 説明変数の誤差 誤差項と説明変数の相関 最少二乗推定量 特に単回帰の場合 w X X X y X X X b ' ) ' ( ' ) ' ( 1 1 s s s s s s * * * * * ) var( ), cov( ) var( ), cov( plm v v v v v u v w b
説明変数の誤差 (3) 例 ) 恒常所得仮説 C Y E Y u T P T 0, cov, cov T Y Y Y Y, u 0 ky Y P P T Y: 観察される所得, YP: 恒常所得, YT: 変動所得 消費は観察不可能な恒常所得に比例する (k はほぼ 1 に近い ) 消費関数を推計すると, 消費性向はケインズ型消費関数の消費性向 (0.6~ 0.7) と推定される 説明変数の誤差 操作変数法 (Instrumental Varables Method)