計量経済学講義 第 4 回回帰モデルの診断と選択 Part 07 年 ( ) 限 担当教員 : 唐渡 広志 研究室 : 経済学研究棟 4 階 43 号室 emal: kkarato@eco.u-toyama.ac.p webste: http://www3.u-toyama.ac.p/kkarato/
講義の目的 誤差項の分散が不均 である場合や, 系列相関を持つ場合についての検定 法と修正 法を学びます keywords: プルーシュ = ペイガン検定, ホワイト検定, 分散不均 致標準誤差, 重み付き最 乗法, 階の 回帰モデル, ダービン = ワトソン検定 教科書 : pp. 33 348( 第 7 章 )
復習 分散不均一性 仮定 ) が満たされず V u E u 仮定 ), ), v) は満たされているものとする E V ˆ w Eu ˆ w Eu w w Eu u w S xx ( 不偏性はある ) 6.46 ( 分散が異なる ) 例. 分散が不均 E E E u u 3 4 u n 仮定 ), ), ), v) が満たされていれば V ˆ S xx 仮説検定ではˆ ( 残差分散 ) をデータから推定するが ˆ は(6.46) 式を正しく計算できていない 正しい標準誤差が計算できないので t 検定ができない 3
例. 分散不均一が疑われる散布図 y 0 40 60 80 説明変数の値が きくなると, 被説明変数のばらつきも きくなる 誤差項の分散の きさが説明変数の きさと関連している可能性 0 4 6 8 0 4
分散不均一の検定 () グラフによる確認 分散不均 : 誤差の 乗の期待値 ( 誤差項の分散 ) が観測値ごとに異なっている V u E u 例. 残差の 乗が説明変数 の変動と関係性を持つ û 残差のばらつきが きくなる が きくなると 残差の 乗値も きくなる 仮説の設定 H H 0 : 均一分散である : H 0 でない 5
分散不均一の検定 (): ブルーシュ = ペイガン検定 Breusch-Pagan Test ( ブルーシュ = ペイガン検定 ) 残差の 乗値を説明変数に回帰したときの当てはまり具合 ( 決定係数 ) を利 して, 分散不均 の有無を検証する 法 例. 説明変数が, 3 の つ, サンプルサイズが n = 00 のケース 3 3 u を推定 u を計算 ˆ 補助回帰式 帰無仮説を検証する式残差の 乗を定数項と説明変数に回帰 uˆ 33 補助回帰式の決定係数 v R を計算 帰無仮説 : 均一分散である H 0 : 3 ならば ˆ 3 0 u で残差の 乗は一定になる 0 6
分散不均一の検定 (3) : ブルーシュ = ペイガン検定 3 Breusch-Pagan 検定統計量 (BP 検定統計量 ) を計算 検定統計量 : nr( サンプルサイズ 決定係数 ) 4 nr は自由度 補助回帰式の説明変数の数 のカイ 乗分布にしたがう 有意 準 5% でのカイ 乗分布の上側臨界値を求める, 0.05 5.99 Excel 関数 = CHIINV(0.05,) 臨界値を求める関数 5 検定の基本 検定統計量が臨界値よりも きい値のとき H 0 を棄却する, 0.05, 0.05 5.99 nr ならば 分散不均一である 5.99 nr ならば 分散均一である H H 0 0 を棄却する を棄却しない 7
カイ 乗分布 () カイ 乗分布 (ch-squared dstrbuton) とは : カイ( ch) 標準正規分布にしたがう確率変数の 乗和に関する分布 カイ 乗分布の確率密度関数 f x x m x e m m, x 0 自由度 m によって形が変わる分 布 ガンマ関数 自由度 m = 3 自由度 m = 0 f(x) 0.00 0.05 0.0 0.5 0.0 f(x) 0.00 0.0 0.04 0.06 0.08 0 5 0 5 0 0 0 0 30 40 x x 8
カイ 乗分布 () 例. 由度 のカイ 乗分布 有意 準 0.05 (5%),0.05 = 5.99 棄却域 有意 準 5% 臨界値 9
表 7.6 カイ 乗分布 (p.39) 下側確率 例. 由度 のカイ 乗分布 p Pr A m 0.95 5.99 下側確率 由度 m p = 0.005 0.0 0.05 0.05 0. 0.5 0.9 0.95 0.975 0.99 0.995 0.00004 0.0006 0.00098 0.0039 0.058 0.455.70 3.84 5.0 6.63 7.88 0.0003 0.000 0.0506 0.06 0..386 4.6 5.99 7.38 9. 0.6 3 0.077 0.48 0.58 0.35 0.584.37 6.5 7.8 9.35.3.8 4 0.070 0.97 0.484 0.7.06 3.36 7.78 9.49. 3.3 4.9 0
例 7.6( 表 7.7 のデータ ):BP 検定 33 u u を計算 ˆ u 33 v 補助回帰式の決定係数 R H を計算 ˆ 0 : 3 0 均一分散 : エンゲル係数 3 : 世帯年収 : 世帯人員 3 BP統計量 : nr.6957 n 0, R 0.6957 4 5 由度, 有意 準 5% のカイ 乗分布上側臨界値, 0.05 5.99 Excel 関数 = CHIINV(0.05,) 検定統計量 nr.6957は臨界値 5. 99よりも小さいので 帰無仮説を棄却できない 分散不均一であるとは言えない, 0.05
分散不均一の検定 (4) : ホワイト検定 回帰モデル 33 u ホワイト検定 3 3 uˆ と説明変数の関係を検証するために 乗項や交差項も含めて考える ( 全部で5つの説明変数を利用する ) 3 検定の基本的な流れは BP 検定と同じ H 0 モデル uˆ H 3 3 4 53 6 3 0 : 3 4 5 6 0 均一分散 v 補助回帰式の決定係数 R を計算 検定 nr ~ 自由度 5 のカイ 乗分布にしたがう 由度は補助回帰式で利 した変数の数
例 7.6( 表 7.7 のデータ ): ホワイト検定 33 u u を計算 ˆ uˆ 3 3 4 53 6 3 補助回帰式の決定係数 R を計算 H v 0 : 3 4 5 6 0 均一分散 3 ホワイト統計量 : nr.686307 n 0, R 0.6863 4 5 由度 5, 有意 準 5% のカイ 乗分布上側臨界値 5, 0.05. Excel 関数 = CHIINV(0.05,5) 検定統計量 nr.686307は臨界値. よりも小さいので 帰無仮説を棄却できない 分散不均一であるとは言えない 5, 0.05 3
練習問題 () 表 7.6 ( 例題 4,pp.344-345) 表 7.6のデータを利用して を最小 乗推定し, 残差を利用してBP およびWhte 検定を実行し分散不均一について検証しなさい さらに, 左辺 ln のみを対数変換した 3 3 3 u を最小 乗推定し, BP およびWhte 検定を行いなさい u 3 4
重み付き最小 乗法 () (pp.33-334) 表 7.8 階級ごとに集計されたデータの平均値を いるとき, 平均をとるときの集計数によって分散が不均 になることがある 階級に属する世帯 の総支出を, 食費を N N N N 4.7 49.3 階級 階級番号 総 出 費集計世帯数 00 万円 4.7 49.3 4 00 50 80.6 66. 344 50 300 3 87.9 68.6 59 300 350 4 0.3 76. 705 350 400 5 7.4 78.4 73 N 5
重み付き最小 乗法 () (pp.33-334) 世帯レベル ( 集計前 ) の回帰式 u 年収階級別 ( 集計後 ) の回帰式 u 7.30 集計後の回帰式の誤差項 u N N u u 0, V u, Eu u ば 標準的仮定 : E 0 が満たされているなら lm E 0 u, V u N 集計後の回帰式の誤差項は集計数 N () によって分散が異なる [ 明確な分散不均 ] 6
重み付き最小 乗法 (3) (pp.33-334) 分散均 化の作業 集計された誤差項 u V N u に N を乗じた N u の分散は u 30 N 7. の両辺に N を乗じると N N N u この推定モデルの誤差項は均 分散になるので, 以下のように新しい変数を定義して N N N u N u u を推定する を と に回帰する 定数項はなし 7
重み付き最小 乗法 (4) (pp.33-334) 表 7.8 のデータの重み付き最 乗法による推定結果 定数項なし N N N ˆ 8.9 0.6 ˆ 8.9 0.6 9.98 43.33 元の集計モデル (7.30) に戻す 8
復習 系列相関 系列 (seral): 定の順序にしたがって並べられた状態のこと 時系列データ (tme seres data): 時間の順序にしたがって並べられたデータ 系列相関 (seral correlaton) : 主に時系列データにおいて誤差項が互いに相関している状態のこと 仮定 v) が満たされず Covu, u Eu u 0 仮定 ), ), ) は満たされているものとする ( 不偏性はある ) V ˆ w Eu w w Eu u S xx w w 6.48 分散が異なる 仮定 v) が満たされて いれば V ˆ S xx 仮説検定ではˆ ( 残差分散 ) をデータから推定するが ˆ は(6.48) 式を正しく計算できていない 正しい t 検定ができない 9
系列相関が生じる理由 時系列データ : 過去からの持続的 傾向的な動き ( トレンド ) や循環的 ( サイクル ) な動きがデータに含まれてしまう 過去に じた誤差が将来の誤差にも影響してしまう 0
階の自己回帰モデル AR() Model 系列相関が明 的な誤差項 u u,,, n, ( ロー ): 自己回帰係数 ( イプシロン ): 確率誤差項 E 0の場合 : 0の場合 : 0, E, E 0 負 の値になる可能性 誤差が増幅 前期が正負の値のとき, 今期も正 前期が正 負 の値のとき, 今期は負 正 の値になる可能性 誤差が反転 自己回帰係数 はu とu の相関係数を示している
AR () の乱数誤差の動き 5.000 4.000 3.000.000.000 0.000 5 9 3 7 5 9 33 37 4 45 49 53 57 6 65 69 73 77 8 85 89 93 97 -.000 -.000-3.000-4.000-5.000 u (=0.9) 6.000 4.000.000 0.000 -.000-4.000-6.000 5.000 4.000 3.000.000.000 0.000 5 9 3 7 5 9 33 37 4 45 49 53 57 6 65 69 73 77 8 85 89 93 97 5 9 3 7 5 9 33 37 4 45 49 53 57 6 65 69 73 77 8 85 89 93 97 標準偏差.643 u (= 0.9) 標準偏差.364 -.000 -.000-3.000-4.000-5.000 u (=0.05) 標準偏差.05 n 00, ~ N 0,
階の自己回帰モデルの期待値, 分散, 共分散 E N u E 0 0 期待値はゼロ V u Eu 分散均 Cov u, u 系列相関がある 仮定 v) は崩れる 相関係数 u, u u V u Cov V 3
ダービン = ワトソン統計量 () 系列相関の仮説検定 H H 0 0 : 0 系列相関がない : 0 系列相関がないとは言えない 検定統計量 ( ダービン = ワトソン統計量 ; DW) DW 表 7.9 n uˆ n uˆ uˆ ~ サンプルサイズ n, 説明変数の数 mのdw 統計量分布 系列相関とDW 統計量 (p.337) DWとの関係 :DW ˆ 負の系列相関系列相関なし正の系列相関 ˆ DW ˆ 0 DW 4 ˆ 0 DW 0 ˆ 0 DW DW = のとき, 系列相関なし < DW < 4 のとき負の系列相関の疑い 0 < DW < のとき正の系列相関の疑い DW が に近いかどうかが重要 4
ダービン = ワトソン統計量 () 臨界値 有意 準 5 % の下限 D L と上限 D U ( 表 7.0, p.338) n m = m = m = 3 D L D U D L D U D L D U 5.08.36 0.95.54 0.8.75 6.0.37 0.98.54 0.86.73 7.3.38.0.54 0.90.7 8.6.39.05.53 0.93.69 9.8.40.08.53 0.97.68 0.0.4.0.54.00.68..4.3.54.03.67.4.43.5.54.05.66 N. E. Savn and Kenneth J. Whte (977) The Durbn-Watson Test for Seral Correlaton wth Extreme Sample Szes or Many Regressors DW 統計量の分布は説明変数の数 m だけでなく, その内容にも依存している そのためはっきりとした形はわからないが, 分布の下限 (D L ) と上限 (D U ) はわかっている DW 統計量の分布は を中 とする分布で, 0 から 4 までの値をとる m =, n = 5 DW 統計量の分布 0 < DW < のとき正の系列相関の疑い D.08. 36 L D U < DW < 4 のとき負の系列相関の疑い 4 D U.64 4 D.9 L 0 3 4 真の臨界値? 真の臨界値? 5
ダービン = ワトソン統計量 (3) 棄却域と判定 正の系列相関 H0 : 0を棄却 H0 : 系列相関なし 0を棄却しない 負の系列相関 H : 0を棄却 0 0 D L.08 D U.36 4 D U.64 4 D 4 L.9 DW 統計量 判定不能 判定不能 6
表 7. 消費と所得 (n=39, m=) u を最小 乗推定 回帰分析 で 残差 にチェックを入れて残差を出力 推定結果 ˆ 5.46 0.66 5.34 7.48 û uˆ uˆ ˆ u DW n uˆ n uˆ uˆ を計算 期ずらす DW 357.956 59.583.38 乗和を求めるには sumsq 関数を利 する 7
例 7.8 表 7. 消費と所得 ( 続き ) H 0 : 0を検定, 表 7.0よりDW分布の下限と上限は D L.43, D U.54 n 39, m m = n D L D U 39.43.54 D L.43 D U.54.57 4 D 4 U.46 D L 正の系列相関 負の系列相関 0 3 4 DW.38 DW DW 統計量 DW.38は0 DW DL の領域に入るので H0 有意水準 5% で正の系列相関があるといえる : 0 を棄却する 8
コクラン = オーカット法 AR() モデルの推定 期の回帰式 : u 両辺にを乗じると u AR モデルに代入すると u u 推定モデルは u u u u (7.37) (7.38) の推定 順 [ ]: u 残差 uˆ を推定 : を求める []: uˆ を利用してAR uˆ uˆ を推定して の推定値 ˆ を得る [3]: ˆ ˆ として7. 38を推定 モデル 7.38 7.38 9
表 7. 消費と所得 (n=39, m=) []:,,39 を利用する u û uˆ の推定結果を利用 ˆ 0.86784 係数 標準誤差 t P- 値 切 0 #N/A #N/A #N/A 値 0.86784 0.6599.734938 0.09076 ˆ 96~998年 ˆ 960~997年 配列コピーを利 して計算 []: uˆ ˆ u を推定 ラベル のチェックをはずす 定数に 0 を使 にチェック ˆ 4.0 0.655 30
コクラン = オーカット法適用後の DW ˆ 4.0 0.655 DW n uˆ n uˆ uˆ 4.9534 37.597.74 DW.74は DU DW 4 DU の領域に入るのでH0 有意水準 5% で系列相関があるとはいえない コクラン = オーカット法によって系列相関は消滅 : 0を棄却しない 3