操作変数法 Instrumental Varables Method
誤差項と説明変数の相関 説明変数の誤差 説明変数から省かれた変数の影響 誤差項 説明変数が内生変数であるとき 連立方程式モデル --------------------------- 誤差項と説明変数の間に相関がある場合には, 係数の推定値はバイアスを持つ 操作変数法 (Instrumental Varables Method)
説明変数の誤差 u y * j u j, for all 0 ), co( 0, E * 真のモデル説明変数 * は観察できない : そのかわり が観察できる w u u y 誤差項 w の期待値は 0, 分散は一定 しかし,w と には相関がある ( 次ページ参照 )
説明変数の誤差 (2) 説明変数の誤差 誤差項と説明変数の相関 OLS 推定量はバイアスがある 最少二乗推定量 特に単回帰の場合 w X X X y X X X b ' ) ' ( ' ) ' ( 1 1 2 2 * 2 * 2 2 * 2 * * ) ar( ), co( ) ar( ), co( plm u w b
説明変数の誤差 (3) 例 ) 恒常所得仮説 C Y E Y Y u T P T 0, co, co T Y Y Y Y, u 0 ky P P T 真のモデルしかし Y P は観察不可能 観察可能な変数は Y Y: 観察される所得, Y P : 恒常所得, Y T : 変動所得 消費は観察不可能な恒常所得に比例する (k はほぼ 1 に近い ) 消費関数を推計すると, 消費性向はケインズ型消費関数の消費性向 (0.6~0.7) と推定される
連立方程式モデル 例 )Keynes 型マクロモデル G I C Y u Y C u G I Y 1 1 1 1 上のモデルから Y の均衡値を求めると Y が上のようにきまるとき, ケインズ型消費関数の説明変数は内生変数 Y と u の相関は 0 ではない co(y,u)= 2 /(1-) 0 回帰分析の前提が満たされない OLS の推定はバイアスを持つ
連立方程式 (2) 社会資本の生産性 P lny 1 ln L 2 ln K 3 ln K G Z u Y: 県民所得,L: 労働力,K P : 民間資本,K G : 社会資本 社会資本の生産性に関する多くの研究では, 低い ( 場合によってはマイナスの ) 3 の値が報告されている K G は政治的に決定されているかもしれない ( 過疎地や低所得地域に手厚い再分配 ) K G は内生変数 G ln K 0 1 lny 2 ln POP
omtted arables 説明変数から省かれた変数の存在 例 ) 賃金方程式 真のモデル ln wage = a + b* educ + c* ablty + u educ: 教育年数,ablty : 能力 ( ただし観察不可能 ) このとき ln wage = a + b* educ + を推定すれば, 誤差項 には ablty の影響が含まれる 一般に高い能力 高学歴が成立 ablty と educ には相関 と educ には相関 賃金方程式の係数 b はバイアスを持つ ( 教育の影響を過大に評価 )
操作変数法 Instrumental Varable Method y u co(, u) 0 説明変数と誤差項に相関がある状況を考える 操作変数 z を考える z は次の性質を満たす変数である co( z, u) co( z, ) 0 0 操作変数 z は次の性質を満たす誤差項と相関がない説明変数 と相関がある IV 法の推定 ˆ co( z, co( z, y) ) co( z, co( z, ) u) co( z, u) co( z, )
操作変数法 (2) 賃金方程式の場合 ln wage = a + b* educ + u 誤差項 u は能力を表す変数が反映 操作変数として望ましい性質 (a) u( 能力等 ) と無相関 (b) educ と相関 どの変数が望ましいかはわからない co(u,z) 0 をテストすることはできない 操作変数の候補 誕生日 (b) が満たされない 父親 母親の学歴 (a) が満たされない 兄弟の数 (a) も (b) も満たされる? 兄弟の数 educ と相関あり ( マイナスの相関 ), 能力と無相関
重回帰の場合 y b X b IV 操作変数法 (3) u 操作変数法と OLS による推定量の比較 OLS 操作変数の満たすべき条件 1 plm n 1 plm n 1 ZX Zy ZX ZX Zu 1 1 X X X y X X 1 X u Zu O 0 誤差項と説明変数に相関がある場合, 操作変数法による推定量はバイアスを持たない ( 標本数が大きいとき ; もちろん, 誤差項と相関を持たない操作変数が選べればの話 ) 一方,OLS の推定量はバイアスを持つ
2 段階最小二乗法 Two Stage Least Square Method y 1 = α + β 1 y 2 + β 2 + u 上のモデルで y 2 が内生変数である場合,y 2 をそのまま使うのではなく,y 2 を外生変数 ( 操作変数 ) に回帰させ, その予測値を説明変数として用い, 回帰分析を行う y 1 = α + β 1 y 2 + β 2 + u y 2 : 予測値 社会資本の生産性の計測の例 社会資本ストックは政治的に決定される内生変数 社会資本ストックを決める政治的ルールを計測し ( 交付税, 補助金, 人口, 面積, 所得等 ), その予測値を説明変数として用いる 操作変数法の一種 多くの統計ソフトでは, 操作変数を指定すれば, y 2 を自動的に計算して TSLS の結果を報告してくれる
操作変数法による推定 (mroz.raw) Quck /Estmate Equaton で Estmaton settngs の Method で TSLS を選択すると, Instrument lst を記入するダイアローグが表れる ここに操作変数を記入 操作変数のリストには自動的に定数項が含まれる ( 入れない場合には, Inclde a constant のチェックをはずす )
OLS の結果 既婚女性の教育の収益率の分析誤差項と教育年数 EDUCには相関があるかもしれない ( 能力の高い人ほど高学歴 ) Dependent Varable: LWAGE この場合,EDUCの係数は能力の効果も Method: Least Squares 含んで計測される Date: 05/08/17 Tme: 22:43 Sample (adjusted): 1 428 Included obseratons: 428 after adjustments Varable Coeffcent Std. Error t-statstc Prob. C -0.185197 0.185226-0.999844 0.3180 EDUC 0.108649 0.014400 7.545126 0.0000 R-squared 0.117883 Mean dependent ar 1.190173 Adjusted R-squared 0.115812 S.D. dependent ar 0.723198 S.E. of regresson 0.680032 Akake nfo crteron 2.071309 Sum squared resd 197.0010 Schwarz crteron 2.090276 Log lkelhood -441.2600 Hannan-Qunn crter. 2.078800 F-statstc 56.92892 Durbn-Watson stat 1.984707 Prob(F-statstc) 0.000000
Dependent Varable: EDUC Method: Least Squares Date: 05/08/17 Tme: 22:45 Sample: 1 753 Included obseratons: 753 操作変数として, 父親の教育年数 FATHEDUC を選択 FATHEDUC と EDUC には相関がある Varable Coeffcent Std. Error t-statstc Prob. C 9.799013 0.198537 49.35603 0.0000 FATHEDUC 0.282428 0.020888 13.52079 0.0000 R-squared 0.195769 Mean dependent ar 12.28685 Adjusted R-squared 0.194698 S.D. dependent ar 2.280246 S.E. of regresson 2.046261 Akake nfo crteron 4.272558 Sum squared resd 3144.574 Schwarz crteron 4.284839 Log lkelhood -1606.618 Hannan-Qunn crter. 4.277289 F-statstc 182.8116 Durbn-Watson stat 1.943639 Prob(F-statstc) 0.000000
操作変数法の結果 教育の収益率はOLSより低めに推計された Dependent Varable: LWAGE ただし,s.e. は大きい Method: Two-Stage Least Squares Date: 05/08/17 Tme: 22:46 Sample (adjusted): 1 428 Included obseratons: 428 after adjustments Instrument specfcaton: FATHEDUC Constant added to nstrument lst Varable Coeffcent Std. Error t-statstc Prob. C 0.441104 0.446102 0.988796 0.3233 EDUC 0.059173 0.035142 1.683850 0.0929 R-squared 0.093438 Mean dependent ar 1.190173 Adjusted R-squared 0.091310 S.D. dependent ar 0.723198 S.E. of regresson 0.689390 Sum squared resd 202.4601 F-statstc 2.835350 Durbn-Watson stat 1.968194 Prob(F-statstc) 0.092943 Second-Stage SSR 221.9799 J-statstc 6.04E-42 Instrument rank 2
R での操作変数法 reg( ) を用いる ( パッケージ AER が必要 ) lbrary( AER ) でロード reg(y~1+2+3 z1 + 2 +3) 1に内生性, 操作変数としてz1,2,3を選んだ場合 tsls( ) を用いる ( パッケージ sem が必要 ) パッケージsemをインストール lbrary( sem ) でパッケージsemをロード tsls(y~1+2+3, ~z1+ 2 +3) tsls( モデル式, 操作変数のリスト ) 操作変数のリストは ~ z1 + 2 + 3 のように書く
R での mssng alue の扱い データセットの中に欠損値が含まれている場合 データの mport の画面で, n.a.strngs の欄に欠損値の数値 ( 文字列 ) を指定する左図は欠損値が. の場合 欠損値としてよく使われるのは -999 のようなありえない数値
R での欠損値後から欠損値を指定する場合 データフレーム mroz 中の変数 欠損値が -999 の場合 mroz$[mroz$ == -999] <- NA mroz$ はベクトル : その要素が -999 に等しいものに NA( 欠損値 : Not Aalable) を代入するというコマンド いきなり置き換えるのが危険な場合は別の変数に を代入してから行う mroz$y <- mroz$ としてから mroz$y について上記の代入 欠損値が. のような文字列の場合 変数 は文字列のベクトルとして読み込まれる mroz$[mroz$ ==. ] <- NA として ( 文字列は で囲む ) mroz$ <- as.numerc(mroz$) で数値データに変換 新たに作成した変数を含めたデータセットを保存 wrte.cs( ) 等で
注意 操作変数の選択基準 説明変数と相関 これはデータからチェックできる ) 誤差項と無相関 データからチェックできない そう考えるのがもっともらしい 操作変数の数 推定する方程式の説明変数と ( 少なくとも ) 同じ数を指定 wage2.raw のデータで,educ を被説明変数,sbs を説明変数にした回帰分析を行って,sbs と educ に相関があることを確かめよ
Card: 教育の収益率の測定 賃金方程式の推計 説明変数 : 教育年数, 経験年数, 人種, 地域 教育年数は賃金方程式の誤差項と相関がある? Omtted arable の問題 ( 能力 : 能力が高い 高学歴 ) 教育年数は親の所得, 家庭環境によって決まる内生変数? Card(1995) は, 教育年数 (educ) の操作変数として, 17 歳時に大学の近くに住んでいたというダミー変数 (nearc4) を選択 nearc4 は教育年数と相関があった ( 大学への進学が容易 ) nearc4 は本人の能力とは無関係だと考えられる
Card: 教育の収益率の測定 (2) card.raw のデータを用い, 次の賃金方程式を OLS で推計 被説明変数 ln(wage) 説明変数教育年数 (educ), 経験 (eper), epersq, 黒人ダミー, 地域ダミー (smsa, south,..) educ を nearc4 で回帰し, 相関があることを確かめる 操作変数法で賃金方程式を推計し,OLS の結果と比較する 操作変数経験 (eper), epersq, 黒人ダミー, 地域ダミー (smsa, south,..),nearc4