パネル データの分析
内容 パネル データとは pooled cross section data の分析 パネルデータの分析 DID (Difference in Differences) モデル パネル データの分析 階差モデル (first difference model) fixed effects model random effects model パネル分析の実際 データ セットの作成 推定 Hauman 検定
パネル データとは クロスセクション データ 時系列データ パネル データ クロスセクション データ 時系列 同一の家計 ( 企業 ) を時系列的に追ったデータ 都道府県別データ ( 県民所得, 物価, 地価等のデータ ) を数年分あつめたデータ 疑似パネルデータ 注意 ) pooled cross section data 複数時点のクロスセクション データ 各時点でランダムなサンプリング 調査対象は異なる時点では同一ではない パネル データではない
パネル データとは (2) wagepan.raw 賃金や労働時間についてのパネル データ 個人の識別番号 nr year black exper hisp hours lwage married 13 1980 0 1 0 2672 1.19754 0 13 1981 0 2 0 2320 1.85306 0 13 1982 0 3 0 2940 1.344462 0 13 1983 0 4 0 2960 1.433213 0 13 1984 0 5 0 3071 1.568125 0 13 1985 0 6 0 2864 1.699891 0 13 1986 0 7 0 2994-0.72026 0 13 1987 0 8 0 2640 1.669188 0 17 1980 0 4 0 2484 1.675962 0 17 1981 0 5 0 2804 1.518398 0 17 1982 0 6 0 2530 1.559191 0 17 1983 0 7 0 2340 1.72541 0 17 1984 0 8 0 2486 1.622022 0 17 1985 0 9 0 2164 1.608588 0 17 1986 0 10 0 2749 1.572385 0 17 1987 0 11 0 2476 1.820334 0 18 1980 0 4 0 2332 1.515963 1 18 1981 0 5 0 2116 1.735379 1 18 1982 0 6 0 2500 1.631744 1 18 1983 0 7 0 2474 1.998229 1 特定の個人についての複数年のデータ : 人種ダミー, 経験年数, 労働時間, 賃金, 結婚ダミー 時間を通じて変化しない変数もある ( 人種ダミー等 ) 労働時間, 賃金は年によって異なる値
パネル データ利用の利点 サンプル数の増加, 変数の変動性が大きくなる 推計値の信頼度が高まる クロスセクション データやマクロ時系列データでは個々の主体の異質性をうまく捉えられない パネル データを利用することで克服できる場合もある 動学的効果を捉えることができるかもしれない マクロ時系列データ 集計された経済主体の行動 ( 個々の主体の意思決定がうまく捉えられない ) 社会資本整備の効果 地価に反映される 社会資本整備計画のアナウンスの前後のデータがあれば
Pooled cross section data の分析 cps78-85.raw 教育の収益率の推計 1978 年と 1985 年の 2 時点のデータ 2 時点で調査対象は異なる 教育の収益率は 2 時点間で変化したか 複数時点のデータを単純にプールして分析? 78 年と 85 年を単純に比較できない 全般的な賃金変化, マクロ経済ショックの存在 時点ダミー ( 定数項ダミー ) を用いる 教育の収益率の違い 年次ダミーと教育年数 (EDUC) の交差項
Dependent Variable: LWAGE Method: Least Squares ncluded observations: 1084 教育の収益率の推計 :poold cross section data 78 年と 85 年 Variable Coefficient Std. Error t-statistic Prob. C 0.458933 0.093449 4.911078 0.0000 Y85 0.117806 0.123782 0.951725 0.3415 EDUC 0.074721 0.006676 11.19174 0.0000 Y85EDUC 0.018461 0.009354 1.973509 0.0487 EXPER 0.029584 0.003567 8.293165 0.0000 EXPERSQ -0.000399 7.75E-05-5.151307 0.0000 UNION 0.202132 0.030294 6.672233 0.0000 FEMALE -0.316709 0.036621-8.648173 0.0000 Y85FEM 0.085052 0.051309 1.657644 0.0977 Y85:85 年なら 1 EDUC : 教育年数 Y85EDUC = Y85*EDUC EXPER: 経験年数 EXPERSQ = EXPER^2 UNION: 組合加入なら 1 FEMALE: 女性なら 1 Y85FEM=Y85*FEMALE R-squared 0.426186 Mean dependent var 1.867301 Adjusted R-squared0.421915 S.D. dependent var 0.542804 S.E. of regression 0.412704 Akaike info crerion 1.076097 Sum squared resid 183.0991 Schwarz crerion 1.117513 Log likelihood -574.2443 Hannan-Quinn crer. 1.091776 F-statistic 99.80353 Durbin-Watson stat 1.918367 Prob(F-statistic) 0.000000
DID estimator (difference in differences estimator) kielmc.raw ゴミ焼却場の建設が住宅価格に与える影響 1978 年,81 年の 2 時点のデータ ( 同一の住宅を追跡したものではない ) 1978 年時点では焼却場の建設の噂なし,81 年時点ではあり ( 実際には 85 年に建設 ) 2 時点間の間にある event が生じた 焼却場から離れた地域は event の影響を受けない 焼却場の近くの住宅は event の影響を受ける 一種の自然実験 control group 焼却場から離れた地域 treatment group 焼却場の近くの地域 event の実施の前後で両者の反応の違いをみる 完全な実験であれば,control group と treatment group は同質な集団でないといけない このケースでは, 一般にゴミ焼却場は中心部から離れた地域に建設されるので, ゴミ焼却場が建設されようがされまいが, 住宅価格は安くなることに注意 ここでは, その効果をダミー変数 ( ゴミの焼却場の近く = 辺鄙な場所 ) 等で処理すれば, 両グループはほぼ同質とみなせるとして分析する
kielmc.raw 問題 住宅価格方程式の推計せよ 被説明変数 : 住宅価格 (rprice: 1978 年実質 ) 説明変数 : nearinc( 住宅がゴミ焼却場の近くなら 1), y81(81 年なら 1), y81* nearinc, 住宅の質を表す変数 ( 広さ, 築年数等 ), 周辺環境 比較のため, 次の方程式を推計 時点ダミーを用いずに単純にプールしたデータで回帰分析 78 年だけ,81 年だけのデータで回帰
crime2.raw パネル データの分析 46 市の失業率 (unem) と犯罪発生率 (crmrte), 1982 年と 1987 年の 2 時点 同一の市を追跡したパネル データ 犯罪発生率と失業率の関係を分析 他の条件が一定なら, 失業率の上昇は犯罪発生率を高める? crmrte を被説明変数,unem を説明変数にして OLS を, 各年ごと, およびプールしたデータで行うと, 失業率と犯罪発生率の間に予想した関係は見いだせるだろうか
パネル データの分析階差モデル 各都市の犯罪発生率に結び付く, 各都市固有の観察不可能な変数があるかもしれない この変数は観察不可能だが,2 時点間で変化しないとする この変数の影響を考慮して失業率と犯罪発生率の関係を推定するにはどうすれば良いか? y i,t = α i + βx i,t + γd t + u i,t というモデルを考える a i : 都市 i の固有の性質 ( 観察不可能 ) x i,t, y i,t : 都市 i, 時点 t の説明変数と被説明変数 D t : 時点ダミー (1987 年なら 1) マクロ経済ショックがあるかもしれない 階差をとると問題は解決 y i,t = γ + β x i,t + u i,t 階差モデルで犯罪発生率と失業率の関係を分析せよ
R での分析 crime2.raw 欠損値が. importの際注意 サブセットでの回帰 d87: 87 年なら1,82 年なら0というダミー変数 crime2がattachされているとして 87 年だけの回帰 lm(y ~ x1 + x2 + x3, subset = (d87 == 1)) 82 年だけの回帰 lm(y ~ x1 + x2 + x3, subset = (d87 == 0))
パネル データの分析方法 次のモデルを考える i : 個人 i t : 時点 t y : 被説明変数個人 i, 時点 t x j, : 説明変数 x j (j=1,2,...,k) 個人 i, 時点 t u : 誤差項個人 i, 時点 t y x x 0 1 1, 2 2, k x k, u u の想定 pooling data での OLS, fixed effects model, random effects model
固定効果モデル fixed effects model y u a : E i 2 v 0, var v,cov v, x j, cov a, i xi, kt 0 cov u, x 0 but x i 0 a v 1 individual j, 1, x 2 effect 2, x 個人 i の individual effect と説明変数の間に相関があると, 誤差項 u と説明変数が独立だという最小二乗法の前提が満たされない例 ) 賃金方程式の推計で, 個人の生来の資質 (individual effect) は観察できない しかし, 個人の生来の資質は学歴と相関があるかもしれない k k, 0 u
変量効果モデル random effects model y = β 0 + β 1 x 1, + + β k x k, + u u = α i + v cov α i, x j, = 0 a i : individual effect fixed effects model random effects model は現在では, ミスリーディングな用語もともとは, 文字通りの意味 :fixed effects は非確率変数 ( 固定値 ), random effects は確率変数という想定だった
パネル分析その他 一般的には,individual effects は個々の主体 ( クロスセクション ) に関連 場合によっては, 時点特有のショックをコントロールするために, 時点に関連させる場合もある unobserved effects model 個々の主体に特徴的な, 観察されない変数の影響をうまく処理するための手法 狭い意味でのパネル データの分析に限定されない
FE(fixed effects) model の推定方法 y 0 1x1, 2x2, k xk, a i v 各変数の t に関しての平均を求め, 平均からの乖離をとる (whin estimator ともよばれる ) y y y where x y 1 i, t x 1 1, y x y 1, i, x x y 2 2, y x x i, t あるいは,1 階の階差モデルを考える FD(first differenced) estimator 2 2, 1, x x j, k x j, k, v x j, 1 こうした変形で,individual effect を表す項は消去され, 他のパラメータを推定できる x i k k, v
FE model の推定方法 (2) 自由度 N 個のクロスセクション,T 時点のデータ,k 個の説明変数 N*(T-1)-k の自由度になることに注意 一階の階差をとると初期時点の階差データはない 平均からの乖離をとると, T 時点の観測のうち独立なのは T-1 個になる 説明変数 時間を通じて一定の値をとる変数の効果は分析できない 例 ) 教育の収益率 学歴や性別, 人種は一定の値 教育の収益率, 性 人種の違いが賃金に与える影響は,FE モデルでは推定できない FD estimator ( 階差モデルの推定量 ) か whin estimator か 誤差項の性質が異なる 時点の数が少ないときはあまり大きな問題ではない v の系列相関が高い時 FD estimator そうでなければ whin estimator
RE (random effects) model 誤差項の想定 u = α i + v cov x j,, α i = 0 E α i = 0, E v = 0 var α i = σ 2 α, var v = σ2 v cov α i, v jt = 0 (for all i, j, t) cov v, v js = 0 (if i j, t s) cov α i, α j = 0 (if i j) Pooled dataでolsを行うと, 誤差項の均一分散の前提が崩れる RE model : 誤差項の想定からGLS ( 詳しい説明は上級のeconometircsの教科書を参照すること ) 誤差項の分散共分散行列
パネル分析の実際 wagepan.raw を Eviews に読み込む 賃金と教育等の関係についてのパネル データ クロスセクションデータで import, その後, パネル データに変換する方法 パネル データとして import する方法 回帰式の推定 単純な回帰 ( プールされたデータで ) fixed effects model ダミー変数を用いる 1 階の階差方程式 random effects model
wagepan.des 4360 obs. =545 obs. x 8 年 27 variables wagepan.raw ファイルを開いて, 先頭行に変数名を挿入したファイルを作成しておく
ファイルの import 最初に空のデータセットを作成 Eviews を起動し, クロスセクションデータとして読み込むための準備を行う menu から File/New/Workfile 右の画面 クロスセクションデータとして import するので Unstructured/Undated を選択 observation 数を記入
ファイルの import(2) メニューから File/Import/Import from file.. で目的のファイルを選択する
ファイルの import(3) 先頭行 (1 行 ) に変数名の入ったファイルなので Header lines は 1 後はメニューに従っていけば import が完成 nr: 個人の識別番号 year: 年次
うまく読み込むことができれば左のようになる データセットができたら適当な名前をつけて保存する クロスセクションデータをパネルデータに変換するためには, このあたり (Range) をクリックするか,menu から Proc Structute/ Resize Current Page を選択
クロスセクションデータからパネルデータへの変換 workfile structure type として Dated Panel を選択 Cross section ID, 時点を表す変数を指定ここでは nr と year Frequency や Start date, End date も入力した方がいい場合もある ( このデータでは自動的に判別された )
パネル データへの変換 : 前頁の操作を行うと次の画面が表れる workfile structure で Dated Panel を選択 個人を識別する変数を入力 時点を表す変数を入力 Frequency や Start date, End date も入力した方がいい場合もある ( このデータでは自動的に判別された )
Panel data として識別された 1980-1987 x 545 obs. で合計 4360 obs. パネルデータから通常の undated cross section データへの変換もできる Proc/Structure/Resize.. とたどるか, 左の赤で囲った部分 (Range あたり ) をクリック
最初からパネルデータとして import する方法 空のデータセットを作るメニューから File/Workfile/New と進んで, Workfile structure type Balanced Panel Frequency は年次データなので Annual Start date, End date を指定し, Number of cross sections に数を記入
最初からパネルデータとして import する方法 (2) 画面に従って進んでいく左が import の最終段階 Cross section ID と Date Series が正しいことを確認して Finish を押す
パネル分析 パネル分析のオプションはこのタブから選択できる 左のような回帰式を推計する
パネル分析のオプション cross section None Fixed Effects Random Effects Period None Fixed Effects Random Effects が選択できる
R でのパネル分析 パッケージ plm が必要 データをクロスセクションデータとして読み込み,plm.data( ) でパネルデータに変換 plm.data( データファイル,index=c(ID,period)) 回帰分析は plm( モデル式, データ名,index=c(ID,period))
R で wagepan というデータファイルをパネルデータに変換し, パネル分析を行う library(plm) でパッケージ plm をロード wagepan1 <- plm.data(wagepan, index = c("nr", "year")) # plm.data( ) でパネルデータへ変換 # index はクロスセクション ID と時点を表す変数の指定 wage1_fe <- plm(lwage ~ exper, data=wagepan1, model="whin" ) # plm( モデル式, データの指定, 分析方法の指定 ) # model : 固定効果 whin, ランダム効果 random, プール pooling # plm の結果を wage1_fe に保存 summary(wage1_fe) # 結果の要約 fixef(wage1_fe) # 固定効果の出力 ( クロスセクションごとの定数項 ) # ランダム効果, プーリングデータでの推定 wage1_re <- plm(lwage ~ educ + exper, data=wagepan1, model="random" ) wage1_pool <- plm(lwage ~ educ + exper, data=wagepan1, model="pooling" )
次の方程式を推計 wagepan.raw lwage = f( educ, black, hisp, exper, married, union) educ( 教育年数 ), black( 黒人ダミー ), hisp( ヒスパニックダミー ) は一定の値 exper(labor market experience) labor market から撤退していなければ ( 出産等?), 基本的には year と同じく,1 年ずつ増えていく Pooled OLS RE model FE model
Pooled OLS と RE model Dependent Variable: LWAGE Method: Panel EGLS (Cross-section random effects) Date: 03/21/18 Time: 14:59 Sample: 1980 1987 Periods included: 8 Cross-sections included: 545 Total panel (balanced) observations: 4360 Swamy and Arora estimator of component variances Variable Coefficient Std. Error t-statistic Prob. C -0.107464 0.110411-0.973312 0.3305 EDUC 0.101225 0.008890 11.38692 0.0000 BLACK -0.144131 0.047488-3.035096 0.0024 HISP 0.020151 0.042488 0.474280 0.6353 EXPER 0.112119 0.008239 13.60860 0.0000 EXPERSQ -0.004069 0.000590-6.893449 0.0000 MARRIED 0.062795 0.016728 3.753851 0.0002 UNION 0.107379 0.017783 6.038446 0.0000 Effects Specification S.D. Rho Cross-section random 0.324567 0.4606 Idiosyncratic random 0.351255 0.5394 Weighted Statistics R-squared 0.178240 Mean dependent var 0.589338 Adjusted R-squared 0.176918 S.D. dependent var 0.388204 S.E. of regression 0.352193 Sum squared resid 539.8226 F-statistic 134.8502 Durbin-Watson stat 1.588405 Prob(F-statistic) 0.000000 Unweighted Statistics R-squared 0.180806 Mean dependent var 1.649147 Sum squared resid 1012.958 Durbin-Watson stat 0.846488
FE model Dependent Variable: LWAGE Method: Panel Least Squares Date: 03/21/18 Time: 15:02 Sample: 1980 1987 Periods included: 8 Cross-sections included: 545 Total panel (balanced) observations: 4360 estimation output の画面から View/ Fixed/ Random Effects を選択する individual effects を確認することができる Variable Coefficient Std. Error t-statistic Prob. C 1.395302 0.012294 113.4964 0.0000 EXPERSQ 0.003699 0.000189 19.56038 0.0000 MARRIED 0.107343 0.018196 5.899163 0.0000 UNION 0.082762 0.019770 4.186372 0.0000 Effects Specification Cross-section fixed (dummy variables) R-squared 0.600523 Mean dependent var 1.649147 Adjusted R-squared 0.543201 S.D. dependent var 0.532609 S.E. of regression 0.359974 Akaike info crerion 0.911490 Sum squared resid 493.9646 Schwarz crerion 1.713408 Log likelihood -1439.048 Hannan-Quinn crer. 1.194508 F-statistic 10.47621 Durbin-Watson stat 1.750265 Prob(F-statistic) 0.000000
問題 wagepan.raw 1980 年から 87 年の 8 時点のデータ 賃金, 教育年数, 経験年数, 人種ダミー, 結婚ダミー,... 1. 次のモデルを pooled OLS で推定せよ 1. 被説明変数 lwage ( 賃金の対数値 ) 2. 説明変数 educ( 教育年数 ), exper( 経験年数 ),black ( 黒人ダミー ), hisp( ヒスパニック ダミー ), 結婚ダミー, 組合ダミー 2. random effects model で推計し,pooled OLS との結果と比較せよ 3. fixed effects model で回帰を行え ( 注意 : 学歴, 人種ダミー等を説明変数に加えることはできない )
RE model か FE model か 時間を通じて一定の変数の効果に興味がある場合は FE model を使った分析はできない 賃金方程式で教育の収益率をはかる場合 RE model で推定 RE model か FE model かの統計的検定 Hausman test RE model の残差と説明変数に相関があるかどうかの検定 Eviews では RE model の estimation output の menu から View/ Fixed/Random Effects Testing/ Correlated Random Effects -Hausman Test をたどれば自動的に検定してくれる (H0: Remodel が正しい )