(Blank page) このページを 捨 てて 次 のページから 両 面 してください
社 会 調 査 者 のための エクセルによる 統 計 データ 分 析 Text 4 <DID, PSM, IV 1 > 差 の 差 法 (Difference in Difference (DID) 傾 向 スコアマッチング 法 (Propensity Score Matching (PSM) ) 操 作 変 数 法 (Instrumental Variable (IV) ) Version 1.0 (Jp) (2013 年 03 月 10 日 ) 佐 々 木 亮 Ph.D. 国 際 開 発 センター 評 価 事 業 部 主 任 研 究 員 立 教 大 学 大 学 院 21 世 紀 社 会 デザイン 研 究 科 兼 任 講 師 1 基 礎 編 と 応 用 編 の 研 修 テキストも 作 成 されている(ただし 研 修 参 加 者 のみに 配 布 ) 基 礎 編 は (i) 平 均 値 と 標 準 偏 差 (ii) 対 応 のない t 検 定 と 対 応 のある t 検 定 で 構 成 され ている 応 用 編 は (iii) 回 帰 分 析 (iv) 構 造 方 程 式 モデリング(SEM)で 構 成 されている
社 会 調 査 者 のためのエクセルによる 統 計 データ 分 析 テキスト 4 目 次 セッション 0: エクセルの 準 備 : 分 析 ツールのインストール 1 セッション1: 差 の 差 法 (DID) 3 セッション2: 傾 向 スコアマッチング 法 (PSM) ) 9 セッション3: 操 作 変 数 法 (IV) ) 27 著 者 について 43 修 正 履 歴 44 著 者 からの 謝 辞 この 研 修 テキストに 関 して 青 柳 恵 太 朗 氏 ( 東 京 大 学 ) 神 谷 祐 介 博 士 ( 大 阪 大 学 ) 牟 田 博 光 博 士 ( 東 京 工 業 大 学 )の 各 氏 から 有 益 なコメントをいただき ました この 場 を 借 りて 御 礼 申 し 上 げます
Session 0 エクセルの 準 備 : 分 析 ツールのインストール エクセルで 各 種 の 統 計 分 析 を 行 うためには 分 析 ツール というソフトをイ ンストールする 必 要 があります <In case of Excel 2010> (1) エクセル 2010 を 起 動 し ファイル (File) > オプション(Option) をクリックします (2) 現 れたボックスで アドイン(Add-Ins) をクリック> 分 析 ツール(Analysis Toolpack) をクリック> Go をクリ ックします 2 1 3 (3) 現 れたボックスで 分 析 ツールパック (Analysis ToolPack) にチェックマ ークをつけて OKをクリックします (4) 以 下 のように インストールします か? というメッセージが 出 るので Yes(はい) をクリックします 1
(5) メニューバーから データ(Data) をクリックして データ 分 析 (Data Analysis) が 現 れていることを 確 認 します これで エクセルで 統 計 分 析 が できるようになりした <In case of Excel 2007> (1) エクセル 2007/2010 を 起 動 し オフィ スボタン( 左 上 のウィンドウズマーク) > エ ク セ ル オ プ シ ョ ン (Excel Option) をクリックします (2) 現 れたボックスで アドイン (Add-Ins) > Go をクリッ クします => これ 以 降 の 手 続 きは Excel2010 の(3)と 共 通 です 2
第 1 セッション: 差 の 差 法 (Difference in Difference (DID)) タンザニアの 地 元 NGOが 農 民 向 けに 農 業 技 術 研 修 を 実 施 した 農 業 技 術 研 修 に よって 農 民 の 収 入 は 増 加 したと 言 えるのだろうか? 事 前 と 事 後 のそれぞれで 引 算 するこ とで より 正 確 な 増 加 量 を 推 定 してみる はたして 本 当 に 農 民 研 修 は 効 果 があったので しょうか? 3
[ 1 ] データの 読 み 込 み エクセルで 以 下 のようにデータを 入 力 する デスクトップに 適 当 なフォルダを 作 って そのエクセルファイルを 保 存 する ファイル 名 は agriculture など 分 かりやす い 名 前 をつける(ただしフォルダ 名 ファイル 名 とも 日 本 語 は 不 可 ) ID.. 個 人 番 号 treatment. 研 修 参 加 / 不 参 加 ( 参 加 =1, 不 参 加 =0) FY2001 2001 年 度 の 収 入 ( 千 シリング) FY2005 2005 年 度 の 収 入 ( 千 シリング) 4
change01_05.と 入 力 する [ 2 ] 差 の 差 法 の 実 施 Type a formula of calculation of the difference between FY 2005 and FY2001 の 差 を 計 算 する 式 を 入 力 する( 単 純 な 引 き 算 ) そして 一 番 下 までコピー&ペース トする = value of FY 2005 value of FY 2001 データの 一 番 下 までコピー&ペーストする. 5
以 下 のようなデータを 得 る FY2001 と FY2005 の 差 が 計 算 されていることを 確 認 する データ>データ 分 析 > 等 分 散 を 仮 定 した t テスト と 選 択 する (Data > Data Analysis > t-test: Two-Sample Assuming Equal Variances.) OK を 押 す 6
変 数 範 囲 1 で treatment が 1 の 範 囲 のデータを 選 択 する. 変 数 範 囲 2 で treatment が 0 の 範 囲 のデータを 選 択 する. 以 下 のような 分 析 結 果 を 得 る. Hit OK. 平 均 値 n(サンプル 数 ) t 値 ( 絶 対 値 を 見 る) t 2 : 有 意 とは 言 えない t >2 : 有 意 である ( 差 がある) p 値 ( 確 率 値, %) p 0.05 : 有 意 とは 言 えない p < 0.05 : 有 意 である ( 差 がある) 7
結 論 差 の 差 法 によって 得 られた 差 は 統 計 学 的 に 有 意 である ( p< 5%) したがって したがって 農 業 技 術 研 修 によって 農 民 の 収 入 は 増 加 したと 判 断 できる なお その 増 加 幅 は 1.75 千 シ リング(1,75 1,750 ( = 3.375 1.625 ) ) 推 定 された もし 以 下 のような 箱 髭 図 (Box plot)を 作 成 するとたいへん 効 果 的 である しか し エクセルでは 作 成 できないので 描 画 機 能 が 充 実 した 他 のソフトを 使 うことを お 勧 めする ( 以 下 の 図 は STATA で 作 成 したものです ) 研 修 に 参 加 したグループ 2001 2005 研 修 に 参 加 しなかったグループ 2001 2005 1 2 ==> The value of subtraction of 2 from 1 indicates the pure change (=pure effect of the training). 8
第 2 セッション: 傾 向 スコアマッチング 法 (Propensity Score Matching (PSM)) ネパールの 地 元 NGOが 農 村 女 性 向 けにマイクロファイナンス 事 業 を 実 施 した マイクロファイナンス 事 業 によって 農 村 女 性 の 収 入 は 増 加 したと 言 えるのだろうか? たまたま やる 気 があるとかないとかといった 影 響 を 除 去 して 素 質 を 揃 えて 比 較 する ことで 推 定 してみる はたして 本 当 に マイク ロファイナンスは 効 果 があったのでしょう か? 9
[ 1 ] データの 読 み 込 み エクセルで 以 下 のようにデータを 入 力 する デスクトップに 適 当 なフォルダを 作 って そのエクセルファイルを 保 存 する ファイル 名 は agriculture など 分 かりやす い 名 前 をつける(ただしフォルダ 名 ファイル 名 とも 日 本 語 は 不 可 ) ID.. 個 人 番 号 treatment. 研 修 参 加 / 不 参 加 ( 参 加 =1, 不 参 加 =0) age. 年 齢 distance 市 場 までの 距 離 income.. 収 入 ( 千 ルピー) 10
[ 2 ] 傾 向 スコアマッチングの 実 施 もし 線 形 回 帰 (Linear regression)を 実 施 するのだったら 今 まで 通 りにデータ >データ 分 析 > 回 帰 分 析 を 選 択 する (Data > Data Analysis > Regression.) しかし 今 回 の 場 合 Y のデータは 連 続 変 数 ではなく 2 値 変 数 である(つまり 0 か 1 しかない) したがって 私 たちは 上 記 のエクセルの 回 帰 分 析 の 機 能 は 使 えな い またエクセルは Y が 0/1 の 2 値 項 を 扱 えるプロビット 回 帰 (probit regression) の 機 能 も 備 えていない Y = 連 続 変 数 Y = 0 ~ 1 (2 値 項 ) 9 8 7 6 5 4 3 2 1 0 1 0 このケースなら エクセルの 回 帰 分 析 が 使 える しかしこのケースでは エクセルは プロビット 回 帰 分 析 の 機 能 を 備 えて おらず 分 析 できない 11
そこで 他 のソフトウェアが 出 力 したプロビット 分 析 の 結 果 を 借 用 することにする (e.g., SPSS, STATA, SAS, etc.) 以 下 は SPSS が 算 出 したプロビット 回 帰 分 析 の 結 果 である 全 ての 変 数 の 係 数 は 統 計 学 的 に 有 意 である (p < 10%) BOX プロビット 回 帰 分 析 の 説 明 上 記 の 回 帰 分 析 の 結 果 から z 値 を 計 算 するための 次 の 式 が 得 られる z 値 = -5.484 + 0.264 * age - 0.302 * distance 以 下 に 示 した 標 準 正 規 分 布 グラフでその 面 積 を 合 計 1(=100%)とする ( 左 端 から) 得 られた z 値 までの 面 積 を 累 積 分 布 関 数 の 値 と 言 い これは 必 ず 0.00 から 1.00(0%から 100%) までの 間 の 値 を 取 る それをエクセルで 計 算 するときのコマンドは normsdist(z 値,0,1,1) STATA で 計 算 する 場 合 のコマンドは normprob を 用 いる 例 ) 今 回 のデータの ID6 の 人 の 場 合 ( age=27 歳 distance=3km ) Z 値 = -5.484 + 0.264 * 27-0.302 * 3 =0.738 累 積 分 布 関 数 の 値 = normdist (0.738,0,1,1) = 0.770 となる* 例 )z 値 =0.738 だと 面 積 は 約 77.0%になる あるいは 累 積 させてこのようにも 書 き 表 せる 0.4 77.0% 77.0% ( 左 端 ) z=0.738 (z 値 ) (z 値 ) z=0.738 * 正 確 には 0.769743 となる これは STATA の normprob コマンドで 計 算 した 場 合 の 0.7659423 とほぼ 一 致 している 12
次 に z 値 を 計 算 する (i) z と 入 力 する (ii) プロビット 回 帰 分 析 で 得 られ た 以 下 の 数 式 を 入 力 する (iii) したまでコピー&ペーストする = -5.484198 + 0.2635455 * C2-0.3019942 * D2 コピー&ペースト 13
次 に z 値 の 累 積 値 を 計 算 する (i) 行 の 名 前 として treatment_hat と 入 力 する, (ii) 以 下 の 数 式 を 入 力 する そして (iii) 一 番 下 までコピー&ペーストする ( 数 式 の 中 の F2 は 一 番 目 の z の 値 があるセルを 指 している ) = normdist (F2, 0, 1, 1) コピー&ペースト 14
以 下 のような 結 果 を 得 る 次 に データ>ソートを 選 ぶ (select: Data > Sort) もしダイアログボックスが 現 れたら データの 全 域 (A1 ~ G33) を 最 初 に 選 び 次 にデー タ>ソートを 選 ぶ 15
treatment_hat を 選 ぶ 値 ( value )を 選 ぶ 降 順 ( 小 から 大 へ)を 選 ぶ treatment の 予 測 値 ( treatment_hat )が 降 順 で 並 んでいる 16
似 た treatment_hat の 値 を 持 つ treatment (=1)と non-treatment (=0) のペアを 特 定 する ひとつの 理 想 的 な 基 準 は treatment_hat の 値 の 差 が 0.1 以 内 あるいはそれに 近 い 値 であること この 例 では 8 組 のペアを 特 定 することができた. なお マッチングの 方 法 として 薦 められる 方 法 は matching without replacement ( 取 り 換 えなしのマッチング)である つまり non-treatment の 値 が 一 回 以 上 ペアになることを 認 めるという 方 法 である ( 参 考 )なお treatment が 1 のグループと treatment が 0 のグループが 重 なる 部 分 のみで 選 択 することが 薦 められる(Common Support ( 共 通 支 援 範 囲 )と 呼 ばれ る ) treatment が 0 のグループ treatment が 1 のグループ 0.00 Common support 1.00 17
5 ペアを 見 つける 新 しい 列 に treatment_01 とタイプする ペアごとに 0 と 1 を 手 で 入 力 する 18