統計学ダミー変数による分析 担当 : 長倉大輔 ( ながくらだいすけ ) 1
切片 ( 定数項 ) ダミー 以下の単回帰モデルを考えよう これは賃金と就業年数の関係を分析している : ( 賃金関数 ) ここで Y i = α + β X i + u i, i =1,, n, u i ~ i.i.d. N(0, σ 2 ) Y i : 賃金の対数値, X i : 就業年数. ( 実際は賃金を就業年数だけで説明するのは現実的はない このモデルは あくまでダミー変数をどのように使うかを説明するための非常に簡略化したモデルである ) 2
切片 ( 定数項 ) ダミー 観測されたデータから 最小二乗法によって未知パラメータの α と β を推定する事は難しくない しかしながら 就業年数が賃金に与える影響は 何らかの理由により 男性と女性で異なる可能性がある もしこの仮説が正しいのであれば これはつまり 先ほどの回帰モデルにおいて 男性の場合と女性の場合で α と β の値が異なる事を意味している 3
切片 ( 定数項 ) ダミー このような男女の違いを分析するために 以下の回帰モデルを考えよう : Y i = α + α M D M,i + β X i + u i, i =1,, n, ここで D M,i は以下のような変数である D M,i 1 0 ( i 番目の労働者のデータが男性の場合 ), ( i 番目の労働者のデータが女性の場合 ). この D M,i のような変数の事をダミー変数もしくは単純にダミーと呼ぶ 4
切片 ( 定数項 ) ダミー i 番目の労働者が女性だった場合 D M,i = 0 であるので Y i は Y i = α + β X i + u i によって決定される 切片の値は α である また 男性の場合は D M,i = 1 であるから Y i は Y i = α + α M + β X i + u i によって決定される 切片の値は α + α M である 5
切片 ( 定数項 ) ダミー この 2 つの回帰モデルを比較すると α M いうのはそれぞれ男性と女性の回帰モデルの切片の値の差である事がわかる もし α M が正であれば これは ( 就業年数の影響を除くと ) 男性の賃金の方が平均的に高い事を意味している 負であれば逆の解釈になる 以後この α M を ( 賃金における ) 男性効果 と呼ぶ事にしよう 6
切片 ( 定数項 ) ダミー 先ほどのモデルにおいて 未知係数の α, α M, β は Y i = α + α M D M,i + β X i + u i という回帰モデルの係数を最小二乗法で推定する事により推定する事ができる またこの場合も t 検定によって帰無仮説 H 0 : α M = 0 を通常通り検定することができる この仮説は男性効果が存在しないことを意味している 7
係数ダミー 就業年数が賃金へ与える影響も男性と女性で違う可能性がある この場合賃金関数において就業年数の係数である β の値が男性と女性で異なるという事になる もし そうであるとするならば この β における男性と女性の違いはどのようにとらえることができるだろうか? 8
係数ダミー もし賃金関数において (α に加えて ) β における男女の違いも考慮したい場合は以下の回帰モデルを推定すればよい : Y i = α + α M D M,i + (β + β M D M,i ) X i + u i, = α + α M D M,i + β X i + β M D M,i X i + u i, ここで D M,i は先ほどと同じである この回帰モデルにおいては β M の値が就業年数の影響の男女間の違いを表している このようにダミー変数を入れることをしばしば係数ダミーを入れるという 9
係数ダミー この場合もやはりこの回帰モデルの α, α M, β, および β M は最小二乗法で推定する事ができる この回帰モデルにおける説明変数は 1, D M,i, X i, および D M,i X i の 4 つある事に注意 通常通り t 検定で帰無仮説 H 0 : β M = 0 を検定する事もできる ( また H 0 : α M = 0, β M = 0 も F 検定で検定することができる ) 10
ダミー変数 例題 1: D F,i を i 番目の労働者が女性なら 1, 男性なら 0 を取るダミー変数としよう 以下の回帰モデルを考えよう : Y i = δ + δ F D F,i + γx i + γ F D F,i X i + u i. このモデルにおける δ, δ F, γ, および γ F, を 先ほどの回帰モデルの α, α M, β, および β M を用いて表しなさい 11
2 つ以上のダミー変数 ここまではダミー変数は 1 つだけであったが 分析によっては 2 つ以上のダミー変数が必要となる場合がある 例えば 賃金関数において ブルーカラー ( 肉体労働系の仕事 ) とホワイトカラー ( 事務系の仕事 ) の違いも考慮したいとする この場合は以下の回帰モデルを推定する 12
2 つ以上のダミー変数 ( 以下では説明の簡単化のため 説明変数は定数だけとする ) : Y i = α + α M D M,i + α W D W,i + u i, i =1,, n. ここで D W,i はもし i 番目の労働者がホワイトカラーなら 1 をとり ブルーカラーなら 0 を取るダミー変数とする この回帰モデルは 労働者のカテゴリー ( ダミー変数の値 ) によって 以下の 4 つの回帰モデルになる : 13
2 つ以上のダミー変数 ( ホワイトカラーで男性の場合 ; D W,i = 1, D M,i = 1) Y i = α + α M + α W + u i, ( ブルーカラーで男性の場合 ; D W,i = 0, D M,i = 1) Y i = α + α M + u i, ( ホワイトカラーで女性の場合 ; D W,i = 1, D M,i = 0) Y i = α + α W + u i, ( ブルーカラーで女性の場合 ; D M,i = 0, D W,i = 0) Y i = α + u i. 14
2 つ以上のダミー変数 これら 4 つの回帰モデルを比べると α M は男女間の違いを反映しており α W はブルーカラーとホワイトカラーの違いを反映している事がわかる これら 2 つの値の解釈の仕方は先ほどのダミー変数が 1 つの時の解釈の仕方と同じである ( すなわち α M が正であれば 男性であると女性より α M だけ賃金が高い事を表すことになる ) 15
相互作用効果 上記の回帰モデルにおいて α W は ホワイトカラーである事の効果 を反映していたが 暗黙のうちに この ホワイトカラーである事の効果 は男性の場合も女性の場合も同じであると仮定していた しかしながら ( 何らかの理由により ) この効果も男性と女性で異なるかもしれない 16
相互作用効果 このような違いを分析するには 以下の回帰モデルを考えればよい : Y i = α + α M D M,i + (α W + α WM D M,i ) D W,i + u i, = α + α M D M,i + α W D W,i + α MW D M,i D W,i + u i. この回帰モデルに ( 暗黙のうちに ) 含まれる 4 つの回帰モデルは : 17
相互作用効果 ( ホワイトカラーで男性 ; D W,i = 1, D M,i = 1) Y i = α + α M + α W + α WM + u i, ( ブルーカラーで男性 ; D W,i = 0, D M,i = 1) Y i = α + α M + u i, ( ホワイトカラーで女性 ; D W,i = 1, D M,i = 0) Y i = α + α W + u i, ( ブルカラーで女性 ; D W,i = 0, D M,i = 0) Y i = α + u i. 18
相互作用効果 最初の回帰モデル ( ホワイトカラーで男性 ) に追加的な項である α WM が出てきたのが確認できる この数値は 男性におけるホワイトカラーである事の追加的な効果 を表している この追加的な効果である α WM を相互作用効果と呼ぶ 19
相互作用効果 これらの 4 つの未知パラメーター α, α M, α W, α WM は最小二乗法で推定する事ができ 通常通り t 検定や F 検定を行う事ができる 帰無仮説としては例えば, H 0 : α M = 0 ( 男性効果 は存在しない ), や H 0 : α W = 0 ( ホワイトカラー効果は存在しない ), や H 0 : α WM = 0 ( 男性への追加的なホワイトカラー効果 は存在しない ) などである 20
3 つ以上のカテゴリーに分けられるダミー変数 ここまでは ダミー変数として カテゴリーの数が 2 つしかないもの ( 男性か女性 ホワイトカラーかブルーカラー ) を見てきた しかしながら 実際の分析において カテゴリーの数が 3 つ以上ある場合がある 例として あるテストにおける 勉強時間の試験の点数への効果 を考えてみよう 21
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 次の級 人数 ダミー変数 以下はある科目におけるある中間試験のために勉強した時間に関するアンケートの結果である 14 12 10 勉強時間のヒストグラム 8 6 4 2 0 勉強時間 22
3 つ以上のカテゴリーに分けられるダミー変数 試験における勉強時間の効果を見るために これらを以下の 3 つのカテゴリーに分けるとする グループ 1: 勉強時間が 9 時間未満 グループ 2: 勉強時間が 9 時間以上 18 時間未満 グループ 3: 勉強時間が 18 時間以上 ( この分け方はあくまで一つの例で深い意味はない ) 23
3 つ以上のカテゴリーに分けられるダミー変数 これらのグループ分けに対して以下の回帰モデルを考えよう : ここで Y i = α + α 2 S 2,i + α 3 S 3,i + u i, i = 1,, n, Y i : i 番目の学生の試験の点数 S 2,i : i 番目の学生がグループ 2 なら 1 そうでないなら 0 を取るダミー変数 S 3,i : i 番目の学生がグループ 3 なら 1 そうでないなら 0 を取るダミー変数 とする この回帰モデルは以下の 3 つの回帰モデルを暗黙に含んでいる 24
3 つ以上のカテゴリーに分けられるダミー変数 ( グループ 3: 勉強時間が 18 時間以上の学生 ) Y i = α + α 3 + u i, ( グループ 2: 勉強時間が 9 時間以上 18 時間未満の学生 ) Y i = α + α 2 + u i, ( グループ 1: 勉強時間が 9 時間未満の学生 ) Y i = α + u i. この場合は相互作用効果は考えられない事に注意 ( 勉強時間が 9 時間未満 かつ 18 時間以上というような学生は存在しない ) 25
例題 2: 勉強時間効果 に加え 講義出席率効果 も考えよう P i を i 番目の学生の講義出席率が 50% 以上なら 1 そうでないなら 0 をとるダミー変数とする 勉強時間効果 と 講義出席率効果 があるかどうかを同時に確かめるためにはどのような回帰モデルを考えればよいか? またその回帰モデルにおいて 講義出席率効果 があるかどうかを見るにはどのような帰無仮説を検定すればよいか? 相互作用効果も合わせて考えなさい 26