切片 ( 定数項 ) ダミー以下の単回帰モデルを考えようこれは賃金と就業年数の関係を分析している : ( 賃金関数 ) ここで Y i = α + β X i + u i, i =1,, n, u i ~ i.i.d. N(0, σ 2 ) Y i : 賃金の対数値, X i : 就業年数. (

統計学ダミー変数による分析担当 : 長倉大輔 ( ながくらだいすけ ) 1

切片 ( 定数項 ) ダミー以下の単回帰モデルを考えようこれは賃金と就業年数の関係を分析している : ( 賃金関数 ) ここで Y i = α + β X i + u i, i =1,, n, u i ~ i.i.d. N(0, σ 2 ) Y i : 賃金の対数値, X i : 就業年数. ( 実際は賃金を就業年数だけで説明するのは現実的はないこのモデルはあくまでダミー変数をどのように使うかを説明するための非常に簡略化したモデルである ) 2

切片 ( 定数項 ) ダミー観測されたデータから最小二乗法によって未知パラメータの α と β を推定する事は難しくないしかしながら就業年数が賃金に与える影響は何らかの理由により男性と女性で異なる可能性があるもしこの仮説が正しいのであればこれはつまり先ほどの回帰モデルにおいて男性の場合と女性の場合で α と β の値が異なる事を意味している 3

切片 ( 定数項 ) ダミーこのような男女の違いを分析するために以下の回帰モデルを考えよう : Y i = α + α M D M,i + β X i + u i, i =1,, n, ここで D M,i は以下のような変数である D M,i 1 0 ( i 番目の労働者のデータが男性の場合 ), ( i 番目の労働者のデータが女性の場合 ). この D M,i のような変数の事をダミー変数もしくは単純にダミーと呼ぶ 4

切片 ( 定数項 ) ダミー i 番目の労働者が女性だった場合 D M,i = 0 であるので Y i は Y i = α + β X i + u i によって決定される切片の値は α であるまた男性の場合は D M,i = 1 であるから Y i は Y i = α + α M + β X i + u i によって決定される切片の値は α + α M である 5

切片 ( 定数項 ) ダミーこの 2 つの回帰モデルを比較すると α M いうのはそれぞれ男性と女性の回帰モデルの切片の値の差である事がわかるもし α M が正であればこれは ( 就業年数の影響を除くと ) 男性の賃金の方が平均的に高い事を意味している負であれば逆の解釈になる以後この α M を ( 賃金における ) 男性効果と呼ぶ事にしよう 6

切片 ( 定数項 ) ダミー先ほどのモデルにおいて未知係数の α, α M, β は Y i = α + α M D M,i + β X i + u i という回帰モデルの係数を最小二乗法で推定する事により推定する事ができるまたこの場合も t 検定によって帰無仮説 H 0 : α M = 0 を通常通り検定することができるこの仮説は男性効果が存在しないことを意味している 7

係数ダミー就業年数が賃金へ与える影響も男性と女性で違う可能性があるこの場合賃金関数において就業年数の係数である β の値が男性と女性で異なるという事になるもしそうであるとするならばこの β における男性と女性の違いはどのようにとらえることができるだろうか? 8

係数ダミーもし賃金関数において (α に加えて ) β における男女の違いも考慮したい場合は以下の回帰モデルを推定すればよい : Y i = α + α M D M,i + (β + β M D M,i ) X i + u i, = α + α M D M,i + β X i + β M D M,i X i + u i, ここで D M,i は先ほどと同じであるこの回帰モデルにおいては β M の値が就業年数の影響の男女間の違いを表しているこのようにダミー変数を入れることをしばしば係数ダミーを入れるという 9

係数ダミーこの場合もやはりこの回帰モデルの α, α M, β, および β M は最小二乗法で推定する事ができるこの回帰モデルにおける説明変数は 1, D M,i, X i, および D M,i X i の 4 つある事に注意通常通り t 検定で帰無仮説 H 0 : β M = 0 を検定する事もできる ( また H 0 : α M = 0, β M = 0 も F 検定で検定することができる ) 10

ダミー変数例題 1: D F,i を i 番目の労働者が女性なら 1, 男性なら 0 を取るダミー変数としよう以下の回帰モデルを考えよう : Y i = δ + δ F D F,i + γx i + γ F D F,i X i + u i. このモデルにおける δ, δ F, γ, および γ F, を先ほどの回帰モデルの α, α M, β, および β M を用いて表しなさい 11

2 つ以上のダミー変数ここまではダミー変数は 1 つだけであったが分析によっては 2 つ以上のダミー変数が必要となる場合がある例えば賃金関数においてブルーカラー ( 肉体労働系の仕事 ) とホワイトカラー ( 事務系の仕事 ) の違いも考慮したいとするこの場合は以下の回帰モデルを推定する 12

2 つ以上のダミー変数 ( 以下では説明の簡単化のため説明変数は定数だけとする ) : Y i = α + α M D M,i + α W D W,i + u i, i =1,, n. ここで D W,i はもし i 番目の労働者がホワイトカラーなら 1 をとりブルーカラーなら 0 を取るダミー変数とするこの回帰モデルは労働者のカテゴリー ( ダミー変数の値 ) によって以下の 4 つの回帰モデルになる : 13

2 つ以上のダミー変数 ( ホワイトカラーで男性の場合 ; D W,i = 1, D M,i = 1) Y i = α + α M + α W + u i, ( ブルーカラーで男性の場合 ; D W,i = 0, D M,i = 1) Y i = α + α M + u i, ( ホワイトカラーで女性の場合 ; D W,i = 1, D M,i = 0) Y i = α + α W + u i, ( ブルーカラーで女性の場合 ; D M,i = 0, D W,i = 0) Y i = α + u i. 14

2 つ以上のダミー変数これら 4 つの回帰モデルを比べると α M は男女間の違いを反映しており α W はブルーカラーとホワイトカラーの違いを反映している事がわかるこれら 2 つの値の解釈の仕方は先ほどのダミー変数が 1 つの時の解釈の仕方と同じである ( すなわち α M が正であれば男性であると女性より α M だけ賃金が高い事を表すことになる ) 15

相互作用効果上記の回帰モデルにおいて α W はホワイトカラーである事の効果を反映していたが暗黙のうちにこのホワイトカラーである事の効果は男性の場合も女性の場合も同じであると仮定していたしかしながら ( 何らかの理由により ) この効果も男性と女性で異なるかもしれない 16

相互作用効果このような違いを分析するには以下の回帰モデルを考えればよい : Y i = α + α M D M,i + (α W + α WM D M,i ) D W,i + u i, = α + α M D M,i + α W D W,i + α MW D M,i D W,i + u i. この回帰モデルに ( 暗黙のうちに ) 含まれる 4 つの回帰モデルは : 17

相互作用効果 ( ホワイトカラーで男性 ; D W,i = 1, D M,i = 1) Y i = α + α M + α W + α WM + u i, ( ブルーカラーで男性 ; D W,i = 0, D M,i = 1) Y i = α + α M + u i, ( ホワイトカラーで女性 ; D W,i = 1, D M,i = 0) Y i = α + α W + u i, ( ブルカラーで女性 ; D W,i = 0, D M,i = 0) Y i = α + u i. 18

相互作用効果最初の回帰モデル ( ホワイトカラーで男性 ) に追加的な項である α WM が出てきたのが確認できるこの数値は男性におけるホワイトカラーである事の追加的な効果を表しているこの追加的な効果である α WM を相互作用効果と呼ぶ 19

相互作用効果これらの 4 つの未知パラメーター α, α M, α W, α WM は最小二乗法で推定する事ができ通常通り t 検定や F 検定を行う事ができる帰無仮説としては例えば, H 0 : α M = 0 ( 男性効果は存在しない ), や H 0 : α W = 0 ( ホワイトカラー効果は存在しない ), や H 0 : α WM = 0 ( 男性への追加的なホワイトカラー効果は存在しない ) などである 20

3 つ以上のカテゴリーに分けられるダミー変数ここまではダミー変数としてカテゴリーの数が 2 つしかないもの ( 男性か女性ホワイトカラーかブルーカラー ) を見てきたしかしながら実際の分析においてカテゴリーの数が 3 つ以上ある場合がある例としてあるテストにおける勉強時間の試験の点数への効果を考えてみよう 21

1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 次の級人数ダミー変数以下はある科目におけるある中間試験のために勉強した時間に関するアンケートの結果である 14 12 10 勉強時間のヒストグラム 8 6 4 2 0 勉強時間 22

3 つ以上のカテゴリーに分けられるダミー変数試験における勉強時間の効果を見るためにこれらを以下の 3 つのカテゴリーに分けるとするグループ 1: 勉強時間が 9 時間未満グループ 2: 勉強時間が 9 時間以上 18 時間未満グループ 3: 勉強時間が 18 時間以上 ( この分け方はあくまで一つの例で深い意味はない ) 23

3 つ以上のカテゴリーに分けられるダミー変数これらのグループ分けに対して以下の回帰モデルを考えよう : ここで Y i = α + α 2 S 2,i + α 3 S 3,i + u i, i = 1,, n, Y i : i 番目の学生の試験の点数 S 2,i : i 番目の学生がグループ 2 なら 1 そうでないなら 0 を取るダミー変数 S 3,i : i 番目の学生がグループ 3 なら 1 そうでないなら 0 を取るダミー変数とするこの回帰モデルは以下の 3 つの回帰モデルを暗黙に含んでいる 24

3 つ以上のカテゴリーに分けられるダミー変数 ( グループ 3: 勉強時間が 18 時間以上の学生 ) Y i = α + α 3 + u i, ( グループ 2: 勉強時間が 9 時間以上 18 時間未満の学生 ) Y i = α + α 2 + u i, ( グループ 1: 勉強時間が 9 時間未満の学生 ) Y i = α + u i. この場合は相互作用効果は考えられない事に注意 ( 勉強時間が 9 時間未満かつ 18 時間以上というような学生は存在しない ) 25

例題 2: 勉強時間効果に加え講義出席率効果も考えよう P i を i 番目の学生の講義出席率が 50% 以上なら 1 そうでないなら 0 をとるダミー変数とする勉強時間効果と講義出席率効果があるかどうかを同時に確かめるためにはどのような回帰モデルを考えればよいか? またその回帰モデルにおいて講義出席率効果があるかどうかを見るにはどのような帰無仮説を検定すればよいか? 相互作用効果も合わせて考えなさい 26

切片 ( 定数項 ) ダミー 以下の単回帰モデルを考えよう これは賃金と就業年数の関係を分析している : ( 賃金関数 ) ここで Y i = α + β X i + u i, i =1,, n, u i ~ i.i.d. N(0, σ 2 ) Y i : 賃金の対数値, X i : 就業年数. (

切片 ( 定数項 ) ダミー以下の単回帰モデルを考えようこれは賃金と就業年数の関係を分析している : ( 賃金関数 ) ここで Y i = α + β X i + u i, i =1,, n, u i ~ i.i.d. N(0, σ 2 ) Y i : 賃金の対数値, X i : 就業年数. (