回帰分析 単回帰 麻生良文
単回帰モデル simple regression model = α + β + u 従属変数 (dependent variable) 被説明変数 (eplained variable) 独立変数 (independent variable) 説明変数 (eplanator variable) u 誤差項 (error term) 撹乱項 (disturbance term) 他の要因, 観察されない変数の影響, の測定誤差
= α + β + u 左のようなモデルを仮定し, 現実に観察されたデータから, パラメータ a,b を推計する 直線を当てはめる 推計された a,b 当てはめられた直線の切片と傾き 傾き が 1 単位増加したとき は何単位増加するか
重回帰モデル multiple regression model 説明変数が 2 個以上 a b 1 1 b 2 2 b k k u b i i 他の説明変数を一定に保っておいて, i だけを 1 単位増加させたときに が何単位増えるか 他の要因をコントロールした i 固有の影響
単回帰モデルにおける仮定 i a b i u i 1. 線型モデル ( パラメータに関し ) 2. 誤差項の期待値は0 3. 誤差項は互いに独立 4. 誤差項の分散は一定 ( 分散均一性 ) 5. 誤差項は正規分布に従う BLUEの成立のためにはこの条件は不要
最小二乗法 残差平方和を最小にするようにパラメータを決定 a,b: 未知パラメータ a,b の推定値 e: 残差 S( a, b) n i1 e 2 i n i a bi i1 2 1 階の条件 S a S 0, b 0 2 本の方程式から a,b を決定する
最小二乗推定量 b a S S b 1 S n i1 ( i ) i 誤差項の分散の推定量 s 2 1 RSS n 2 SER (standard error of the regression) 1 n 2 n i1 2 e i n-2 の 2 は説明変数の個数 ( 定数項と ) 最小二乗推定量は BLUE (Best Linear Unbiased Estimator) という望ましい性質を持っている
Eviews での回帰分析 メニューから Quick/Estimate Equation 下の画面が表れる 被説明変数, 説明変数をスペースで区切って並べる c は定数項 (constant term) 最小二乗法の指定 ( 他にも推定方法の option あり ) 分析に用いるサンプルを指定することもできる
R での回帰分析 データの import, load ここでは wage1.csv を用いる データ フレーム wage1 に import されているとして ---------------- >attach(wage1) > wage1.lm <- lm(wage ~ educ) > summar(wage1.lm) ------------------ attach(wage1) で wage1 データセット内の変数に直接アクセスできるようにする lm( ~ 1 + 2 + 3 ) 回帰分析 wage1.lm に回帰分析の結果を代入し,summar( ) で結果の要約を表示
仮説の検定 H 0 : b=b 0 b b 2 S ~ N 0,1 b b b b 0 0 ~ tn s. e.( b) 2 s S 2 n 2 : 2 は説明変数の個数 ( 定数項と )
当てはまりの良さ TSS=ESS+RSS 決定係数 0から1の間の値 1に近いほど当てはまりが良いことを表す R 2 ESS 1 TSS RSS TSS
Eviews の出力 回帰係数
WAGE wage と educ の散布図 30 25 20 15 10 5 0 0 4 8 12 16 20 EDUC
RESID 残差のプロット 20 16 Eviews では resid という変数に直前の回帰分析の残差が保存される 12 8 4 0-4 -8 0 4 8 12 16 20 EDUC 残差を検討することで回帰分析の前提 ( 分散均一性 ) が満たされているかどうかチェックする グラフをみる限り, 分散の均一性の前提が満たされていないようである 教育年数の増加とも分散が大きくなっている 残差を後の分析でも使いたい場合は新しい変数に resid を代入して保存する
RESID 残差と被説明変数 wage の推定値 (wagehat) の関係 20 16 12 8 4 0-4 -8-2 0 2 4 6 8 10 WAGEHAT 重回帰の場合には, 被説明変数の推定値と残差の関係を調べる ( 単回帰の場合は前のページと同じ結果 ) wagehatの求め方 menugenr 新しい変数を次のように作成 wagehat= @coefs(1)+@coefs(2)* educ または weaghat = wage - resid
R での回帰分析 > summar(wage1.lm) Call: lm(formula = wage ~ educ) Residuals: Min 1Q Median 3Q Ma -5.3396-2.1501-0.9674 1.1921 16.6085 係数の推定値, 標準誤差,t 値, p 値が出力される Coefficients: Estimate Std. Error t value Pr(> t ) (Intercept) -0.90485 0.68497-1.321 0.187 educ 0.54136 0.05325 10.167 <2e-16 *** --- Signif. codes: 0 *** 0.001 ** 0.01 * 0.05. 0.1 1 Residual standard error: 3.378 on 524 degrees of freedom Multiple R-squared: 0.1648, Adjusted R-squared: 0.1632 F-statistic: 103.4 on 1 and 524 DF, p-value: < 2.2e-16
R での回帰分析 回帰分析の結果は summar(object) で取り出せたが, 他の情報も取り出せる summar(object) 回帰分析の結果のようやく coef(object) 係数の推定値 resid(object) 残差 fitted(object) 回帰モデルの推定値 deviance(object) 残差平方和 plot(object) 残差のチェックのためのグラフ confint(object) 係数の信頼区間 ----------------- コマンドラインで,coefficients(wage1.lm) または coef(wage1.lm) とタイプすると推計された係数が出力される coef(wage1.lm)[1] coef(wage1.lm)[2] で係数ベクトルの 1 番めの要素と 2 番めの要素が出力される
残差診断 plot(wage1.lm) で出力される図の 1 部
非線形効果のとらえ方 = a + b () () = a + b () = a + b () = a + b 1 * + b 2 * 2 = a + b / = a + b 1 / + b 2 *
対数 a a ) ep( h h h ) (1 ) (1 b b a b b a b b a 対数の性質から次の式が成り立つ対数での変化 = もとの変数での比率での変化 は自然対数レジュメでは, と書いたり, log と書いたりしますが, 全て自然対数だと思ってください
LNWAGE (wage) と educ の散布図 4 3 2 1 0 こちらのほうが当てはまりが良いようにみえる -1 0 4 8 12 16 20 EDUC
(wage)=a+b*educ での回帰 Genr というボタンをクリックすると新しい変数を作成する画面が表れる そこで新変数名 = 計算式で新しい変数を作成 ここでは次のようにする wage =log(wage) or wage =@log(wage) 回帰分析の結果
RESID 残差 1.6 1.2 0.8 0.4 分散不均一性は解消されたようにみえる 0.0-0.4-0.8-1.2-1.6-2.0-2.4 0 4 8 12 16 20 EDUC
回帰分析の解釈 係数の意味 教育年数 (educ) が 1 年増加すると賃金 (wage) はどのくらい増加するか 教育年数 (educ) の係数が 0 であるという仮説は棄却できるか 対数 ( 賃金 ) が被説明変数の場合の係数 educ が 1 単位増加したとき, 賃金の対数値が何単位増加するか 賃金が何 % 増加するか 賃金に影響を与える変数にはどのような他の要因があるだろうか 他の変数と賃金の単相関をみる educ を連続変数とすることの意味 学歴別 当てはまりの良さ 因果関係 ( 代替的なモデルが考えられる ) 教育年数 賃金人的資本の蓄積 教育年数 その人の能力の証 高学歴者は学業に耐えられるだけの能力をもともと備えていた スクリーニングの機能だけ ( 人的資本の蓄積ではない )
みせかけの関係 Wooldridge の chapter2 eample 2.12 meap93.raw 生徒の成績と高校の lunch program の関係 chprg :perc. of studs. in sch. lunch prog math10 :perc studs passing MEAP math( 数学の学力テスト ) ミシガン州の高校 : 408 校, 1992-1993 年 他の条件が一定なら, 昼食への補助が生徒の成績にプラスの影響? 推計結果 math10 = 32.14-0.319chprg n=408, R 2 =0.171 誤差項 ( 他の条件 ) と chprg の相関あり chprg と相関があり,math10 とも高い相関 貧困家庭の比率?
練習問題 1 CEOSAL2.RAW salar: CEO の年棒 (1000$) ceoten: その会社での CEO 在職期間 ( 年 ) 1. salar, ceoten の平均値を求めよ 2. salar, ceoten, log(salar) のヒストグラムを描け 3. 在職期間が 1 年未満の人が何人いるか, 最長の在職期間は何年か 4. salar と ceoten の散布図,log(salar) と ceoten の散布図を描け 5. 次の回帰を行い, 結果を報告せよ log(salar) = a + b* ceoten + u
練習問題 2 WAGE2.RAW wage: 月給 IQ: IQ のスコア 1. wage と IQ の平均値, 分散, 最大, 最小を求めよ 2. wage と IQ のヒストグラムを描け 3. wage と IQ,log(wage) と IQ の散布図を描け 4. wage = a + b * IQ + u の回帰を行い, 結果を解釈せ よ 5. log(wage) = a + b * IQ +u の回帰を行い, 結果を解釈せよ