回帰分析 単回帰 麻生良文. 回帰分析の前提 次のようなモデルを考える 単回帰モデル : mple regreo moel : 被説明変数 eple vrble 従属変数 epeet vrble regre : 説明変数 epltor vrble 独立変数 epeet vrble regreor : 誤差項 error term 撹乱項 trbe term emple Kee 型消費関数 C YD C: 民間消費 YD: 可処分所得 : 限界消費性向 賃金の決定 --> wge.rw wge e wge: 賃金 e: 教育年数 モデルの特徴 線型モデル パラメータに関して線型 を説明変数に含める l などの変数変換を行うことで の非線形効果を捉えることは可能 以外の効果は誤差項に集約されている 他の変数 モデルで想定していない変数の効果 観察不可能な変数の影響 の測定誤差
複数の要因を同時に考えるモデル --> 重回帰 mltple regreo L k k の組み合わせが 式のような確率モデルにしたがって実現すると考える 誤差項 の密度関数
回帰分析の前提 まず 次の仮定をおく 仮定 線型性真のモデルが次の方程式で表される は推定すべき未知パラメータ は 番目の観測値 は誤差の実現値 A 仮定 誤差項の期待値は すべての について E A 仮定 3 誤差項の分散はすべての について等しい 分散均一性 homokett vr A3 仮定 4 誤差項に系列相関は存在しない誤差項 と j の共分散は j であるようなすべての と j について ov A4 j 仮定 5 説明変数と誤差項の独立性 説明変数 と誤差項 はすべての と j に関して独立である 古典的回帰モデルでは は非確率変数であると仮定される その場合には自動的にこの仮定は満たされる なお 現在の教科書のほとんどは を非確率変数とせず が与えられた場合の誤差項の条件付分布について 仮定 以下が成り立つという前提で議論を進めている 仮定 6 正規分布の仮定誤差項の確率分布は正規分布に従う 仮定 仮定 3 仮定 4 とこの仮定をあわせると 誤差項は互いに独立で 同一の正規分布 N に従う ~ N...... は epeetl etll trbte の略 3
回帰分析は A のようなモデルを仮定して 観測されたデータから パラメータを求める統計的手法である 観測されたデータは のとりうる値の一部でしかない また 誤差項を含んだ確率モデルを想定しているので 観測されたデータから何らかの方法で推定された b が真の値である保証はない 一般には の推定値は誤差項の確率分布の性質に依存して ある確率分布に従うと考えられる POINT どのような方法でパラメータを推定することが望ましいのか 推定されたパラメータがどのような確率分布に従うか 以下では 最小二乗法による推計を説明する 最小二乗法に基づくパラメータの推計量は BLUEBet Ler Ube Etmtor という望ましい性質を備えている BLUE の性質は上の仮定 から仮定 5 までが満たされる場合に成立する 仮定 6 の正規分布の仮定は この性質を持つためには不要な 強すぎる 仮定である ただし 推定されたパラメータについての仮説検定のためには 誤差項の確率分布を特定化しなければならず そのためには通常 誤差項の正規分布を仮定する この仮定から 最小二乗法で得られたパラメータの推計量の確率分布が求められる. 最小二乗法 metho of let qre パラメータの推定値を b で表す 第 番目の観測値が であるとき ˆ b を の推定値 ftte vle prete vle などと呼ぶ そして 実際の観測値と推定値の差を残差 rel と呼ぶ 残差を e で表せば b e ˆ 3 である 最小二乗法は残差の平方和を最小にするように b を決定するという手法である 最小二乗法は BLUE という好ましい性質を持っているが それについては後述する 残差平方和は b の関数とみなすことができるので それを b で表すと b b e 4 で与えられる b は b に関する 次関数である b を最小化する b を見つけるためには b に関して微分して最小化の必要条件を求めればよい 微分して になることが 4
必要条件であるが 4 式では や b の項の係数はプラスなので これは最小化の十分条件にもなっている まず に関して微分すると b を得る これから次の式が得られる b さらに この式の両辺を で割れば b 5 が得られる ここで は の平均値 観測されたデータの平均値 である また b に関して微分すると b b を得る この式を変形すると次の式が求められる b 6 5 式と 6 式は b に関する連立一次方程式である この方程式を正規方程式 orml eqto と呼ぶ 正規方程式の解が 最小二乗法による の推計値になる 最小二乗法での推計値を求めるために 5 式を について解き これを 6 式に代入してみよう b b b この式から次の式が得られる 5
b 7 ただし 8 である は の平均値の回りの平方和 は と のそれぞれの平均値の回りでのクロス モーメントを表す 7 式と 5 式から 未知パラメータ の最小二乗法による推定値は次の通りになることがわかる b 9 b また 残差は e b で与えられるが 観測された の値と の予測値の差 正規方程式の性質から e e が成立することがわかる 残差平方和の一階の条件をみよ なお 式は 回帰直線はかならずサンプルの平均値 を通ることを意味している また 式は残差の平均が であり 残差と説明変数 が無相関になることを意味する 当てはまりの良さ 9 式と 式で の最小二乗法による推定値が求まった b e と 式 b の関係から b e という関係が得られる この式の両辺を平方し について合計すると 次の式が得られる 6
b e 式の導出において と e の交差項が消えるのは 式が成り立つからである 式の左辺は の平均値の回りの平方和 全体の平方和 右辺の第 項は説明変数 で説明される部分の平方和 右辺第 項は 残差の平方和を表す 全体の平方和を TTotl m of qre 説明変数で説明される部分の平方和を EEple m of qre 残差平方和を RRel m of qre で表すと 式は T E R 3 と書き直すことができる なお 8 式と同様の記号を用いると T は の平均値の回りの平方和なので と表すことができる E を T で割った値は 全平方和のうち説明変数で説明される平方和の比率を表す これを決定係数 oeffet of etermto といい 通常 R で表す R は次の式で定義される E R R 4 T T R は から の間の値をとる R が に近いほど モデルの説明力が高いことになる なお 決定係数は と の相関係数を平方したものに等しい これは次のことから確かめられる まず 9 式を用いると E は次のように変形できる E b したがって 次の式が成り立つ R E / T この式は R が と の相関係数の平方であることを示している 7
最小二乗推定量 let qre etmtor の確率的性質 9 式 式からわかるように の推定値 b は の実現値に依存して決定される つまり 誤差項の実現値 に依存して決定される 事前にはb はどの値が実現するかは確定せず ある確率分布にしたがって実現する b が確率変数であることを強調する場合 b を推定量 etmtor と呼ぶ 最小二乗推定量の確率分布を求めてみよう まず 9 式から b 5 が成立する つまり 最小二乗推定量 b は の線型関数である ここで 回帰モデルの仮定 6 までの前提が満たされるとすると b は正規分布に従うことがわかる 一方 については 式から b 6 となり b と同様に の線型関数であり 正規分布に従うことがわかる 5 式 6 式から b の期待値 分散が求められる 導出はやや面倒であるので 最初に結果だけを述べておこう まず 期待値は次の通りになる E E b 7 7 式は 最小二乗推定量の期待値はパラメータの真の値に一致することを述べている この性質を不偏性 bee という また 分散 共分散は次の通りになる 8
vr b vr b ov 8 8 式から が大きくなるほど b の分散が小さくなることがわかる つまり のバラつきが大きく サンプル数が十分に大きいと パラメータの推定はより正確になる 逆に のバラつきが少なければ b の推定は不正確なものになる 図最小二乗推定量 b の分布 が増加すると vrb が小さくなる 最小二乗推定量の確率分布の導出 導出はやや面倒 まず 真のモデルは 9
9 で与えられ 誤差項 は互いに独立で同一な正規分布 N に従うものとする 7 式と 8 式を導出するために 5 式 6 式の の性質について最初に導いておこう まず が成立する また については が成立する さらに が成立する b の確率分布を求めるために 5 式に 9 式を代入すると b 3
を得る 最後の等式の導出には 式の結果を用いた したがって b E E E となり b の期待値が導かれた 番目の等式が成立するのは期待値オペレータの線型性の性質より まだ 3 番目の等式は誤差項に関する期待値が であるから 3 式を使い 分散を求めると次の通りになる b E E vrb 3 番目の等式が成立するのは と j の交差項が消え の期待値がすべて に等しい 誤差項が互いに独立の同一の分布に従うからである 最後の等式の導出には 式が用いられている このようにして b の期待値と分散が求められた の期待値と分散も同様にして求められる 6 式に 9 式を代入し 式を用いると 4 が成り立つことがわかる したがって E E E E E vr が導かれる さらに b b E E ov が導かれる ここでも と j は互いに独立だという条件 E j を用いている なお
最小二乗推定量の分散は誤差項の分散 に依存するが は未知のパラメータであることに注意 誤差項の分散 の推定値サンプル数 説明変数 個の場合の 単回帰の場合 説明変数 と定数項で合計 個の説明変数があると考える の最小二乗推定量 は R e 4 で与えられる - は自由度 egree of freeom と呼ばれる なお の平方根は標準誤差 tr error と呼ばれる 多くのソフトでは ER 回帰の標準誤差 :tr error of the regreo として出力される 残差平方和を ではなく - で割るのは そうすることで が不偏性を持つからである ここで R e 5 は自由度 - のカイ二乗分布にしたがう この証明には行列の知識が必要なので省略する 自由度が - であるのは 個のサンプルのうち独立に動ける次元が つ 定数項と だけ少なくなるからである 行列を用いた証明は Greee の Eoometr Al などを参照のこと 自由度 m のカイ二乗分布に従う確率変数の期待値は m に等しい これから R/ の期待値は - に等しく したがって 4 式で定義される誤差項の分散の推定量の期待値は真の分散 に等しいことがわかる に関する検定次のような仮説 H を考える H : 多くの仮説検定では を H とすることが多い 例えば 賃金と教育年数の回帰分析で 教育年数が賃金に影響しないという仮説は 教育年数の係数が に等しいという仮説検定の問題として考えることができる もちろん が という特定の値である必要は無い
の最小二乗推定量 b は さきほど求めたように 期待値 分散 / の正規分布に従った したがって H が正しいなら b ~ N 6 が成り立つ ただし は未知のパラメータなので このままでは仮説検定に使えない そこで を先ほど求めた最小二乗推定量 で置き換える統計量を考えてみよう すなわち b b.e. b 7 を考える 7 式の分母の / は 推定量 b の標準偏差 分散の平方根 の推計値で b の標準誤差 tr error と呼ばれる b の真の標準偏差は / であり 未知のパ ラメータ に依存していた 仮説 H が真であれば 7 式は自由度 - の t 分布に従う -------------------------------------------------------------------------------------- t 分布の復習 z を標準正規分布 を自由度 m のカイ二乗分布に従う確率変数とし z と は独立であるとしたとき 次の変数は自由度 m の t 分布に従う z ~ t m m ------------------------------------------------------------------------------------- 7 式が自由度 - の t 分布に従うことを説明する まず 6 式で表される変数は標準正規分布に従うので 上の z に対応している また 5 式の R/ は自由度 - のカイ二乗分布に従うと述べた さらに 6 式と 5 式の分布は独立であることを示すことができる この証明には行列の知識が必要 Greee 等の教科書を参照のこと したがって6 式と R/ /- の平方根の比をとると その比は自由度 - の t 分布に従う その比を求めると 3
b R b R b R b となり 7 式が自由度 - の t 分布に従うことが示される 結局 b- と b の標準誤差の比は自由度 は説明変数の個数 の t 分布に従う b b.e. b ~ t 7 BLUE 最小二乗推定量は線型推定量 ler etmtor の一種である 5 式 6 式で表されるように確率変数 の線型関数である また 最小二乗推定量の期待値は 7 式で表されたように真のパラメータに等しかった つまり 最小二乗推定量は不偏推定量 be etmtor のクラスに属する さらに 最小二乗法は 線型不偏推定量 ler be etmtor のクラスに属する推定量の中で 最小の分散を持つ推定量であることが知られている 証明は省略 この性質を BLUE bet ler be etmtor: 最良線型不偏推定量 という 最小二乗法は このような意味で望ましい推定量である なお BLUE という性質は 誤差項が正規分布に従うという仮定なしに導かれる その他の推定方法 モーメント法 e e b b を満たすようにパラメータ b を決める E ov に対応 今考えているケースでは 最小二乗法と同じになる 4
5 最尤法まず 真のモデルが で与えられ 誤差項 は互いに独立で同一の正規分布 N に従うものとする さて 今.. が観測されたとする この時 が与えられたもとで が実現する確率密度関数 条件付確率密度関数 は次の式で与えられる Π Π Π ep ep ;.. f π π φ 上の式で [ ] / / ep π φ は 期待値 分散 の正規分布の確率密度関数である また... である 上の式を未知パラメータ の関数とみなしたものは尤度関数 lkelhoo fto と呼ばれる 未知パラメータ を b に置き換えて 尤度関数を Lb で表せば Π ep b b L π この尤度関数を最大にするように b を決める方法が最尤法 mmm lkelhoo metho である 要するに 観測された... が実現するのは 確率分布を規定するパラメータがどのような値だともっともらしいかを考えて パラメータを決定するのが最尤法である さて 上の尤度関数の対数をとると b b L l l l π と変形できる これを対数尤度関数 log lkelhoo fto と呼ぶ 尤度の最大化と対数尤度の最大化の条件は同じなので 通常はこの対数尤度を最大にするようにパラメータを決める 今 考えている線型モデルの場合には b の決定は
b の最小化条件を求めればよい これは残差平方和の最小化条件を求めることだから b の最尤法による推計は最小二乗法と全く同じになる については対数尤度関数を で微分して とおくと b e R となる ここで R は残差平方和を表す についての最小二乗推定量は R/- であったが 最尤推定量は R/ である このため の最尤推定量は不偏性を持たない 普遍性は持たないが 一致性 ote という性質は持っている サンプル数の増加が 推定量の分布を真のパラメータの値に収束させる性質 なお サンプル数が大きい場合 - で割ろうが で割ろうが その差はほとんどなくなることにも注意 誤差項に関する確率分布を特定化すれば 最尤法は 線型モデルだけではなく 非線形モデルにも応用できる このため 最尤法は広く用いられている 6