回帰分析 重回帰 麻生良文. 前提 個の説明変数からなるモデルを考える 重回帰モデル : multple regresso model α β β β u : 被説明変数 epled vrle, 従属変数 depedet vrle, regressd :,,.., 説明変数 epltor vrle, 独立変数 depedet vrle, regressor u: 誤差項 error term, 撹乱項 dsturce term モデルの特徴 線型モデル 以外の効果は誤差項に集約されていると考える 他の変数, モデルで想定していない変数の効果 観察不可能な変数の影響 の測定誤差 回帰分析の前提 まず, 次の仮定をおく 単回帰の場合と同じ 仮定 線型性真のモデルが次の式で表される α,βに関して線形関数 α β β β u A α,β および誤差項の分散 が推定すべき未知パラメータ,,,...,, は 番目の観測値 u は誤差の実現値
仮定 誤差項の期待値は すべての について E u A 仮定 3 誤差項の分散はすべての について等しい 分散均一性 homosedstct vr u σ A3 仮定 4 誤差項に系列相関は存在しない 誤差項 u と u の共分散は であるようなすべての と について cov u, A4 u 仮定 5 説明変数と誤差項の独立性 説明変数 個の説明変数からなるベクトル と誤差項 u はすべての と に関して独立である 古典的回帰モデルでは, は非確率変数であると仮定される その場合には自動的にこの仮定は満たされる なお, 現在の教科書のほとんどは, を非確率変数とせず, が与えられた場合の誤差項の条件付分布について 仮定 以下が成り立つという前提で議論を進めている 仮定 6 正規分布の仮定誤差項の確率分布は正規分布に従う 仮定, 仮定 3, 仮定 4 とこの仮定をあわせると, 誤差項は互いに独立で, 同一の正規分布 N,σ に従う u ~ N, σ.. d. A5..d. は depedetl detcll dstruted の略 仮定 7 説明変数,,..., の間に多重共線性の問題は無い 詳細は後述. 最小二乗法 重回帰の場合にも, 単回帰の場合と同様に, 残差平方和を最小にするように α,β,β,...,β
3 の推定値を決定する α,β,β,...,β の推定値を,,,..., で表すと, 残差は次の式で与えられる e ˆ したがって, 残差平方和は次の式で与えられる S 3 3 式は,,,,..., の 次関数である 3 式の最小化のための必要条件を求めると次の通りになる K なお, 上の 番目の式は と書き換えることができる ここで,,, は, 被説明変数, 説明変数の標本平均を表す この式は, 回帰直線は必ず点,, を通ることを意味している この性質は単回帰の場合にも成り立っていた また, 番目以降の式は, e が,,.., について成り立つことを意味する これは, 残差が説明変数と必ず直交する 無相関である ことを意味する
4 両辺を で割って整理すると次の式を得る 正規方程式 orml equto と呼ぶ K 4 これらは, 個の未知パラメータ,,,..., に関する 本の連立 次方程式である この方程式を,,,..., について解くことで, 最小二乗法の推計値が求まる なお, の場合については,4 の最初の方程式を残りの 本の方程式に代入することで, 本の連立方程式に帰着させることができ, その場合には, なんとか解析的に解を求めることができるが, が 3 以上になると, 行列を用いないと困難になる 4 式を行列で表現してみよう まず, 個のオブザベーション,,.., からなるベクトルを で表そう また, 定数項の を第 列として, 番目の説明変数 の 個のオブザベーションを第 列目の要素として持つ行列 を考える と は次の式で与えられる
5 このとき,4 式の左辺は次のように表すことができる HS ここで, は の転置行列 trsposed mtr を表す また, 右辺は次のように書き直すことができる HS ここで, 最後の は係数の推定値からなら 次元の列ベクトルで,,,..., である
結局, 行列を用いると 4 式は次のように表現できる 4 4 の の逆行列が存在すれば の階数 r が なら, 逆行列は存在する, 5 が得られる 5 式は, 最小二乗推定量 が の線型関数であることを示している 以上の結果を, 最初から行列を用いて示しておこう まず, 第 番目のオブザベーションが A 式のように書けたとする α β β β u A 番目のオブザベーションの説明変数のベクトルを で表し 定数項 を含んだ 次元の行ベクトル,A 式の係数ベクトルをβで表すことにしよう βは 次元の列ベクトルであるとする すなわち, [ K ] α β β β β とする このとき,A 式は β u 6 とコンパクトに表すことができる さらに,,u の 個のオベザベーションを縦に並べてできる 次元の列ベクトルを,u で表す 同様に, の 個のオブザベーションを縦に並べてできる 行列を で表す 6 式を,,.., について縦に並べて表示すると 6
7 u u u β β α 7 となるので, 結局, 個の 6 式は u β 8 と表せることがわかる なお, 行列 の階数は であるとする 列数に等しい これが回帰分析の前提で述べた仮定 7 の正確な表現である 行列 の階数が のとき, の逆行列は存在する また, 誤差項に関する仮定 から仮定 6 は, ~ I N u σ 9 と表すことができる は全ての要素が であるような 次元の列ベクトル,I は 次元の単位行列を表す さて, 真のモデルが 8 式で表されるとき,β の推定量を とした時の残差 e は次の式で与えられる e は第 番目の要素が第 番目のオブザベーションの残差 e であるような 次元の列ベクトルである e この時, 残差平方和 S は次のような計算で求められる [ ] [ ] e e e S ここで, e, は,, e, の転置行列である S の最小化の 階の条件を行列を用いて表現すると,
8 S S S S となり, に関する方程式が得られる これを について解くと, が得られる なお, 式から残差は I e となるが, この式から e という関係が導かれる これは, 残差と説明変数 定数項も含む が直交していることを意味する 行列の微分 と が次のような列ベクトルであるとする, として, の に関する微分を考える
9 が成り立つ 次に 次形式の微分を求めよう A は の対称行列で,, 成分が で与えられているものとする A は対称行列なので が成立する このとき A の に関する微分を考える まず, [ ] A O である このとき, A A が成立する 3. 最小二乗推定量の確率分布. で述べたモデルの前提をもう一度述べる まず, 真のモデルが A 式で表されるようなものであるとする A 式を行列で表現すると次のように書けた u β 3 また, 誤差項に関する仮定 から仮定 6 が成り立つとき, 誤差項は期待値が, 分散が σ I であるような多変量正規分布に従う すなわち,
E u vr u σ I 4 が成立する 7 式の は 個の からなるベクトル,I は 次元の単位行列である 式に 3 式を代入し,4 式を用いると, 最小二乗推定量 の確率的性質が導かれる まず,3 式を 式に代入すると u β u β 5 が得られる したがって, 誤差項 u が正規分布に従えば, も正規分布に従うことがわかる なお, の期待値は,5 式より, E u β E β 6 となる つまり, は不偏性を持つ 次に, の分散 分散共分散行列 を求めよう 5 式と 6 式から u E β であるから, E E uu となる したがって, vr E [ E E ] E uu σ I σ 7 が得られる 特に, 番目の説明変数の係数 の期待値と分散は
E β vr σ σ S 8 で与えられる ここで, は - の, 要素,S は 番目の説明変数 固有 の平方和である ここで 固有 とは, 番目の説明変数を定数項 他の - 個の説明変数で回帰し, それらの説明変数で説明できる部分を除いた 独自の要因に起因する平方和という意味である 6,7,8 式は, 単回帰の場合に成立していた性質が重回帰の場合にも成立することを表している 8 式の導出は煩雑なので省略 以上の結果をまとめると, 最小二乗推定量は, 期待値がβ, 分散 分散 共分散行列 がσ - の多変量正規分布に従う あるいは, ~ N β, σ 9 が成立する σ は誤差項の分散で未知のパラメータである σ は標準偏差 残差の確率分布 次に最小二乗残差の性質を述べる まず, 残差は e [ I ] で与えられる これから, 残差 e は の線型関数になっていることがわかる 今, I とおくと は 行列の対称行列で e と表すことができる 一方, の推定値を ŷ で表すと 行列 において 番目の説明変数のベクトル は第 列にある 第 列は定数項の からなるベクトルである
ˆ 3 である P 4 とおけば P もまた対称行列である, ˆ P 5 が成立する と P の間には I P という関係が成り立ち, さらに, 次のような性質が成立する P O 6 P P I P P P P P P O P 7 8 7 の性質 行列の平方がもとの行列に等しい が成り立つ行列をべき等行列 dempotet mtr という 計量経済学の応用では, 対称なべき等行列の固有値は または であるという性質が重要である さらに,P は の張る空間への射影行列という意味合いがある はその空間に直交する空間への射影 詳しくは,Greee 等の大学院レベルの教科書を参照のこと さて, 式に 3 式を代入し,6 式を用いると e β u u 9 が得られる これから, E e 3 また,
e u u 3 という性質が成り立つこともわかる 残差平方和は e e u u u u で与えられる 残差平方和の期待値を求めると E e e E u u E tr u u E tr uu tr E uu tr σ I σ tr σ となる tr はトレース 行例の対角成分の和 を表す のトレースが になることについては Greee 等の教科書を参照せよ なお, はサンプル数, は定数項を含んだ説明変数の個数である 以上から, 誤差項の分散の不変推定量は次の式で与えられることがわかる 単回帰と同様の結果 SS s 3 単回帰の場合と同様に,s の平方根を, 回帰の標準誤差 stdrd error of regresso と呼ぶ また, 残差平方和を真の分散で割った変数は, 自由度 - のカイ二乗分布に従うこと を示すことができる 個が独立に動けるわけではない SS e e u u u u ~ Χ σ σ σ σ 3 決定係数 単回帰と同様に次の式が成立する TSS ESS SS 33 3
TSS は全平方和 平均値の回り,ESS は回帰式で説明できる平方和,SS は残差平方和である この関係は, ˆ e P で と P が直交することから導くことができる 決定係数は次の式で定義される ESS TSS SS TSS 34 なお, は説明変数の個数が増加すれば, 単調に増加する そこで, 説明変数の個数の増加をペナルティーとするように修正した決定係数を考えることができる 自由度修正済み決定係数 dusted は次の式で定義される SS 35 TSS 重回帰分析では, 通常は, この自由度修正済み決定係数を用いて, 当てはまりの良さを評価する 仮説検定 以下では, 個々の係数に関する仮説検定と, 複数の係数制約についての仮説検定を説明する 前者は t 検定を用い, 後者は F 検定を用いる なお, 個々の係数についての検定では, 片側検定と両側検定がある 個々の係数に関する仮説検定 両側検定 次の仮説 帰無仮説 を考える H : β β 対立仮説は次の通りである H : β β H が真の時, 最小二乗推定量 は次のような正規分布をした, σ ~ N β 36 ここで,σ は誤差項の分散で, 未知のパラメータである 特に, の要素 の分布は次の通りであった 4
, ~ N β σ 37 ここで, は - の, 要素であり 定数項があるため, の分散に対応する成分は, 要素になる, S である S は説明変数 を他の説明変数および定数項に回帰した残差の平方和 : から他の変数の影響を除去した 固有の平方和 なお, これから, 次の式が導かれる σ β ~ N, 38 誤差項の分散に関する最小二乗推定量は次の式で与えられた e e SS s 39 さらに, 残差平方和を誤差項の真の分散で割った値は, 自由度 - のカイ二乗分布にしたがう e e SS s ~ σ σ σ 4 そして, 最小二乗推定量 の標準誤差は次の式で与えられる s s. e. s 4 S z が標準正規分布に従う確率変数で, が自由度 m のカイ二乗分布に従う確率変数で, 互い に独立であるとき, z m は自由度 m の t 分布に従う ここで, β z σ m SS σ SS σ s σ s σ 5
としよう m としている この z と m は互いに独立であることを示すことができ る 残差と が直交することを用いる z と / m の比を計算すると β s σ σ β s β s. e. となり, β を の標準誤差で割った変数に等しくなる z との t 分布に従うので, 結局 / m の比は, 自由度 m β s. e. ~ t 4 が成り立つ 4 式が, 個々の係数に関する仮説検定の基礎になる 帰無仮説が H : β β であり, 対立仮説が H : β β であるとき, 推定された がβ とあまり離れていなければ, 仮説 H を受け入れ, そうでなければ仮説 H を棄却する 今, 推定 された係数が ~ という特定の値をとったとしよう 仮説 H を棄却するのは,H を真とした ときに, Pr ~ β > β < α 43 を満たす場合とする 通常は, 通常はα.5 として検定を行う もっと厳しい場合には, α. とする つまり, 推計された推定値と仮説 H で想定した係数の距離が,4 の確率分布から考えて, 十分にありそうも無いとき仮説 H を棄却するのである * 43 式に基づく検定は両側検定と呼ばれる なお, Pr β > β α ような * を臨界値とか境界値と呼ぶ を満たす 帰無仮説が H : β β であり, 対立仮説が 6
H : β >β のような仮説検定も考えられる この場合には, ~ β > β < α Pr 44 であれば,H を棄却する このような検定は片側検定と呼ばれる 両側検定 臨界値の両側に落ちる確率を α として検定 -3 - - 3 7
片側検定 臨界値の片側に落ちる確率を α として検定 -3 - - 3 複数の制約帰無仮説 H : βq を考える 対立仮説は H : β q を考える 例えば, [...], q[... ] とすれば, H :β という仮説を考えていることになる 本の制約と同じである q の場合, 8
9 H :β,β という 本の制約にに帰着する さて,H が真であるとき, u q u β が成立するので, は次の正規分布に従うことがわかる, ~ q N σ 45 このとき [ ] ~ r q q W σ 46 が成り立つ ここで,r は制約の数 のランク を表す また, ~ SS e e V σ σ 47 が成り立つ さらに,W と V は互いに独立であることを示すことができる 残差と の直交性より したがって, [ ] [ ], ~ / / r F s r q q SS r q q V r W σ σ 48 が成立する 仮説 H が正しければ, この変数の分子は小さくなり,48 式の値は小さくなる 仮説 H が正しくなければ,48 式の値は大きくなるのである 48 式は自由度 r, の F 分布に従うが,F 分布は次の図のような形状をしている
図のように,48 式から計算される統計量が棄却域に入れば,H を棄却すればよい そうでなければ H を受け入れる F Dstruto: Numertor df 5, Deomtor df 臨界値よりも大きな値をとる場合に仮説 H を棄却 3 4 5 f なお,48 式の W/r と V/- の比を計算して求めるのではなく, 次の方法でテストは 48 式と同等であることが知られている まず, 係数に何の制約も課さない回帰分析を行い, そのときの残差平方和を USS Urestrcted esdul Sum of Squres: 制約無しの残差平方和 とする 次に,H の制約を課した上で回帰分析を行い, そのときの残差平方和を SS estrcted esdul Sum of Squres 制約付きの残差平方和 とする そして,SS-US を計算し つまり制約を課すことでどのくらい当てはまりが悪くなるかを計算し, それを制約の数で割った値を分子にする また, 分母は, 制約無しの残差平方和を自由度で割った値とする 制約無しの回帰の標準誤差の平方に等しい このとき, SS US / r US / ~ F r, 49
が成立する ここでも, 棄却域をαとおいて,H が真のとき,49 式の左辺がありそうも無い値をとる場合には H を棄却する 特に, H : β, β,..., β という仮説 全ての説明変数に説明力が無い ; ただし, 定数項を除く の検定は, 制約無しの回帰の全平方和と TSS, 回帰変数で説明される部分の平方和を ESS, 残差平方和を SS で表すと, 制約付きの残差平方和 SS は TSS に等しいので,SSUSTSSSSESS が成り立つ したがって, SS ESS ~ F, であることを用いればよい 通常の統計パッケージでは, 回帰分析の標準的な出力にこの F 値が報告される