Microsoft Word - reg.doc - PDF Free Download

回帰分析単回帰麻生良文. 回帰分析の前提次のようなモデルを考える単回帰モデル : mple regreo moel : 被説明変数 eple vrble 従属変数 epeet vrble regre : 説明変数 epltor vrble 独立変数 epeet vrble regreor : 誤差項 error term 撹乱項 trbe term emple Kee 型消費関数 C YD C: 民間消費 YD: 可処分所得 : 限界消費性向賃金の決定 --> wge.rw wge e wge: 賃金 e: 教育年数モデルの特徴線型モデルパラメータに関して線型を説明変数に含める l などの変数変換を行うことでの非線形効果を捉えることは可能以外の効果は誤差項に集約されている他の変数モデルで想定していない変数の効果観察不可能な変数の影響の測定誤差

複数の要因を同時に考えるモデル --> 重回帰 mltple regreo L k k の組み合わせが式のような確率モデルにしたがって実現すると考える誤差項の密度関数

回帰分析の前提まず次の仮定をおく仮定線型性真のモデルが次の方程式で表されるは推定すべき未知パラメータは番目の観測値は誤差の実現値 A 仮定誤差項の期待値はすべてのについて E A 仮定 3 誤差項の分散はすべてのについて等しい分散均一性 homokett vr A3 仮定 4 誤差項に系列相関は存在しない誤差項と j の共分散は j であるようなすべてのと j について ov A4 j 仮定 5 説明変数と誤差項の独立性説明変数と誤差項はすべてのと j に関して独立である古典的回帰モデルではは非確率変数であると仮定されるその場合には自動的にこの仮定は満たされるなお現在の教科書のほとんどはを非確率変数とせずが与えられた場合の誤差項の条件付分布について仮定以下が成り立つという前提で議論を進めている仮定 6 正規分布の仮定誤差項の確率分布は正規分布に従う仮定仮定 3 仮定 4 とこの仮定をあわせると誤差項は互いに独立で同一の正規分布 N に従う ~ N...... は epeetl etll trbte の略 3

回帰分析は A のようなモデルを仮定して観測されたデータからパラメータを求める統計的手法である観測されたデータはのとりうる値の一部でしかないまた誤差項を含んだ確率モデルを想定しているので観測されたデータから何らかの方法で推定された b が真の値である保証はない一般にはの推定値は誤差項の確率分布の性質に依存してある確率分布に従うと考えられる POINT どのような方法でパラメータを推定することが望ましいのか推定されたパラメータがどのような確率分布に従うか以下では最小二乗法による推計を説明する最小二乗法に基づくパラメータの推計量は BLUEBet Ler Ube Etmtor という望ましい性質を備えている BLUE の性質は上の仮定から仮定 5 までが満たされる場合に成立する仮定 6 の正規分布の仮定はこの性質を持つためには不要な強すぎる仮定であるただし推定されたパラメータについての仮説検定のためには誤差項の確率分布を特定化しなければならずそのためには通常誤差項の正規分布を仮定するこの仮定から最小二乗法で得られたパラメータの推計量の確率分布が求められる. 最小二乗法 metho of let qre パラメータの推定値を b で表す第番目の観測値がであるとき ˆ b をの推定値 ftte vle prete vle などと呼ぶそして実際の観測値と推定値の差を残差 rel と呼ぶ残差を e で表せば b e ˆ 3 である最小二乗法は残差の平方和を最小にするように b を決定するという手法である最小二乗法は BLUE という好ましい性質を持っているがそれについては後述する残差平方和は b の関数とみなすことができるのでそれを b で表すと b b e 4 で与えられる b は b に関する次関数である b を最小化する b を見つけるためには b に関して微分して最小化の必要条件を求めればよい微分してになることが 4

必要条件であるが 4 式ではや b の項の係数はプラスなのでこれは最小化の十分条件にもなっているまずに関して微分すると b を得るこれから次の式が得られる b さらにこの式の両辺をで割れば b 5 が得られるここではの平均値観測されたデータの平均値であるまた b に関して微分すると b b を得るこの式を変形すると次の式が求められる b 6 5 式と 6 式は b に関する連立一次方程式であるこの方程式を正規方程式 orml eqto と呼ぶ正規方程式の解が最小二乗法によるの推計値になる最小二乗法での推計値を求めるために 5 式をについて解きこれを 6 式に代入してみよう b b b この式から次の式が得られる 5

b 7 ただし 8 であるはの平均値の回りの平方和はとのそれぞれの平均値の回りでのクロスモーメントを表す 7 式と 5 式から未知パラメータの最小二乗法による推定値は次の通りになることがわかる b 9 b また残差は e b で与えられるが観測されたの値との予測値の差正規方程式の性質から e e が成立することがわかる残差平方和の一階の条件をみよなお式は回帰直線はかならずサンプルの平均値を通ることを意味しているまた式は残差の平均がであり残差と説明変数が無相関になることを意味する当てはまりの良さ 9 式と式での最小二乗法による推定値が求まった b e と式 b の関係から b e という関係が得られるこの式の両辺を平方しについて合計すると次の式が得られる 6

b e 式の導出においてと e の交差項が消えるのは式が成り立つからである式の左辺はの平均値の回りの平方和全体の平方和右辺の第項は説明変数で説明される部分の平方和右辺第項は残差の平方和を表す全体の平方和を TTotl m of qre 説明変数で説明される部分の平方和を EEple m of qre 残差平方和を RRel m of qre で表すと式は T E R 3 と書き直すことができるなお 8 式と同様の記号を用いると T はの平均値の回りの平方和なのでと表すことができる E を T で割った値は全平方和のうち説明変数で説明される平方和の比率を表すこれを決定係数 oeffet of etermto といい通常 R で表す R は次の式で定義される E R R 4 T T R はからの間の値をとる R がに近いほどモデルの説明力が高いことになるなお決定係数はとの相関係数を平方したものに等しいこれは次のことから確かめられるまず 9 式を用いると E は次のように変形できる E b したがって次の式が成り立つ R E / T この式は R がとの相関係数の平方であることを示している 7

最小二乗推定量 let qre etmtor の確率的性質 9 式式からわかるようにの推定値 b はの実現値に依存して決定されるつまり誤差項の実現値に依存して決定される事前にはb はどの値が実現するかは確定せずある確率分布にしたがって実現する b が確率変数であることを強調する場合 b を推定量 etmtor と呼ぶ最小二乗推定量の確率分布を求めてみようまず 9 式から b 5 が成立するつまり最小二乗推定量 b はの線型関数であるここで回帰モデルの仮定 6 までの前提が満たされるとすると b は正規分布に従うことがわかる一方については式から b 6 となり b と同様にの線型関数であり正規分布に従うことがわかる 5 式 6 式から b の期待値分散が求められる導出はやや面倒であるので最初に結果だけを述べておこうまず期待値は次の通りになる E E b 7 7 式は最小二乗推定量の期待値はパラメータの真の値に一致することを述べているこの性質を不偏性 bee というまた分散共分散は次の通りになる 8

vr b vr b ov 8 8 式からが大きくなるほど b の分散が小さくなることがわかるつまりのバラつきが大きくサンプル数が十分に大きいとパラメータの推定はより正確になる逆にのバラつきが少なければ b の推定は不正確なものになる図最小二乗推定量 b の分布が増加すると vrb が小さくなる最小二乗推定量の確率分布の導出導出はやや面倒まず真のモデルは 9

9 で与えられ誤差項は互いに独立で同一な正規分布 N に従うものとする 7 式と 8 式を導出するために 5 式 6 式のの性質について最初に導いておこうまずが成立するまたについてはが成立するさらにが成立する b の確率分布を求めるために 5 式に 9 式を代入すると b 3

を得る最後の等式の導出には式の結果を用いたしたがって b E E E となり b の期待値が導かれた番目の等式が成立するのは期待値オペレータの線型性の性質よりまだ 3 番目の等式は誤差項に関する期待値がであるから 3 式を使い分散を求めると次の通りになる b E E vrb 3 番目の等式が成立するのはと j の交差項が消えの期待値がすべてに等しい誤差項が互いに独立の同一の分布に従うからである最後の等式の導出には式が用いられているこのようにして b の期待値と分散が求められたの期待値と分散も同様にして求められる 6 式に 9 式を代入し式を用いると 4 が成り立つことがわかるしたがって E E E E E vr が導かれるさらに b b E E ov が導かれるここでもと j は互いに独立だという条件 E j を用いているなお

最小二乗推定量の分散は誤差項の分散に依存するがは未知のパラメータであることに注意誤差項の分散の推定値サンプル数説明変数個の場合の単回帰の場合説明変数と定数項で合計個の説明変数があると考えるの最小二乗推定量は R e 4 で与えられる - は自由度 egree of freeom と呼ばれるなおの平方根は標準誤差 tr error と呼ばれる多くのソフトでは ER 回帰の標準誤差 :tr error of the regreo として出力される残差平方和をではなく - で割るのはそうすることでが不偏性を持つからであるここで R e 5 は自由度 - のカイ二乗分布にしたがうこの証明には行列の知識が必要なので省略する自由度が - であるのは個のサンプルのうち独立に動ける次元がつ定数項とだけ少なくなるからである行列を用いた証明は Greee の Eoometr Al などを参照のこと自由度 m のカイ二乗分布に従う確率変数の期待値は m に等しいこれから R/ の期待値は - に等しくしたがって 4 式で定義される誤差項の分散の推定量の期待値は真の分散に等しいことがわかるに関する検定次のような仮説 H を考える H : 多くの仮説検定ではを H とすることが多い例えば賃金と教育年数の回帰分析で教育年数が賃金に影響しないという仮説は教育年数の係数がに等しいという仮説検定の問題として考えることができるもちろんがという特定の値である必要は無い

の最小二乗推定量 b はさきほど求めたように期待値分散 / の正規分布に従ったしたがって H が正しいなら b ~ N 6 が成り立つただしは未知のパラメータなのでこのままでは仮説検定に使えないそこでを先ほど求めた最小二乗推定量で置き換える統計量を考えてみようすなわち b b.e. b 7 を考える 7 式の分母の / は推定量 b の標準偏差分散の平方根の推計値で b の標準誤差 tr error と呼ばれる b の真の標準偏差は / であり未知のパラメータに依存していた仮説 H が真であれば 7 式は自由度 - の t 分布に従う -------------------------------------------------------------------------------------- t 分布の復習 z を標準正規分布を自由度 m のカイ二乗分布に従う確率変数とし z とは独立であるとしたとき次の変数は自由度 m の t 分布に従う z ~ t m m ------------------------------------------------------------------------------------- 7 式が自由度 - の t 分布に従うことを説明するまず 6 式で表される変数は標準正規分布に従うので上の z に対応しているまた 5 式の R/ は自由度 - のカイ二乗分布に従うと述べたさらに 6 式と 5 式の分布は独立であることを示すことができるこの証明には行列の知識が必要 Greee 等の教科書を参照のことしたがって6 式と R/ /- の平方根の比をとるとその比は自由度 - の t 分布に従うその比を求めると 3

b R b R b R b となり 7 式が自由度 - の t 分布に従うことが示される結局 b- と b の標準誤差の比は自由度は説明変数の個数の t 分布に従う b b.e. b ~ t 7 BLUE 最小二乗推定量は線型推定量 ler etmtor の一種である 5 式 6 式で表されるように確率変数の線型関数であるまた最小二乗推定量の期待値は 7 式で表されたように真のパラメータに等しかったつまり最小二乗推定量は不偏推定量 be etmtor のクラスに属するさらに最小二乗法は線型不偏推定量 ler be etmtor のクラスに属する推定量の中で最小の分散を持つ推定量であることが知られている証明は省略この性質を BLUE bet ler be etmtor: 最良線型不偏推定量という最小二乗法はこのような意味で望ましい推定量であるなお BLUE という性質は誤差項が正規分布に従うという仮定なしに導かれるその他の推定方法モーメント法 e e b b を満たすようにパラメータ b を決める E ov に対応今考えているケースでは最小二乗法と同じになる 4

5 最尤法まず真のモデルがで与えられ誤差項は互いに独立で同一の正規分布 N に従うものとするさて今.. が観測されたとするこの時が与えられたもとでが実現する確率密度関数条件付確率密度関数は次の式で与えられる Π Π Π ep ep ;.. f π π φ 上の式で [ ] / / ep π φ は期待値分散の正規分布の確率密度関数であるまた... である上の式を未知パラメータの関数とみなしたものは尤度関数 lkelhoo fto と呼ばれる未知パラメータを b に置き換えて尤度関数を Lb で表せば Π ep b b L π この尤度関数を最大にするように b を決める方法が最尤法 mmm lkelhoo metho である要するに観測された... が実現するのは確率分布を規定するパラメータがどのような値だともっともらしいかを考えてパラメータを決定するのが最尤法であるさて上の尤度関数の対数をとると b b L l l l π と変形できるこれを対数尤度関数 log lkelhoo fto と呼ぶ尤度の最大化と対数尤度の最大化の条件は同じなので通常はこの対数尤度を最大にするようにパラメータを決める今考えている線型モデルの場合には b の決定は

b の最小化条件を求めればよいこれは残差平方和の最小化条件を求めることだから b の最尤法による推計は最小二乗法と全く同じになるについては対数尤度関数をで微分してとおくと b e R となるここで R は残差平方和を表すについての最小二乗推定量は R/- であったが最尤推定量は R/ であるこのための最尤推定量は不偏性を持たない普遍性は持たないが一致性 ote という性質は持っているサンプル数の増加が推定量の分布を真のパラメータの値に収束させる性質なおサンプル数が大きい場合 - で割ろうがで割ろうがその差はほとんどなくなることにも注意誤差項に関する確率分布を特定化すれば最尤法は線型モデルだけではなく非線形モデルにも応用できるこのため最尤法は広く用いられている 6