データ解析特論重回帰分析編 2017 年 7 月 10 日 ( 月 )~ 情報エレクトロニクスコース横田孝義 1
( 単 ) 回帰分析 単回帰分析では一つの従属変数 ( 目的変数 ) を 一つの独立変数 ( 説明変数 ) で予測する事を考える 具体的には y = a + bx という回帰直線 ( モデル ) でデータを代表させる このためにデータからこの回帰直線の切片 (a) と傾き (b) を最小 2 乗法によって求める モデルの当てはまりのよさは決定係数 (R 2 : 相関係数の 2 乗 ) で表される また 分散分析で検定ができる 切片と傾きは t 検定によって検定 ( ゼロでないかどうかの検定 ) できる y y = a + bx a 0 x 2
重回帰分析 重回帰分析では一つの目的変数を 複数の説明変数で予測する事を考える これによってどの説明変数が どの程度目的変数に影響を与えているかを知る事ができる たとえば 3 つの独立変数がある場合 重回帰式は y = a + b 1 x 1 + b 2 x 2 + b 3 x 3 となる それぞれの独立変数にかかっている係数を 偏回帰係数 と呼ぶ 単回帰分析と同様に モデルの当てはまりの良さは決定係数で表され 分散分析で検定できる また 切片と偏回帰係数については t 検定で検定できる y x 2 y = a + b 1 x 1 + b 2 x 2 + b 3 x 3 a x 1 3
重回帰分析 回帰係数の決定 最小化する a,b を求める 4
重回帰分析 回帰係数の決定 (1) (2) (1 ) (2 ) (1 ) (2 ) 5
重回帰分析 回帰係数の決定 (1 ) (2 ) 6
重回帰分析 回帰係数の決定 一方 (3) 7
重回帰分析 回帰係数の決定 (3) 代入 (1 ) 8
重回帰分析 回帰係数の決定 9
重回帰分析 回帰係数の決定 ここまでミスなく導出するのはかなり大変 10
重回帰分析 回帰係数の決定 変数を平均値から測ると最小ニ乗法はずっとシンプルになる 0 0 テキストの 17.15 式 テキストの 17.16 式 11
モデル係数の統計的性質 母集団 最小二乗係数 代入 (17-15) (17-16) 12
モデル係数の統計的性質 (17-5) 母回帰方程式代入 (17-16) 0 13
モデル係数の統計的性質 モデル係数の期待値は? であるので すなわち 最小二乗法で求めたモデル係数の期待値は母回帰方程式の係数に一致する 不偏推定量 (unbiased estimates) である 14
モデル係数の統計的性質 これらの分散は? 15
モデル係数の統計的性質 16
モデル係数の統計的性質 最小ニ乗法によって求めたモデル係数 (17-15) (17-16) 一方 N(0,σ 2 ) に従う正規性雑音 の線形な関数 以下のように分布する 19
モデル係数の統計的性質 回帰分析において最小ニ乗法で求めた切片と傾き自体も確率変数であることが直感的に理解できただろうか? 20
モデル係数の統計的性質 (17-15) (17-16) N(0,σ 2 ) に従う正規性雑音 の線形な関数 以下のように分布する 21
回帰分析 総変動 最小ニ乗法によって求めたモデル係数 (17-15) (17-16) これによる予測値 ( 回帰直線 ) を とおく 被説明変数 Yi の総変動 : の平均からの乖離の二乗和は TSS: total sum of squares n-1 で割れば Y i の標本分散となる 22
回帰分析 総変動 被説明変数 Yi の総変動 : の平均からの乖離の二乗和は TSS: total sum of squares y a 0 x 23
回帰分析 回帰変動 予測値と平均とのかい離の二乗和は RSS: residual sum of squares 総変動のうちの回帰モデルで説明力が発揮できる部分 y ^ ^ Y= a + bx a 0 x 24
回帰分析 残差変動 予測値と標本とのかい離の二乗和は ESS: Error sum of squares すなわち 回帰モデルで を予測した際の予測誤差 のばらつきの 総和 25
回帰分析 残差変動 残差変動 ESS: Error sum of squares 総変動のうちの回帰モデルで説明できない部分 y ^ ^ Y= a + bx a 0 x 26
回帰分析 各変動の関係 総変動 被説明変数 の個体差を評価 回帰変動 総変動のうちの回帰モデルで説明力が発揮できる部分 残差変動 総変動のうちの回帰モデルで説明できない部分 TSS RSS ESS 27
回帰分析 各変動の関係 総変動 y a 0 x TSS RSS ESS 回帰変動 残差変動 y Y= ^ a ^ + bx y Y= ^ a ^ + bx a 0 x a 0 x 28
回帰分析 決定係数 R 2 値 例 : Y i の個体差が100% 回帰モデルで説明できる R 2 =1 Y i の個体差が全く説明できない R 2 =0 の値は 1 に近いほど回帰モデルが当てはまっていると解釈できる 29
回帰係数の仮説検定 回帰モデル を最少二乗法によってあてはめ 回帰係数が求まる 例えば 推定値が となったとする この結果から 説明変数 X i は被説明変数 Y i に関係している と結論づけて良いか? 統計的検定をしないと何とも言えない 30
回帰係数の仮説検定 統計的検定をしないと何とも言えない 真の係数 b が 0( すなわち X i と Y i は無関係 ) であったとしても 0 でない推定値が得られてしまう可能性がある 回帰係数 b に関する t 統計量 : の最少二乗推定値従う に関する以下の変数 t b は自由度 n-2 の t 分布に は 係数 b の標準偏差の不偏推定値 残差の標本分散 31
回帰係数の仮説検定 回帰係数 b に関する t 統計量 : の最少二乗推定値 に関する以下の変数 t b は自由度 n-2 の t 分布に従う は 係数 b の標準偏差の不偏推定値 残差の標本分散 回帰係数 a に関する t 統計量 : の最少二乗推定値 に関する以下の変数 t a も自由度 n-2 の t 分布に従う 32
回帰係数の仮説検定 例題 ある地域でマグニチュード 7 以上の大地震発生の周期性を検討するために 1600 年以降に発生した ( 累積 ) 回数と年代の関係を調べ 以下のデータを得た 33
回帰係数の仮説検定 回帰係数 b に関する t 統計量 : の最少二乗推定値 に関する以下の変数 t b は自由度 n-2 の t 分布に従う は 係数 b の標準偏差の不偏推定値 残差の標本分散 34
回帰係数の仮説検定 回帰係数 a に関する t 統計量 : の最少二乗推定値 に関する以下の変数 t a も自由度 n-2 の t 分布に従う 35
回帰係数の仮説検定 データ数 n=5 なので自由度は n-2=3 の t 分布に従う 95% 信頼区間に相当する t の値は 3.18245 95% 信頼区間 t 値 28.90 t 値 186.20 十分に有意と言える EXECL の関数 tinv( 確率 自由度 ) を利用 36
回帰係数の仮説検定 回帰分析のモデル係数の検定方法の手順を学んだ 37
回帰係数の仮説検定 12 月 18 日 ( 火 ) 体重データの分析をしてみたら何かわかるか? 38
回帰係数の仮説検定 身長 VS 体重 回帰モデル 39
回帰係数の仮説検定 各種統計量を計算 40
回帰係数の仮説検定 すなわち 3.47 自由度 28 の t 分布表から 95% 信頼区間に相当する t の値は 2.04841 従って 各回帰係数の 95% 信頼区間は 2.34 となり 符号が曖昧になる程ではなく 有意である ( 回帰係数の真値は 95% の確率でこの範囲に入る ) 41
回帰係数の仮説検定 試しに 体重と睡眠時間とに有意な相関があるかを調べる 42
回帰係数の仮説検定 試しに 体重と睡眠時間とに有意な相関があるかを調べる 回帰モデル 43
回帰係数の仮説検定 各種統計量を計算 44
回帰係数の仮説検定 すなわち 1.70 <2.048 自由度 28 の t 分布表から 95% 信頼区間に相当する t の値は 2.04841 従って 各回帰係数の 95% 信頼区間は 5.34 の t 値が低すぎて 相関があるとは言えない 45
回帰係数の仮説検定 試しに 体重と運動時間とに有意な相関があるかを調べる 46
回帰係数の仮説検定 回帰モデル 47
回帰係数の仮説検定 各種統計量を計算 48
回帰係数の仮説検定 すなわち 3.622 自由度 28 の t 分布表から 95% 信頼区間に相当する t の値は 2.04841 従って 各回帰係数の 95% 信頼区間は 14.37 やや幅が広い 負の相関があることがわかる 運動時間が長いほど体重が軽い?? 49
重回帰分析と回帰係数の有意性の検定 説明変数 で回帰の 2 乗誤差を最少にするように回帰係数の推定を行う 評価関数は 被説明変数 従属変数 で最小化する 50
重回帰分析と回帰係数の有意性の検定 評価関数は で最小化する 51
重回帰分析と回帰係数の有意性の検定 52
重回帰分析と回帰係数の有意性の検定 53