スライド 1 - PDF Free Download

データ解析特論重回帰分析編 2017 年 7 月 10 日 ( 月 )~ 情報エレクトロニクスコース横田孝義 1

( 単 ) 回帰分析単回帰分析では一つの従属変数 ( 目的変数 ) を一つの独立変数 ( 説明変数 ) で予測する事を考える具体的には y = a + bx という回帰直線 ( モデル ) でデータを代表させるこのためにデータからこの回帰直線の切片 (a) と傾き (b) を最小 2 乗法によって求めるモデルの当てはまりのよさは決定係数 (R 2 : 相関係数の 2 乗 ) で表されるまた分散分析で検定ができる切片と傾きは t 検定によって検定 ( ゼロでないかどうかの検定 ) できる y y = a + bx a 0 x 2

重回帰分析重回帰分析では一つの目的変数を複数の説明変数で予測する事を考えるこれによってどの説明変数がどの程度目的変数に影響を与えているかを知る事ができるたとえば 3 つの独立変数がある場合重回帰式は y = a + b 1 x 1 + b 2 x 2 + b 3 x 3 となるそれぞれの独立変数にかかっている係数を偏回帰係数と呼ぶ単回帰分析と同様にモデルの当てはまりの良さは決定係数で表され分散分析で検定できるまた切片と偏回帰係数については t 検定で検定できる y x 2 y = a + b 1 x 1 + b 2 x 2 + b 3 x 3 a x 1 3

重回帰分析回帰係数の決定最小化する a,b を求める 4

重回帰分析回帰係数の決定 (1) (2) (1 ) (2 ) (1 ) (2 ) 5

重回帰分析回帰係数の決定 (1 ) (2 ) 6

重回帰分析回帰係数の決定一方 (3) 7

重回帰分析回帰係数の決定 (3) 代入 (1 ) 8

重回帰分析回帰係数の決定 9

重回帰分析回帰係数の決定ここまでミスなく導出するのはかなり大変 10

重回帰分析回帰係数の決定変数を平均値から測ると最小ニ乗法はずっとシンプルになる 0 0 テキストの 17.15 式テキストの 17.16 式 11

モデル係数の統計的性質母集団最小二乗係数代入 (17-15) (17-16) 12

モデル係数の統計的性質 (17-5) 母回帰方程式代入 (17-16) 0 13

モデル係数の統計的性質モデル係数の期待値は? であるのですなわち最小二乗法で求めたモデル係数の期待値は母回帰方程式の係数に一致する不偏推定量 (unbiased estimates) である 14

モデル係数の統計的性質これらの分散は? 15

モデル係数の統計的性質 16

モデル係数の統計的性質最小ニ乗法によって求めたモデル係数 (17-15) (17-16) 一方 N(0,σ 2 ) に従う正規性雑音の線形な関数以下のように分布する 19

モデル係数の統計的性質回帰分析において最小ニ乗法で求めた切片と傾き自体も確率変数であることが直感的に理解できただろうか? 20

モデル係数の統計的性質 (17-15) (17-16) N(0,σ 2 ) に従う正規性雑音の線形な関数以下のように分布する 21

回帰分析総変動最小ニ乗法によって求めたモデル係数 (17-15) (17-16) これによる予測値 ( 回帰直線 ) をとおく被説明変数 Yi の総変動 : の平均からの乖離の二乗和は TSS: total sum of squares n-1 で割れば Y i の標本分散となる 22

回帰分析総変動被説明変数 Yi の総変動 : の平均からの乖離の二乗和は TSS: total sum of squares y a 0 x 23

回帰分析回帰変動予測値と平均とのかい離の二乗和は RSS: residual sum of squares 総変動のうちの回帰モデルで説明力が発揮できる部分 y ^ ^ Y= a + bx a 0 x 24

回帰分析残差変動予測値と標本とのかい離の二乗和は ESS: Error sum of squares すなわち回帰モデルでを予測した際の予測誤差のばらつきの総和 25

回帰分析残差変動残差変動 ESS: Error sum of squares 総変動のうちの回帰モデルで説明できない部分 y ^ ^ Y= a + bx a 0 x 26

回帰分析各変動の関係総変動被説明変数の個体差を評価回帰変動総変動のうちの回帰モデルで説明力が発揮できる部分残差変動総変動のうちの回帰モデルで説明できない部分 TSS RSS ESS 27

回帰分析各変動の関係総変動 y a 0 x TSS RSS ESS 回帰変動残差変動 y Y= ^ a ^ + bx y Y= ^ a ^ + bx a 0 x a 0 x 28

回帰分析決定係数 R 2 値例 : Y i の個体差が100% 回帰モデルで説明できる R 2 =1 Y i の個体差が全く説明できない R 2 =0 の値は 1 に近いほど回帰モデルが当てはまっていると解釈できる 29

回帰係数の仮説検定回帰モデルを最少二乗法によってあてはめ回帰係数が求まる例えば推定値がとなったとするこの結果から説明変数 X i は被説明変数 Y i に関係していると結論づけて良いか? 統計的検定をしないと何とも言えない 30

回帰係数の仮説検定統計的検定をしないと何とも言えない真の係数 b が 0( すなわち X i と Y i は無関係 ) であったとしても 0 でない推定値が得られてしまう可能性がある回帰係数 b に関する t 統計量 : の最少二乗推定値従うに関する以下の変数 t b は自由度 n-2 の t 分布には係数 b の標準偏差の不偏推定値残差の標本分散 31

回帰係数の仮説検定回帰係数 b に関する t 統計量 : の最少二乗推定値に関する以下の変数 t b は自由度 n-2 の t 分布に従うは係数 b の標準偏差の不偏推定値残差の標本分散回帰係数 a に関する t 統計量 : の最少二乗推定値に関する以下の変数 t a も自由度 n-2 の t 分布に従う 32

回帰係数の仮説検定例題ある地域でマグニチュード 7 以上の大地震発生の周期性を検討するために 1600 年以降に発生した ( 累積 ) 回数と年代の関係を調べ以下のデータを得た 33

回帰係数の仮説検定回帰係数 b に関する t 統計量 : の最少二乗推定値に関する以下の変数 t b は自由度 n-2 の t 分布に従うは係数 b の標準偏差の不偏推定値残差の標本分散 34

回帰係数の仮説検定回帰係数 a に関する t 統計量 : の最少二乗推定値に関する以下の変数 t a も自由度 n-2 の t 分布に従う 35

回帰係数の仮説検定データ数 n=5 なので自由度は n-2=3 の t 分布に従う 95% 信頼区間に相当する t の値は 3.18245 95% 信頼区間 t 値 28.90 t 値 186.20 十分に有意と言える EXECL の関数 tinv( 確率自由度 ) を利用 36

回帰係数の仮説検定回帰分析のモデル係数の検定方法の手順を学んだ 37

回帰係数の仮説検定 12 月 18 日 ( 火 ) 体重データの分析をしてみたら何かわかるか? 38

回帰係数の仮説検定身長 VS 体重回帰モデル 39

回帰係数の仮説検定各種統計量を計算 40

回帰係数の仮説検定すなわち 3.47 自由度 28 の t 分布表から 95% 信頼区間に相当する t の値は 2.04841 従って各回帰係数の 95% 信頼区間は 2.34 となり符号が曖昧になる程ではなく有意である ( 回帰係数の真値は 95% の確率でこの範囲に入る ) 41

回帰係数の仮説検定試しに体重と睡眠時間とに有意な相関があるかを調べる 42

回帰係数の仮説検定試しに体重と睡眠時間とに有意な相関があるかを調べる回帰モデル 43

回帰係数の仮説検定各種統計量を計算 44

回帰係数の仮説検定すなわち 1.70 <2.048 自由度 28 の t 分布表から 95% 信頼区間に相当する t の値は 2.04841 従って各回帰係数の 95% 信頼区間は 5.34 の t 値が低すぎて相関があるとは言えない 45

回帰係数の仮説検定試しに体重と運動時間とに有意な相関があるかを調べる 46

回帰係数の仮説検定回帰モデル 47

回帰係数の仮説検定各種統計量を計算 48

回帰係数の仮説検定すなわち 3.622 自由度 28 の t 分布表から 95% 信頼区間に相当する t の値は 2.04841 従って各回帰係数の 95% 信頼区間は 14.37 やや幅が広い負の相関があることがわかる運動時間が長いほど体重が軽い?? 49

重回帰分析と回帰係数の有意性の検定説明変数で回帰の 2 乗誤差を最少にするように回帰係数の推定を行う評価関数は被説明変数従属変数で最小化する 50

重回帰分析と回帰係数の有意性の検定評価関数はで最小化する 51

重回帰分析と回帰係数の有意性の検定 52

重回帰分析と回帰係数の有意性の検定 53