単回帰分析 つ以上の変数についての関係を見る つの 目的 被説明 変数を その他の 説明 変数を使って 予測しようというものである 因果関係とは限らない
ここで勉強すること 最小 乗法と回帰直線 決定係数とは何か?
最小 乗法と回帰直線 これまで 変数の間の関係の深さについて考えてきた 相関係数 ここでは 変数に役割を与え 一方の 説明 変数を用いて他方の 目的 被説明 変数を説明することを考える 回帰分析 この関係は 必ずしも 因果関係でなくてもよい 3
直近のデータを利用して予測する 時間的に先行する測定値から 遅れて観察される他の測定値を予測する 例 前日のニューヨーク市場の指数をもとに 東京市場の変動を予測する 例 人体の中で最も成長の早い部位で かつ身長と相関の深い量を測定して 最終的な身長を予測する 怪しい説である
収益率の相関係数行列 009 年 5
6
収益率の相関係数行列 008 年 7
8
収益率の相関係数行列 007 年 9
0
調査困難な量を推測する 調査するのに膨大な時間と経費のかかる量を 代替物の測定値をもとに推測する 精密調査法の代わりに 簡易検査法を用いる 例 体脂肪率を測定する 家庭にある体脂肪計を用いる 例 アルツハイマー病の診断 脳の中を調べる代わりに 脳脊髄を調べる
体脂肪率測定の場合 正確な測定 被説明変数 目的変数 体をスキャンして計算する. 水中体重測定法 空気置換法 により体の容積を測定する 生体インピーダンスを測定する 説明変数 予測式を立てる 身長 体重 年齢 性別なども考慮に入れる
アルツハイマー病の診断法 00/0/5 日経朝刊より 脳内にタンパク質断片 ペプチド の 種 アミロイド β が蓄積して発病する 病気の進行程度を目的 被説明 変数とし 脳脊髄の ALβ の濃度を説明変数とする 3
直線 =α+β とは? 4
直線 =α+β とは? 点 0 α を通る 傾き β の直線 5
直線 =+c- とは? c 6
直線 =+c- とは? c c 点, を通る傾き c の直線 7
直線 =α+β を回帰直線と考える とき 8
直線 =α+β を回帰直線と考える とき *, } * 観測値には誤差が加わっている 9
直線 =α+β を回帰直線と考えるときの観測値の得られ方 3 0
直線 =α+β を回帰直線と考える ときの観測値の得られ方, 3, 3
回帰直線 =α+β は未知である
回帰直線 =α+β は未知である データから推定するしかない 直線であるという保証もない 3
直線 =α+β の推定法.5 上の式を最小にするように α と β を決める 最小 乗法により決めるとも言う.6 SSE 上の Sum of Squred Error を最少化するとも考えられる 4
回帰直線 =α+β の推定法 図解 5
回帰直線 =α+β の推定法 図解 赤線の長さの 乗和を最小にする を求めよう 6
最小 乗推定値の公式結果を先に示す.7.8 ここで, 7
回帰直線とは 8
回帰直線とは 9 傾きの直線を通る,
回帰分析の実習 30
散布図を描く 3
散布図 相関図 を完成させよ う データ点に 番号をつける 5 3 4 3
平均と平均からの偏差を求める 67 7 48 56 7 7 54 56 33
分散 共分散の計算 5 5 8 64 5 8 40 0 0 4 0 0 68 3.6 90 38 9 8.4 34
回帰直線の切片と傾き 8.4 3.6 9 68.35 56.3576 76.7 8.4 3.638 0.8 相関係数 35
回帰直線を描き込む 56.35 7 3.5 4 5 3 0 36
残差とは? 実際の観測値と推定値との差を残差と呼ぶ 37
ˆ e 残差とは? 実際の観測値と推定値との差を残差と呼ぶ } { e 38, e ˆ
残差プロット 軸に残差をとったものを残差プロットと呼ぶ 39
残差プロット 軸に残差をとったものを残差プロットと呼ぶ ˆ, e e 40
残差の計算と残差プロット 6.00 4.00.00 0.00 -.00 65 70 75 80-4.00-6.00 4
残差の計算と残差プロット 6.00 56 0 4.00.00 0.00 -.00 65 70 75 80-4.00-6.00 4
残差の和と残差の平方和 残差の総和は 0 である 43 e ee e e e e 0 当然のことだが 残差の平均も 0 である 残差の分散は 下のように表される 0
残差について考える この場合は 身長の影響を取り除いた体重と考えてよい 残差がプラスの場合 身長の割に重いと言える 残差は 身長以外の他の要素で説明されるかもしれない 44
残差分散 ˆ 45 ee ˆ
残差平方和と相関係数の関係 r : 相関係数 ee r 相関係数が に近いほど 残差平方和は小さくなる つまり 推定精度が高い r : 回帰の決定係数という r あるいは r あるいは R と書く 46
残差平方和の計算 ee r 38 0.8 38 6.6 ee 3. 3.6 47
3 決定係数 r r : 相関係数 : 回帰の決定係数という 決定係数は相関係数を 乗したものであるが その他にもさまざまな方法で性格づけができる 48
決定係数の意味 小さな相関 図を書いてみる ee r 49 ee e S
決定係数の意味 小さな相関 ee e 図を書いてみる e e e ee S r 相関係数が小さければ 残差分散は小さくならない 50
決定係数の意味 大きな相関 図を書いてみる ee r 5 ee e S
決定係数の意味 大きな相関 図を書いてみる ee r 5 ee e S 相関係数が大きければ 残差分散は小さくなる
以上が第一回目 第二回目は 身長体重データ 0 名 を使って復習する 決定係数の意味を説明する 決定係数とは 回帰直線により説明できた割合を言う 53
の変動の分解と決定係数 ˆ ˆ, ˆ 54
の変動の分解と決定係数 残差 : 回帰直線では説明しきれない部分 e ˆ ˆ ˆ, ˆ ˆ 平均からの偏差 回帰直線で説明できる部分 55
の全変動 平均からの変動, 56
の全変動 平均からの変動, 平均からの偏差 57
回帰で説明されない変動 残差 58, ˆ e ˆ ˆ e ˆ
回帰で説明されない変動 残差 ˆ e, ˆ e ˆ 残差 ˆ 59
回帰で説明される変動 ˆ, ˆ ˆ 60
回帰で説明される変動 ˆ, ˆ ˆ 説明できた部分 6
決定係数のもう一つの意味 ˆ ˆ 両辺を で割ると ˆ ˆ 6
決定係数のもう一つの意味 計算すれば この等式が成り立つことが分かる ˆ ˆ 両辺を で割ると ˆ ˆ この部分をR と呼ぶ. 63
決定係数の意味 さらに ˆ ˆ R ˆ R e 64
決定係数の意味 さらに ˆ ˆ R ˆ R e 65
決定係数のまとめ ee R r r R ˆ e R 66
決定係数は 全変動のうち回帰で説明できる割合である 決定係数のまとめ ee R r r R ˆ 決定係数は 相関係数の 乗である R e 決定係数は 全変動のから回帰で説明できなかった部分を除いた割合である 67
プロ野球 J 68
犯罪率と死亡 率の関係 犯罪率が上がると 死亡率が下がると考えて良いのだろうか? 69
人口構成比の内 0 34 歳人口に注目してみる 70
死亡率と犯罪率から 0 34 歳人口の影響を取り除いた残差の相関係数を求めてみる 7
最小 乗推定値の求め方 難 7 } { } {
最小 乗推定値の求め方 難 } { 0 73
最小 乗推定値の求め方 3 難 のとき 0 になる. 74 この部分を最小にするように を決める
最小 乗推定値の求め方 4 難 のとき最小となる 75
決定係数とは 難 ˆ 76 { ˆ ˆ } ˆ ˆ ˆ ˆ 0 } }{ { ˆ ˆ 0 なぜなら
全変動 決定係数とは 3 回帰からの変動 難 回帰による変動 ˆ ˆ ˆ ˆ { } ˆ 決定係数 :R 全変動のうち 回帰による変動の占める割 合 77
決定係数とは 4 難 78 ˆ ˆ e R R ˆ 相関係数の 乗この表現が後に重要になる