相関係数と偏差ベクトル 経営統計演習の補足資料 07 年 月 9 日金沢学院大学経営情報学部藤本祥二
相関係数の復習 r = s xy s x s y = = n σ n i= σn i= n σ n i= n σ i= x i xҧ y i തy x i xҧ n σ n i= y i തy x i xҧ x i xҧ y i തy σn i= y i തy 式が長くなるので u, v の文字で偏差を表すことにする x i x ҧ = u i (xの偏差) y i തy = v i (yの偏差) 前回は散布図と相関係数の関係を見た今回は偏差ベクトルと相関係数の関係を見る r = σ n i= u i v i σ n i= u i σ n i= v i
ベクトルの復習
ベクトルとは スカラー (scalar) 大きさのみを持った量 ベクトル (vector) 厳密に言うと整数や実数のようなスカラー量は +- の 方向を持つスカラー量はベクトル量のように様々な方向を自由に取ることができない 大きさ ( 長さ ) と向き ( 方向 ) を持った量 ベクトル量を表す記号は上に矢印をつける Ԧa 終点 始点と終点を繋いだ矢印でイメージを描ける 始点 Ԧa 絶対値記号はベクトルの大きさを表す ( 正のスカラー量 ).
ベクトルの平行移動 平行移動してぴったり重なるベクトルは同じベクトルとみなす. ( 平行移動は大きさと向きを変えない移動, 大きさと向きが同じベクトルは同じ量を表している.) この つの矢印は大きさと向きが同じなので同じベクトル量を表している
ベクトルの足し算 Ԧa と b を足して Ԧc を求めるには Ԧa b 平行移動して始点と終点を繋ぐ b Ԧa Ԧc = Ԧa + b 足し算には交換則が成り立つ Ԧc = b + Ԧa Ԧa b
ベクトルのスカラー倍 ベクトルのスカラー倍向きを変えずに大きさのみを変える Ԧa Ԧa ベクトルのマイナス倍は向きを反転させる Ԧa
ベクトルの引き算 始点を合わせて終点を繋ぐ Ԧa b Ԧc = Ԧa b 反転と足し算 Ԧa b = Ԧa + b b + Ԧc = Ԧa の逆演算 b の頭から Ԧa の頭に向かった矢印 で考える Ԧa Ԧc = Ԧa + b b
位置ベクトル a = 3 軸 Ԧa =,3 位置ベクトル原点を始点とした時の終点の座標でベクトルを表現したもの. 次元空間の場合 Ԧa = a, a O 原点 0,0 a = 軸 3 次元空間の場合 Ԧa = a, a, a 3
ベクトルの足し算 ( 位置ベクトル表記 ) 4 3 Ԧa =,3 Ԧa + b = +,3 + = 4,4 足し算は位置ベクトルを成分別に足し算すればよい Ԧa + b = a, a + b, b = a + b, a + b b =, O 4
ベクトルのスカラー倍と引き算 4 Ԧa =,4 Ԧa =, O Ԧa =, 4 4 スカラー倍は位置ベクトルの全成分を等倍すればよい s Ԧa = s a, a = sa, sa 引き算は位置ベクトルを成分別に引き算すればよい Ԧa b = a, a b, b = a, a + b, b = a b, a b
偏差ベクトルと相関係数
ҧ データ数 n = 3 の例 個体名 ( 番号 i) 偏差ベクトル 体長 x i [cm] A() 4 B() 8 C(3) 9 平均 n x ҧ = n i= x i = 7 (A, B, C) 軸の 3 次元空間で見る データベクトル : Ԧx = x, x, x 3 = (4,8,9) 平均ベクトル : x Ԧҧ = x, x, ҧ x ҧ = (7,7,7) A 偏差ベクトル :u = Ԧx x Ԧҧ = 3,, ( データ全体の平均からのズレを方向と大きさを持ったベクトル量で表したもの ) データ数 n = 0の時は0 次元空間になる 次元や3 次元と違って絵には描けないがベクトルの演算はほとんど同じ 4 C O 9 Ԧx xԧҧ u 8 B
相関係数の意味 n = 6 の例 個体 体長 x i [cm] 体重 y i [g] x 偏差 u i = x i ഥx y 偏差 v i = y i ഥy A 4-7 -6 B 8 7-3 - C 9 6 - - D 0 E 6 8 5 0 F 7 5 6 7 平均 x ҧ = തy = 8 0 0 6 次元空間内の つの偏差ベクトル Ԧv=(-6,-,-,,0,7) θ u=(-7,-3,-,,5,6) r = cos θ =0.875 体長偏差ベクトルと体重偏差ベクトルの間の角度 θ = 35. r = σ n i= u i v i σ n i= u i σ n i= v i = cos θ 相関係数は偏差ベクトルの間の角度 θ のコサイン ( 余弦 ) の値. 以下の補足スライドで証明 ベクトルの間の角度と余弦定理
三角比と三角関数の復習
三角比の復習 直角三角形 ABC の各辺の長さの比が三角比 B 正弦 (sine) sin θ = a c 余弦 (cosine) A θ c b C a cos θ = b c 正接 (tangent) tan θ = a b 三平方の定理 sin θ + cos θ = a c + b c = sin θ cos θ = a + b c = θ が 90 以上になると上図の直角三角形が描けなくなる どんな角度でも使えるように三角比を拡張したものが三角関数 拡張前の様々な定理 ( 公式 ) をなるべく壊さないように拡張することが重要
三角定規の三角比 + = + = 正方形の半分 三平方の定理の確認 + 3 = + 3 = 4 正三角形の半分 三平方の定理の確認
三角関数の復習 P cos θ O sin θ θ 原点を中心に半径 の円を描く 中心角が θ の時の円上の点 P の座標 cos θ, sin θ で三角関数を定義 cos θ 90 < θ < 70 の時 cos θ は負になる 次の公式も成り立つ sin 80 θ = sin θ cos 80 θ = cos θ 他にもさまざまな公式 どんな角度でも使えるように三角比を拡張したものが三角関数
cos θ, sin θ 3 0,, + +, + 90 0 0 0 3, 0, +,
0 θ 80 と cos θ の対応表 強い負の相関 弱い負の相関 無相関 弱い正の相関 強い正の相関 θ 80 50 35 0 90 60 45 30 0 cos θ 3 3 0 cos θ.000 0.866 0.707 0.500 0.000 0.500 0.707 0.866.000 θ = 80 cos θ = θ = 50 cos θ = 0.866 θ = 35 cos θ = 0.707 θ = 0 cos θ = 0.5 θ = 90 cos θ = 0 強い負の相関 θ = 60 cos θ = 0.5 45 や 35 の相関 ±0.7 が強い弱いの中間 θ = 45 cos θ = 0.707 弱い負の相関 θ = 30 cos θ = 0.866 θ = 0 cos θ = 無相関 弱い正の相関 強い正の相関
相関の強さの 3 段階評価 θ cos θ cos θ( 小数 ) 0.000 30 3 0.866 60 0.500 90 0 0.000 強い相関がある 相関がある 殆ど相関はない
90 0, 0 θ,0 cos θ, sin θ
相関の強さの 4 段階評価 θ cos θ cos θ( 小数 ) 0.000.5 + 45 67.5 0.94 0.707 0.383 90 0 0.000 強い相関があるかなり相関があるやや相関がある殆ど相関はない
90 0, 0 θ,0 cos θ, sin θ
一次変換と相関係数
ҧ データの一次変換と相関係数 データxを次の式でuに一次変換 u i = ax i + b, തu = ax ҧ + b, s u = a s x, s u = a s x データyを次の式でvに一次変換 v i = cy i + d, v = c തy + d, s v = c s y, s v = c s y u と v の共分散 n s uv = n i= u i തu n v i v ҧ = n i= ax i + b axҧ b cy i + d c തy d n n ax i axҧ x i xҧ y i തy = acs xy = n i= u と v の相関係数 r uv = s uv s u s v = a a c c cy i c തy = ac n i= s xy s x s y = a の符号 c の符号 r xy = ±r xy a a は a の符号を表す a = の時, a a = = = + a = 3 の時, a a = 3 3 = 3 3 = 一次変換しても相関係数の大きさは変換前と変わらない a, c 同符号なら符号は変換前の符号と変わらない a, c 逆符号なら符号は変換前の符号の逆になる
データの標準化と相関係数 データxを次の式で標準化 (Z 値に変換 ) u i = x i xҧ, തu = 0, s s u =, s u = x データyを次の式で標準化 (Z 値に変換 ) v i = y i തy, v ҧ = 0, s s v =, s v = y 標準化後の相関係数 r uv = s uv s u s v = s uv = r xy s u =, s v = なので共分散と相関係数の値が同じになる s x, s y は両方共に正符号なので相関係数の符号も変わらない
統計関連の Excel 関数
合計, 平均, データ数の Excel 関数 SUM 合計を返す Excel 関数 n i= AVERAGE 算術平均を返す Excel 関数 n i= COUNT 数値が入っているセル数 ( データ数 ) を返すExcel 関数 n x i x i
分散の Excel 関数 分散は英語でvariance VAR.P (VARP Excel007 以前は関数名が違う ) 母集団 ( 全数調査 ) の分散を返す関数 n x i xҧ i= VAR.S (VAR Excel007 以前 ) 標本 ( 標本調査 ) 不偏分散を返す関数 n n n i= x i xҧ P は母集団の英語 Population を意味する S は標本の英語 Sample を意味する 標本調査の時は n ではなく,n で割らなければ標本から母集団の分散を正しく推定ができない. 母集団の分散を偏りなく推定した量を不偏分散という.( 統計検定 級以降 )
標準偏差の Excel 関数 標準偏差は英語で standard deviation STDEV.P (STDEVP Excel007 以前 ) 母集団 ( 全数調査 ) の標準偏差を返す関数 n n i= x i xҧ STDEV.S (STDEV Excel007 以前 ) 標本 ( 標本調査 ) の不偏標準偏差を返す関数 n n i= x i xҧ
共分散の Excel 関数 共分散は英語で covariance COVARIANCE.P (COVAR Excel007 以前 ) 母集団 ( 全数調査 ) 共分散を返す関数 n n x i xҧ y i തy i= COVARIANCE.S (Excel007 以前はこれに対応する関数はない ) 標本 ( 標本調査 ) 共分散を返す関数 n n i= x i xҧ y i തy
相関係数の Excel 関数 CORREL 相関係数は英語で correlation coefficient n σ n i= x i xҧ y i തy r = n σ n i= x i xҧ n σ n i= y i തy 標本調査の場合 n ではなく n を使わなければならないが, 分母分子で相殺する部分なので, 標本調査の場合でも同じ関数を使えば良い.