1/X Chapter 9: Linear correlation Cohen, B. H. (2007). In B. H. Cohen (Ed.), Explaining Psychological Statistics (3rd ed.) (pp. 255-285). NJ: Wiley.
概要 2/X 相関係数とは何か 相関係数の数式 検定 注意点 フィッシャーのZ 変換 信頼区間 相関係数の差の検定
相関係数とは何か 3/X 二つの変数それぞれの 集団内での相対的位置 を求めたときの, 二つの変数間の直線的関係を表す指標 二変数をそれぞれzスコア化すると, 両変数のzスコアがどれだけ対応するか, と簡単に定義できる 完全な正の相関のとき, 集団内の個人は2つの変数で同じzスコアを取る 完全な相関 = 一方の変数でもう一方を完全に予測
相関係数の数式 4/X 相関係数の式として, 様々な変形式が用いられてきた 手計算を簡単にするための式 式の表すものを捉えやすい式
相関係数の数式 5/X 本文には書かれていないが, 一般的には以下 1/(N-1) は 1/N でも OK どうせ分母と分子で打ち消される http://www.weblio.jp/content/%e3%83%94%e3%82%a2%e3%82 %BD%E3%83%B3%E3%81%AE%E7%A9%8D%E7%8E%87%E7%9 B%B8%E9%96%A2%E4%BF%82%E6%95%B0
相関係数の数式 6/X 共分散を見ることで, どのようなときにrの値が正 ( 負 ) になることに貢献するのかわかる Ai = (Xi - Xの平均 )(Yi - Yの平均 ) 共分散 = 1/N * Σ Ai Ai < 0 Ai > 0 Ai > 0 Ai < 0 X の平均値 平均値を基準に 4 区画 ( 象限 ) に分けたとき, 右上 左下は 正 に, 右下 左上は 負 の相関係数に貢献 Y の平均値
相関係数の検定 7/X
相関係数の検定 8/X 母相関係数 ρ=0とした場合のrの分布はどのようなものか (= 帰無分布 ) をまず考える 統計学的に,ρ=0でサンプルサイズが十分に大きい時, 分布は平均 0, 標準誤差が1/ Nとなることが分かっている サンプルサイズが十分に大きくないときには, 標準誤差は以下の式となる (p170)
相関係数の検定 9/X そして相関係数の有意性は以下の t 値から求め ることができる (p271) ρ0は0なので, 式変形後, 式 9.6が一般的に知られるt 値の式である
相関係数の検定 10/X rの臨界値を求める 自由度 ( とα) の関数 t 値を求めて検定はするものの,t 値はrとNの関数なので, 臨界値をrの値から求めることができる Table A.5
相関係数の検定 11/X 相関係数の自由度は N-2 r = 1 なぜなのか N=2で相関を計算すると何が起きるか 直線は必ず2 点を通れるので,rの絶対値が1(= 一方の変数でもう一方の変数が完全に予測可能 ) に つまり, このときの相関係数は母相関係数について何の情報も与えない 仮に自由度を母相関係数についての情報量だとすると,N-2が自由度というのは直観的に理解可能
相関係数の注意点 1 12/X 相関係数の解釈には注意が必要 線形の関係しか捉えられない 二次関数的関係は捉えられない Fig.9.3, 9.4
相関係数の注意点 2 13/X 限定された母集団 母相関係数 :ρ( ロー ) 母集団全体からランダムサンプリングすれば,rは ρをバイアスなく測定するが, 大抵は, サンプルの範囲が限定されているなどによって, バイアスを受ける 切断効果
相関係数の注意点 2 14/X 切断効果 Fig.9.5 変数の分散が限定されることで, 母集団には存在する相関関係が歪められること 多くの場合は, 相関が小さくなる 母集団の分布が曲線の場合には, 強くなる場合がある
15/X 本来はもっとサンプルに分散があって, 上記のように分布していたかもしれない
相関係数の注意点 3 16/X 外れ値の影響を強く受ける 相関係数は外れ値の影響を強く受ける 特に, 両方の変数が外れ値になる値 (bivariate outliers) の影響が大きい 図 9.6では, 元々強い負の相関だった者が, 若干正の相関になってしまう
相関係数の注意点 4 17/X 相関は因果を意味しない 因果が逆であったりする 運動するから元気なのか, 元気な人が運動しているのか 第三変数 楽天的だから運動もして元気 この場合にも, 運動と元気の間には相関が生じる このことは,2 群の実験でも同じことである 運動群と非運動群を分けても, そこに第三変数である楽天的な傾向の介在は防げていない ( 群分けではなくて, 運動量を 操作 すれば別 )
相関係数の注意点 5 18/X 相関係数のインフレ? 先ほど述べたように,N=2のとき,rが必ず1になるという相関係数のインフレが起こる しかしこれは,N=3, N = 11のときでも, 本来は r=0となるはずの期待値が,rの期待値は (1/(N- 1)) で与えられるので, それぞれ0.707, 0.316となるという形で残る なにぃっ!? っと思ってシミュレーションしてみた
シミュレーション 19/X 相関係数が大体 0 になる分布を生成 N = 10000 r = -0.006538254 これを母集団と見なす ここから n ずつサンプリングして, 相関係数を計算 それを 100 回くり返した平均相関係数をプロット y -4-2 0 2 4-2 0 2 x
平均相関係数frame2 0.0 0.2 0.4 0.6 0.8 1.0 ρ = 0 あれ? ばらつきは大きいけど別にバイアスはないような どうも,r を絶対値にしたときの話らしい (p272) 0 20 40 60 80 100 vec n = サンプルサイズ 20/X
平均相関係数シミュレーション 21/X ここから,nの数ずつサンプリングして, 相関係数を計算 それを100 回くり返した平均相関係数の絶対値をプロットする ρ = 0 frame2 0.0 0.2 0.4 0.6 0.8 1.0 0 20 40 60 80 100 vec n = サンプルサイズ
シミュレーション 22/X つまり, 自分に都合の良い相関係数のときだけ論文中に取り上げて議論してしまった場合には, 上記のバイアスをモロに受ける サンプルサイズが少ないと, 母相関係数とはかなりズレた相関係数が得られる
相関係数の注意点 6 23/X 相関係数の前提 独立無作為サンプリング どちらの変数も正規分布 二変量正規分布 (bivariate normal distribution) ただしサンプルサイズが大きい時には,2 変数の正規分布の仮定はそれほど重要ではなくなる
相関係数の検定力分析 24/X 相関係数の検定についても検定力を求めることができる 基本は独立な二群の平均値差の検定と同じ ただし,t 値とr 値を混同しないこと 前者は効果量とサンプルサイズに依拠し, 後者は効果量そのもの
相関係数の検定力分析 25/X 検定力分析をするためには,t 検定のときのように,δ( 前はtの期待値であった ) が必要である これは, 母相関係数 ρに (N-1) をかけたものである 式 9.7
相関係数の検定力分析 26/X 必要な参加者数を求める場合 ( 式 9.8) Table A.3 を用いる 検定力が 85% 欲しいならば,δ は 3.00 必要で, そのためには N は 74.5 必要だとわかる (p279)
フィッシャーの Z 変換 27/X ρ = 0のとき, 分布はほぼ正規分布に近似することができる しかし例えばρ =.8のとき, 1 以上の値が取れないため, 分布が歪む これを修正するのがフィッシャーのZ 変換 Table A.6を用いる Zに変換すれば,zスコアと同様の扱いができ, 検定や信頼区間を出すのに便利
相関係数の信頼区間 28/X 1. rをzに変換して正規分布するようにする 2. 信頼水準を決める 95% 3. zの95% 信頼水準の臨界値は絶対値 1.96 4. Zの標準誤差をこの式で計算する 5. 臨界値と標準誤差の積に Z を足す ( 引く ) 6. それぞれの値が信頼区間の上限と下限になる
相関係数の信頼区間 29/X さらに, ここで計算された値はあくまでもZ の値なので, これをrに再変換する これにも表 A.6 を使えば良い
相関係数の検定 30/X 特定の相関係数よりも大きいか小さいかの検定は,ρ = 0 以外の帰無分布を考えるので, 本来は分布の歪みを考えなくてはならない しかしフィッシャーのZ 変換を用いたz 検定を行うことで対応することができる 以下の式でzを計算し, 検定にかける
相関係数の検定 31/X 相関係数の差の検定 さきほどの検定を応用できる この式で z を出す 式 9.11 ただしこれは独立の 2 群間の r の差を検定する場合 独立でない場合には,Howell (2007) の方法を用いる