2 散布図を書く意義 1) 視覚的にどんな関係かを考えることができる 2つの変数間の関係をどう表現するか 1 直線的関係 2 2 次関数 3 指数 対数 双曲線など 4 その他今回の授業では直線的関係についてしか学ばないが,2つの変数間の関係を曲線で表す方がよい場合も多い. 2) 異常値などを発見で

Similar documents
<4D F736F F D208EC08CB18C7689E68A E F1918A8AD695AA90CD2E646F63>

<4D F736F F D2090B695A8939D8C768A E F1918A8AD695AA90CD>

<4D F736F F D2090B695A8939D8C768A E F AA957A82C682948C9F92E8>

<4D F736F F D208EC08CB18C7689E68A E F AA957A82C682948C9F92E82E646F63>

<4D F736F F D208EC08CB18C7689E68A E F1939D8C E82E646F63>

EBNと疫学

Microsoft PowerPoint - e-stat(OLS).pptx

スライド 1

第 3 回講義の項目と概要 統計的手法入門 : 品質のばらつきを解析する 平均と標準偏差 (P30) a) データは平均を見ただけではわからない 平均が同じだからといって 同一視してはいけない b) データのばらつきを示す 標準偏差 にも注目しよう c) 平均

統計的データ解析

基礎統計

<4D F736F F D208EC08CB18C7689E68A E F193F18D8095AA957A C C839395AA957A814590B38B4B95AA957A2E646F63>

Microsoft PowerPoint - データ解析基礎4.ppt [互換モード]

ビジネス統計 統計基礎とエクセル分析 正誤表

情報工学概論

スライド 1

Medical3

Microsoft Word - appendix_b

Microsoft PowerPoint - sc7.ppt [互換モード]

Microsoft Word - apstattext04.docx

Microsoft PowerPoint ppt

PowerPoint プレゼンテーション

Microsoft Word - Stattext12.doc

Microsoft PowerPoint - statistics pptx

多変量解析 ~ 重回帰分析 ~ 2006 年 4 月 21 日 ( 金 ) 南慶典

Microsoft PowerPoint - R-stat-intro_04.ppt [互換モード]

タイトルを修正 軸ラベルを挿入グラフツール デザイン グラフ要素を追加 軸ラベル 第 1 横 ( 縦 ) 軸 凡例は削除 横軸は, 軸の目盛範囲の最小値 最 大値を手動で設定して調整 図 2 散布図の仕上げ見本 相関係数の計算 散布図を見ると, 因果関係はともかく, 人口と輸送量の間には相関関係があ

Microsoft Word - mstattext02.docx

Microsoft PowerPoint - stat-2014-[9] pptx

Microsoft PowerPoint - 統計科学研究所_R_重回帰分析_変数選択_2.ppt

13章 回帰分析

Microsoft PowerPoint - 基礎・経済統計6.ppt

講義「○○○○」

相関分析・偏相関分析

<4D F736F F D208EC08CB18C7689E68A E F193F18D8095AA957A C C839395AA957A814590B38B4B95AA957A2E646F63>

Kumamoto University Center for Multimedia and Information Technologies Lab. 熊本大学アプリケーション実験 ~ 実環境における無線 LAN 受信電波強度を用いた位置推定手法の検討 ~ InKIAI 宮崎県美郷

1.民営化

目次 1 章 SPSS の基礎 基本 はじめに 基本操作方法 章データの編集 はじめに 値ラベルの利用 計算結果に基づく新変数の作成 値のグループ化 値の昇順

第4回

スライド 1

314 図 10.1 分析ツールの起動 図 10.2 データ分析ウィンドウ [ データ ] タブに [ 分析 ] がないときは 以下の手順で表示させる 1. Office ボタン をクリックし Excel のオプション をクリックする ( 図 10.3) 図 10.3 Excel のオプション

第7章

Microsoft Word - Stattext13.doc

初めてのプログラミング

Microsoft PowerPoint - statistics pptx

データ解析

ダンゴムシの 交替性転向反応に 関する研究 3A15 今野直輝

Medical3

参考1中酪(H23.11)

RSS Higher Certificate in Statistics, Specimen A Module 3: Basic Statistical Methods Solutions Question 1 (i) 帰無仮説 : 200C と 250C において鉄鋼の破壊応力の母平均には違いはな

Microsoft Word - å“Ÿåłžå¸°173.docx

青焼 1章[15-52].indd

CAEシミュレーションツールを用いた統計の基礎教育 | (株)日科技研

基礎統計

横浜市環境科学研究所

JMP による 2 群間の比較 SAS Institute Japan 株式会社 JMP ジャパン事業部 2008 年 3 月 JMP で t 検定や Wilcoxon 検定はどのメニューで実行できるのか または検定を行う際の前提条件の評価 ( 正規性 等分散性 ) はどのメニューで実行できるのかと

経営統計学

統計学 Ⅱ( 章 ( 区間推定のシミュレーション 母平均 μ の区間推定 X ~ N, のとき X T ~ 自由度 1の t分布 1 自由度 -1のt 分布の97.5% 点 :t.975 P t T t この式に T を代入する t.975 母集団

目次 1. はじめに Excel シートからグラフの選択 グラフの各部の名称 成績の複合グラフを作成 各生徒の 3 科目の合計点を求める 合計点から全体の平均を求める 標準偏差を求める...

Microsoft PowerPoint - Econometrics pptx

Python-statistics5 Python で統計学を学ぶ (5) この内容は山田 杉澤 村井 (2008) R によるやさしい統計学 (

自動車感性評価学 1. 二項検定 内容 2 3. 質的データの解析方法 1 ( 名義尺度 ) 2.χ 2 検定 タイプ 1. 二項検定 官能検査における分類データの解析法 識別できるかを調べる 嗜好に差があるかを調べる 2 点比較法 2 点識別法 2 点嗜好法 3 点比較法 3 点識別法 3 点嗜好

ファイナンスのための数学基礎 第1回 オリエンテーション、ベクトル

Excelによる統計分析検定_知識編_小塚明_1_4章.indd

Microsoft PowerPoint - statistics pptx

<4D F736F F D208D A778D5A8A778F4B8E7793B CC A7795D2816A2E646F6378>

学習指導要領

Microsoft PowerPoint - R-stat-intro_12.ppt [互換モード]

統計学 - 社会統計の基礎 - 正規分布 標準正規分布累積分布関数の逆関数 t 分布正規分布に従うサンプルの平均の信頼区間 担当 : 岸 康人 資料ページ :

母平均 母分散 母標準偏差は, が連続的な場合も含めて, すべての個体の特性値 のすべての実現値 の平均 分散 標準偏差であると考えてよい 有限母集団で が離散的な場合, まさにその意味になるが, そうでない場合も, このように理解してよい 5 母数 母集団から定まる定数のこと 母平均, 母分散,

テレビ学習メモ 数学 Ⅰ 第 40 回 第 5 章データの分析 相関係数 監修 執筆 湯浅弘一 今回学ぶこと データの分析の最終回 今までの代表値を複合し ながら 2 種類のデータの関係を数値化します 相関係数は 相関がどの程度強いのかを表しています 学習のポイント 12 種類のデータの相関関係を

切片 ( 定数項 ) ダミー 以下の単回帰モデルを考えよう これは賃金と就業年数の関係を分析している : ( 賃金関数 ) ここで Y i = α + β X i + u i, i =1,, n, u i ~ i.i.d. N(0, σ 2 ) Y i : 賃金の対数値, X i : 就業年数. (

PowerPoint プレゼンテーション

消費 統計学基礎実習資料 2017/11/27 < 回帰分析 > 1. 準備 今回の実習では あらかじめ河田が作成した所得と消費のファイルを用いる 課題 19 統計学基礎の講義用 HP から 所得と消費のファイルをダウンロードしてみよう 手順 1 検索エンジンで 河田研究室 と入力し検索すると 河田

Microsoft PowerPoint - ch04j

Excelによるデータ分析

Microsoft Word - 操作マニュアル-Excel-2.doc

Microsoft Word - Excel2.doc

不偏推定量

森林水文 水資源学 2 2. 水文統計 豪雨があった時, 新聞やテレビのニュースで 50 年に一度の大雨だった などと報告されることがある. 今争点となっている川辺川ダムは,80 年に 1 回の洪水を想定して治水計画が立てられている. 畑地かんがいでは,10 年に 1 回の渇水を対象として計画が立て

スライド タイトルなし

2. 時系列分析 プラットフォームの使用法 JMP の 時系列分析 プラットフォームでは 一変量の時系列に対する分析を行うことができます この章では JMP のサンプルデ ータを用いて このプラットフォームの使用法をご説明します JMP のメニューバーより [ ヘルプ ] > [ サンプルデータ ]

はじめに Excel における計算式の入力方法の基礎 Excel では計算式を入力することで様々な計算を行うことができる 例えば はセルに =SQRT((4^2)/3+3*5-2) と入力することで算出される ( 答え ) どのような数式が使えるかは 数式

0415

データの整理 ( 度数分布表とヒストグラム ) 1 次元のデータの整理の仕方として代表的な ものに度数分布表とヒストグラムがあります 度数分布表観測値をその値に応じていくつかのグループ ( これを階級という ) に分類し 各階級に入る観測値の数 ( これを度数という ) を数えて表にしたもの 2

経済統計分析1 イントロダクション

(3) 検定統計量の有意確率にもとづく仮説の採否データから有意確率 (significant probability, p 値 ) を求め 有意水準と照合する 有意確率とは データの分析によって得られた統計値が偶然おこる確率のこと あらかじめ設定した有意確率より低い場合は 帰無仮説を棄却して対立仮説

目次 はじめに P.02 マクロの種類 ---

Microsoft Word - Stattext11.doc

平均値 () 次のデータは, ある高校生 7 人が ヵ月にカレーライスを食べた回数 x を調べたものである 0,8,4,6,9,5,7 ( 回 ) このデータの平均値 x を求めよ () 右の表から, テレビをみた時間 x の平均値を求めよ 階級 ( 分 ) 階級値度数 x( 分 ) f( 人 )

13章 回帰分析

モジュール1のまとめ

Microsoft PowerPoint - 測量学.ppt [互換モード]

Microsoft PowerPoint - Statistics[B]

ANOVA

カイ二乗フィット検定、パラメータの誤差

学習指導要領

_KyoukaNaiyou_No.4

Microsoft PowerPoint - データ解析基礎2.ppt

Microsoft PowerPoint slide2forWeb.ppt [互換モード]

Transcription:

第 12 回相関分析 教材 _ 散布図の意義 2013 を予習しながら空所を埋めておくこと A.2つの変数間の関係を調べる 1. 散布図を書く例 1 水稲の収量に関連のある生育指標を知りたい. 例えば草丈と収量には関連があるだろうか? 例 2 トマトの糖度は施肥量によってどのように変化するかを知りたい. 例えば, 窒素施肥量を増加させると糖度はどうなるか? 1 散布図の書き方 1)x 軸 ( 横軸 ) には原因となる変量を, y 軸 ( 縦軸 ) には結果となる変量をとる. 2) できるだけ点が図全体にばらつくように軸の上下限を決める. 1

2 散布図を書く意義 1) 視覚的にどんな関係かを考えることができる 2つの変数間の関係をどう表現するか 1 直線的関係 2 2 次関数 3 指数 対数 双曲線など 4 その他今回の授業では直線的関係についてしか学ばないが,2つの変数間の関係を曲線で表す方がよい場合も多い. 2) 異常値などを発見できる異常値を除去すると,2つの変数間に相関関係が変わることがある. 3) 異なるグループを比較したり, 異なるグループに分けられることをみつけたりできる コンピューターを使えば, 与えられたデータにいかような関係でも簡単に当てはめられることができる. しかし, その当てはめがいつでも正しいとは限らない. 必ず図に書いてから解析を始めるように心がけなければならない. 2

グラフ ( 散布図 ) の書き方 1 最初に横軸 (x) と縦軸 (y) となる数値データを選択する. ふつうは横軸を左側, 縦軸を右側にしたデータセットを準備すればよい. 2 挿入 散布図散布図のメニューから適切なパターンを選ぶ. 3 必要に応じて, できたグラフを加工する. 右のグラフでは点がグラフ全体にばらついていないので, 傾向が読み取りにくいから, 縦軸と横軸の範囲 ( 最大値, 最小値 ) を修正する. 4 軸上で右クリックしてメニューを出す. 軸の書式設定を選ぶ. 最大値と最小値を指定する. 3

5 右のようなグラフができる. 6 軸ラベルを入れる. 横軸と縦軸の項目名を入れる. グラフツール レイアウト 軸ラベルを選び, 主横軸ラベルあるいは主縦軸ラベルを選ぶ. 軸ラベルをなしにするか軸のどちらかに配置するかを選べる. 7 複数のグループについて散布図を書きたいときは下の表のようにデータを入力すると作れる. 風速 Aの発電量 Bの発電量 Cの発電量 7.5 64.5 6.8 60.8 5.3 26 6.4 36.4 4.6 21.6 7.9 59.6 8.4 55.9 2.2 12.7 1.3 1.7 7.1 99.8 4.2 49.7 3.8 47.1 5.3 60.3 6.3 75.2 7.9 102.2 7.6 86.5 2.4 38.6 1 17.5 5.1 16.9 6.8 98.6 7.5 179.1 6.2 78.1 5.1 45.9 6.8 105.4 3.6 25.4 2.1 15.3 1.4 11.5 4

予習問題 羊の胴回り (cm) 体重 (kg) 右のデータは 20 頭の羊について胴回りと体重を測定したデータ 125.5 37.2 である. 散布図を書け 130 46.3 150.5 71.4 151.5 70.6 132 57.8 152.5 69 125 34.7 141 60.8 131 47 124.5 38.9 146 55.8 123 29.8 125 37.5 148.5 57.4 145.5 59 教材 _ 相関と回帰 2013 を予習しながら空所を 129.5 44.4 137.5 55.4 埋めておくこと 146.5 67.2 B. 相関と回帰 135 55.6 142 59.8 1. 相関と回帰の違い 2つの変量 ( x, y ) の関係について, x, y ともに正規分布にしたがってばらつく量である ときには両者の直線的な関係を相関という. 一方, x については指定できる変数 ( 独立変数という ) であり, y が指定された x に対して, あるばらつきを含んで決まる場合, 回帰という. 相関では両変数間の関連の度合いを相関係数で評価することを主な目的とする. 回帰では相関係数で評価することもできるが, 主たる目的は両変数間の数的関係を回帰直線で表し, ある x が指定されたときに y がいくつになるかを求めることである. 2. 相関と回帰の例兄弟の身長について考える. 兄の身長と弟の身長それぞればらつきのある変数であり, 兄の身長を指定しても, そのことで弟の身長が決まるとは考えられない. したがって, 兄弟の身長は相関である. しかし, 父と子の身長を考えると, 遺伝的な要因から父の身長は子の身長に影響を及ぼしているであろう. 父の身長を指定するとあるばらつきを持って, 子の身長が決まると考えられる. 父と子の身長は回帰分析できる. 父と子の身長はともに正規分布するので相関分析もできる. 次に食事で得た蛋白質の量と身長の関係を考えよう. 蛋白質の量を決めればあるばらつきを持って身長が決まるから, 回帰分析できる. この場合は蛋白質の量は指定でき, 正規分布しないので, 相関分析は不適当である. 5

予習問題次の例は相関か回帰か? 例兄の身長と弟の身長例父の身長と子の身長例摂取タンパク質量と身長最高気温と最低気温身長と体重飼料中の脂肪含量と牛の乳脂肪率テレビを見る時間と血圧テレビを見る時間とエンゲル係数塩分摂取量と血圧 C. 相関 1. 相関係数 r 2つの変数間の直線的な関係 ( 相関関係 ) は相関係数 r によって定量的に示すことができる. 相関係数 r には以下の性質がある 1 1 r 1である. 2 r が 1 に近いほど正の相関が強く,-1 に近いほど負の相関が強い. 3 r が 0 に近いときは, 両変数間には相関がない ( 無相関 ). r 0.5 8 6 4 r 0.9 6 4 r 0 5 4 3 2 1 0-5 -4-3 -2-1 0 1 2 3 4 5-1 -2-3 -4-5 2 0-5 -4-3 -2-1 0 1 2 3 4 5-2 -4-6 -8 8 6 4 2 r 0.5 0-5 -4-3 -2-1 0 1 2 3 4 5-2 2 0-5 -4-3 -2-1 0 1 2 3 4 5-2 -4-6 -8 8 6 4 2 r 0.9-5 -4-3 -2-1 0 1 2 3 4 5 0-4 -2 y -6-8 -4-6 6

相関係数は2 変数の間に直線的な関係があるかだけを評価する. したがって,2 次曲線のような関係があっても相関係数 r はほとんど 0 かもしれない. 相関係数の計算方法 ( 右のデータについて ) 1 関数を使う方法 2 分析ツールを使う方法 1 月 2 月 3 月 4 月 5 月 6 月 7 月 8 月 9 月 10 月 11 月 12 月相関表の作成オスロ -7.5-7.8-2.7 2.7 9 14 15.2 13.9 9.4 4.4-1.4-5.1 ロンドン 3.6 4.1 5.6 7.9 11.1 14.3 16.1 15.9 13.7 10.7 6.4 4.4 パリ 3.3 4 6.6 9.6 13.3 16.4 18.2 17.8 15.3 11.2 6.6 4.3 リヨン 2.4 4 7.1 10.3 14.4 17.9 20.3 19.5 16.4 11.5 6.5 3.1 マルセイユ 6.3 7.3 10 12.9 16.9 20.7 23.3 22.7 19.8 15.3 10.3 7.2 マドリード 5.8 7 9.8 12.3 16.2 20.2 24 23.3 19.8 14.2 9 6.2 ライプチヒ 0.6 1 4.3 6.8 12.3 16.1 17.4 17.7 14.1 8.6 4.3 1.9 ベルリン -0.2 0.5 3.8 8.5 13.6 17.6 18.7 18.2 14.5 9.8 4.8 1.5 ウイーン -0.8 1.1 4.9 10 14.5 18.1 19.7 19 15.3 9.9 4.9 1.1 ローマ 7.9 8.8 10.5 13.2 17.2 21.2 23.6 23.8 20.9 16.3 12.3 9 アテネ 9.4 10.1 11.6 15.1 20.1 24.6 27.1 27.1 23.3 18.3 14.5 11.2 イスタンブール 5.6 6.1 7.2 11.5 16.4 20.9 23.2 23.2 19.6 15.4 11.8 8.1 モスクワ -9.5-8.4-3.3 5.1 12.4 16.8 18.4 16.5 10.9 4.8-1.7-6 ハバロフスク -21.5-17.6-7.7 3.3 11.6 17.5 20.9 19.4 13.4 4.4-8.1-18 キエフ -5.3-4.6 0 8.3 14.7 18.5 19.7 18.7 13.7 7.9 1.9-2.2 バグダッド 10.1 12.6 16.5 22.5 28.2 33 35.1 34.7 31.1 24.6 16.8 10.9 テヘラン 3.2 5.7 10.3 15.8 21.9 26.6 29.4 28.5 24.8 18.4 10.5 5.3 カブール -1.7-0.7 5.9 12.9 17.6 22.8 24.7 24.3 19.4 13.3 6.1 1 ニューデリー 14.2 17.2 22.7 28.9 32.8 33.8 31 29.6 29.2 26.2 20.5 15.7 香港 15.6 15.9 18.4 22.1 26 27.7 28.6 28.2 27.5 25 21.3 17.6 台北 14.8 15.5 17.8 21.3 24.9 26.9 28.6 28.6 27 23.4 20.7 17.3 バンコク 26.2 27.7 29.2 30.3 29.7 29.1 28.7 28.5 28.1 28 27.1 26 シンガポール 25.6 26.1 26.6 27 27.3 27.2 26.9 26.8 26.7 26.6 26.1 25.6 ハルピン -19.7-15.8-4.8 6.5 14.7 20 22.5 21.2 14.2 5.8-6.2-16 北京 -4.6-2 4.4 13.2 19.9 24.2 25.9 24.4 19.4 12.5 4-2.4 カサブランカ 12.7 13.2 14.6 15.7 18.1 20.3 22.2 22.4 21.5 19.3 15.9 12.9 アレクサンドリア 13.6 14.5 16.1 18.7 21.5 24.6 26.2 26.8 25.4 22.7 19.1 15.3 バンクーバー 2.5 4.6 5.8 8.8 12.2 15 17.3 17.1 14.2 10 5.9 3.9 ニューヨーク 0 0.7 4.9 11 16.5 21.7 24.7 24 20.2 14.2 8.4 2.3 7

相関表 1 月 2 月 3 月 4 月 5 月 6 月 7 月 8 月 9 月 10 月 11 月 12 月 1 月 1 2 月 0.99575 1 3 月 0.96577 0.982254 1 4 月 0.861052 0.894016 0.957585 1 5 月 0.73656 0.778698 0.869926 0.970894 1 6 月 0.611894 0.658274 0.763486 0.900071 0.972926 1 7 月 0.543962 0.591593 0.691717 0.826939 0.912355 0.973028 1 8 月 0.609646 0.652633 0.73907 0.848102 0.913614 0.963821 0.992478 1 9 月 0.782126 0.817058 0.880832 0.937139 0.950276 0.9453 0.939502 0.964016 1 10 月 0.903176 0.926247 0.964149 0.970381 0.931035 0.872846 0.831907 0.871033 0.9675 1 11 月 0.977377 0.983341 0.982308 0.928769 0.842061 0.744895 0.68625 0.742259 0.883394 0.96859 1 12 月 0.997627 0.993263 0.966724 0.8728 0.756352 0.635706 0.566561 0.630706 0.797729 0.914662 0.985023 1 予習問題 10 品種のアズキの種子について, 長径, 幅径, 厚径, 粒重を測定した結果, 右のデータを得た. 相関表を作れ. 長径 (mm) 幅径 (mm) 厚径 (mm) 粒重 (g) 品種 A 6.27 4.92 4.58 1093.1 品種 B 6.30 5.31 5.21 1313.4 品種 C 7.30 5.23 4.81 1494.7 品種 D 7.12 5.31 4.80 1399.8 品種 E 6.39 5.06 4.87 1171.9 品種 F 5.52 3.85 3.65 689.4 品種 G 7.12 5.58 5.16 1540.7 品種 H 6.59 5.01 4.80 1218.6 品種 I 6.66 5.33 5.16 1456.0 品種 J 6.80 5.32 5.25 1473.9 教材 _ 相関係数に関する統計的推定と検定 2013 を予習しながら空所を埋めておくこと 2. 相関係数に関する推定と検定 1 推定相関係数 r は集めてきたデータ ( 標本 ) から求めたものであるから, 統計量である. 母集団の相関係数である母相関係数 を r から区間推定することができる. なお母相関係数 の点推定値は標本から得た相関係数 r と同じである. その前に母相関係数 が与えられたときに, 標本の相関係数 r はどのように分布するかをみてみよう. 右の図のように母相関係数 が 0 であるときには, その母集団から無作為に抽出した標本の相関係数は左右対称に分布する. しかし, 母相関係数が ±1 に近づくと著しくゆがんだ分布をする. そのため, 相関係数の区間推定値は点推定値 ± と表現はできない ( 分散, 標準偏差の区間推定と同じである ). 図相関係数の分布 8

次の例題で母相関係数 ρ の推定を行ってみよう. 例題右のデータは 20 頭の羊について胴回りと体重を測定したデータである.95% 信頼区間をつけて, 母相関係数を区間推定せよ. 母相関係数 ρの推定の手順 (1) 点推定 : ˆ r 羊の胴回り (cm) 体重 (kg) 125.5 37.2 130 46.3 150.5 71.4 151.5 70.6 132 57.8 152.5 69 125 34.7 141 60.8 131 47 124.5 38.9 146 55.8 123 29.8 125 37.5 148.5 57.4 145.5 59 129.5 44.4 137.5 55.4 146.5 67.2 135 55.6 142 59.8 (2) 区間推定 : 信頼率 p% のρの信頼区間は _ 授業用データ集のエクセルファイルにデータ (100 個以内 ) を入力すると, 下のように計算できる. 点推定値 ˆ 0. 931 すなわち 95% 信頼区間をつけた母相関係数の推定値は 0.831 0. 973 となる. 下の測定値に 100 以内のデータセットを入れると相関係数, 信頼率 p% のときの相関係数の区間推定, あるいは有意水準 p% のときに帰無仮説 : 母相関係数 =0( 無相関 ) とした場合の有意確率 p- 値を自動的に計算する. ただし測定値に値を誤入力したときは Del キーで削除すること. セルを移動させると式が変わってしまう. 標本番号 測定値 A 測定値 B 1 125.5 37.2 相関係数の区間推定 2 130 46.3 3 150.5 71.4 相関係数 0.93107998 4 151.5 70.6 5 132 57.8 6 152.5 69 信頼率 % 95 % 7 125 34.7 8 141 60.8 相関係数上限 0.972789749 9 131 47 相関係数下限 0.830914418 10 124.5 38.9 11 146 55.8 12 123 29.8 相関係数の検定 13 125 37.5 14 148.5 57.4 有意確率 p- 値 2.59012E-09 15 145.5 59 16 129.5 44.4 17 137.5 55.4 18 146.5 67.2 19 135 55.6 20 142 59.8 9

予習練習右のデータは 20 個のジャガイモについて重量と芽の数を測定したデータである.95% 信頼区間をつけて, 母相関係数を区間推定せよ. ρ 重量 (g) 芽の数 ( 個 ) 121.68 8 123.62 10 120.84 9 125.59 11 113.39 6 132.47 10 123.11 11 127.02 13 126.17 12 121.11 6 131.58 10 122.45 8 137 9 117.47 12 155.34 7 129.81 9 132.92 12 142.46 9 136.88 11 138.77 9 予習練習右のデータは 20 匹のミミズについて長さと重さを測定したデータである.99% 信頼区間をつけて, 母相関係数を区間推定 ミミズの長さ (cm) ミミズの重さ (g) 9.7 0.973 7.4 0.421 せよ. 10.2 0.453 6.9 0.412 9.3 0.453 10.5 1.093 4.2 0.231 ρ 5.3 0.621 10.2 0.593 5.3 0.193 9.7 0.942 4.5 0.132 7.8 0.695 6.3 0.823 5.4 0.621 10.3 0.741 7.2 0.632 3.4 0.348 7.2 0.731 2 検定 5.6 0.554 母相関係数 ρに関する検定は, たいていの場合, 帰無仮説 H 0 :ρ=0, 対立仮説 H 1 :ρ 0 とする無相関の検定である (2つの変数間に相関がないという帰無仮説を検定する). 帰無仮説 : 両変数間には相関がない. 母相関係数 ρ=0 対立仮説 : 両変数間には相関がある. 母相関係数 ρ 0 帰無仮説が棄却されたときは両変数間には相関があると結論できる. 帰無仮説が棄却できなかったときは両変数間には相関があるとはいえないと結論できる. 母集団の母相関係数 ρ=0 のときでも, そこから無作為に取り出した標本の相関係数が 0.5 程 度のかなり大きな値となることもよくある. 10

例題右のデータは 20 頭の羊について胴回りと体重を測定したデータである. 有意水準 5% で相関の有無を検定せよ. 帰無仮説 : 両変数間には相関がない. 母相関係数 ρ=0. 母集団に相関がない. 対立仮説 : 両変数間には相関がある. 母相関係数 ρ 0. 母集団に相関がある. 相関の有無に関する検定は _ 授業用データ集のエクセルファイルにデータ (100 個以内 ) を入力すると, 以下のように計算できる. 羊の胴回り (cm) 体重 (kg) 125.5 37.2 130 46.3 150.5 71.4 151.5 70.6 132 57.8 152.5 69 125 34.7 141 60.8 131 47 124.5 38.9 146 55.8 123 29.8 125 37.5 148.5 57.4 145.5 59 129.5 44.4 137.5 55.4 146.5 67.2 135 55.6 142 59.8 p- 値は2.59 10-9 となるので,0.1% の有意水準で帰無仮説を棄却でき, 相関があると認められる. 標本番号 測定値 A 測定値 B 1 125.5 37.2 相関係数の区間推定 2 130 46.3 3 150.5 71.4 相関係数 0.93107998 4 151.5 70.6 5 132 57.8 6 152.5 69 信頼率 % 95 % 7 125 34.7 8 141 60.8 相関係数上限 0.972789749 9 131 47 相関係数下限 0.830914418 10 124.5 38.9 11 146 55.8 12 123 29.8 相関係数の検定 13 125 37.5 14 148.5 57.4 有意確率 p- 値 2.59012E-09 15 145.5 59 16 129.5 44.4 17 137.5 55.4 18 146.5 67.2 19 135 55.6 20 142 59.8 練習 1 右のデータは 20 個のジャガイモについて重量と芽の数を測定したデータである. 有意水準 5% で相関の有無を検定せよ. 帰無仮説 : 対立仮説 : p- 値は ( ) である. したがって, 有意水準 5% で帰無仮説は棄却 ( される されない ) ので, 相関は ( ある ない あるとはいえない ないとはいえない ). 重量 (g) 芽の数 ( 個 ) 121.68 8 123.62 10 120.84 9 125.59 11 113.39 6 132.47 10 123.11 11 127.02 13 126.17 12 121.11 6 131.58 10 122.45 8 137 9 117.47 12 155.34 7 129.81 9 132.92 12 142.46 9 136.88 11 138.77 9 11

練習 2 右のデータは 20 匹のミミズについて長さと重さを測定したデータである. 有意水準 5% で相関の有無を検定せよ. 帰無仮説 : 対立仮説 : p- 値は ( ) である. したがって, 有意水準 5% で帰無仮説は棄却 ( される されない ) ので, 相関は ( ある ない あるとはいえない ないとはいえない ). ミミズの長さ (cm) ミミズの重さ (g) 9.7 0.973 7.4 0.421 10.2 0.453 6.9 0.412 9.3 0.453 10.5 1.093 4.2 0.231 5.3 0.621 10.2 0.593 5.3 0.193 9.7 0.942 4.5 0.132 7.8 0.695 6.3 0.823 5.4 0.621 10.3 0.741 7.2 0.632 3.4 0.348 7.2 0.731 5.6 0.554 相関係数 r の検定の結果, 相関が有意であることがわかったら, 相関自体の強さは相関係数の絶対値で判断する. おおむね次のように考える. -1.000~-0.600 高い負の相関 -0.599~-0.400 中位の負の相関 -0.399~-0.200 低い負の相関 -0.199~+0.199 無相関 +0.200~+0.399 低い正の相関 +0.400~+0.599 中位の正の相関 +0.600~+1.000 高い正の相関 したがって, 相関係数が 1% あるいはそれより小さい有意水準で有意であったとしても, 相関係数自体の値が 0 に近ければ,2つの変数間の相関はあまり大きいとはいえない. 標本数が多くなると, 相関係数がかなり 0 に近くても有意にはなるので, この点に注意すること. 論文などで相関係数に * や ** が付いていることをよく見るが, 母相関係数が 0 でないこと, すなわち相関の有無を検定しており, ふつう * は 5% の有意水準で相関があるとき,** は 1% の有意水準で相関があることを示している. 12

教材 _ みかけの相関 2013 を予習しながら空所を埋めておくこと 3. みかけの ( 偽の ) 相関関係相関係数が高いからといって, 両者の間に因果関係などが必ずあるとは限らない. 例えば, 年齢を問わずに調査したら, 血圧と垂直飛びに負の相関関係があるかもしれない. しかし, 加齢とともに血圧は上がり, 運動能力は落ちるから, この関係は見かけのものでしかない. あるいはテレビの普及率と米の消費量を 1960 年代について調べたら, 負の相関があるだろう. 一般に時間の絡むデータでは見かけの相関関係の出てくることがよくある. 1 時系列データ予習問題 1955 年から 1970 年におけるテレビの販売数と自動車事故の数 1930 年から 1970 年におけるタバコの消費本数と平均寿命 以上のことを調べるとどういう結果が得られるか? その結果から, どういう誤った結論が引き出せるか? 2 年齢などに関わるデータ血圧と原宿あるいは巣鴨で遊ぶ時間 3 その他小学 1~6 年生までの身長と体重の相関関係は同年代だけの相関係数よりもかなり大きくなる. 4. 相関分析の手順 1 2つの変量間の相関係数 r を計算する 2 ρ=0 という帰無仮説を検定し, 相関関係が有意であるかを調べる 3 有意であれば, 相関の強さを相関係数の大きさから評価する. 相関があっても, それは2つの変量間に必ずしも何らかの関係があることを証明するわけではない. 注意点 :2つの変量間に実際にどんな結びつきがあるのかを相関分析の後, 考える. 直接的な因果関係がある場合 間接的な関係が予想される場合間接的な因果関係第 3の要因が関与する場合 D. 宿題宿題は https://moodle.cerd.shimane-u.ac.jp/moodle/ を見てください. 13