2 群の関係を把握する方法 ( 相関分析 単回帰分析 ) 2018 年 10 月 2, 4 日データサイエンス研究所伊藤嘉朗
本日の内容 相関関係散布図 相関係数偏相関係数順位相関係数 単回帰分析 対数目盛 2
相関分析 ( 散布図 ) セールスマンの訪問回数と売上高 訪問回数 売上高 38 523 25 384 73 758 82 813 43 492 66 678 38 495 29 418 71 723 3
相関関係 正の相関負の相関無相関 相関関係には正の相関 負の相関 無相関 点の集中度が関係の強さを測定する手がかり 4
散布図の作成法 (SAS EG) EG 月 4 5 6 7 8 9 10 11 12 1 2 3 広告費 12 10 17 59 75 64 33 24 49 43 36 26 売上高 83 74 60 109 125 115 78 70 114 87 97 99 1. データを入力 ( ファイル 新規作成 データ ) 5
EG 2. グラフ 散布図 を選択する 6
EG 3. データ をクリックし 広告費を X 軸 に 売上高を Y 軸 に設定する 7
4. グラフ領域 をクリックし カスタムチャートサイズ を指定する EG 8
EG 9
相関関係の強さ ピアソンの積率相関係数 ( r ) 350 300 250 200 150 100 50 240 220 200 180 160 140 120 0 100 50 150 250 350 80 90 100 110 120 130 r=0.97 r=0.32-1 r 1 10
積率相関係数 (r) のしくみ 5 Y 4 2 1 平均 3 2 3 4 1 1 2 3 4 5 平均 X 11
X- 平均 Y- 平均 (X- 平均 )(Y- 平均 ) 1 + + + 2 - + - 3 - - + 4 + - - 計 合計 1 3 の領域に点が多ければ正の相関 2 4 の領域に多く点があると負の相関全ての領域にあれば相殺され無相関 合計が大きければ相関が強い 12
積率相関係数 (r) の計算式 合計 データ数 ( 共分散 ) が大きい 相関が強い 共分散を X の標準偏差 Y の標準偏差で割る r= 共分散 Xの標準偏差 Yの標準偏差 -1 < r < +1 13
Y 積率相関係数 (r) の計算例 X Y 1 1 2 2 3 4 4 3 5 5 平均 3 3 6 5 4 3 2 1 0 0 1 2 3 4 5 6 X 14
標準偏差の計算方法 例 )1,2,3,4,5 1) 平均 : ( 1+2+ 3+4+5 ) 5 = 3 2) 変動 2 乗 1-3 = -2 4 2-3 = -1 1 3-3 = 0 0 4-3 = 1 1 5-3 = 2 4 計 0 10 3) 分散 : 10 5 = 2 4) 標準偏差 : 2 = 1.414 15
X 1(X- 平均 ) Y 2(Y- 平均 ) 1 2 1-2 1-2 4.0 2-1 2-1 1.0 3 0 4 1 0.0 4 1 3 0 0.0 5 2 5 2 4.0 平均 3 3 合計 9.0 標準偏差 1.414 1.414 合計 5 1.8 r= 共分散 Xの標準偏差 Yの標準偏差 1.8 = 1.414 1.414 =0.900 16
積率相関係数の求め方 (SAS EG) EG 1. データを入力する 17
EG 2. 分析 - 多変量解析 - 相関分析 を選択する 18
EG 3. データ をクリックし 分析変数 を設定する 19
EG 4. オプション をクリックし ピアソン (Pearson) を選択する 20
EG 相関係数 (r)=0.900 21
相関係数と有意確率 データ数 :12 組 r=0.262 有意確率 =0.4112 22
データ数 :60 組 r=0.262 有意確率 =0.0434 有意水準 5% において有意 23
積率相関係数 (r) の検定 有意確率 (p)=0.0374 < 0.05 r=0 ではないと判断したときの危険率 有意水準 5% において 相関関係は有意である 相関関係の強さ 24
A 支店の広告費と売上高 月 4 5 6 7 8 9 10 11 12 1 2 3 広告費 42 26 35 68 103 90 88 58 79 80 48 60 売上高 47 40 51 67 85 100 70 52 65 81 72 85 120 r=0.775 100 80 60 強い正の相関! 40 20 0 0 20 40 60 80 100 120 25
B 支店の広告費と売上高 月 4 5 6 7 8 9 10 11 12 1 2 3 広告費 12 10 17 59 75 64 33 24 49 43 36 26 売上高 83 74 60 109 125 115 78 70 114 87 97 99 140 r=0.863 120 100 80 強い正の相関! 60 40 20 0 0 20 40 60 80 26
(A 支店 +B 支店 ) の広告費と売上高 140 r=0.272 120 100 80??? 60 40 20 0 0 20 40 60 80 100 120 27
(A 支店 +B 支店 ) の広告費と売上高 140 120 100 80 60 A 支店 B 支店 40 20 0 0 20 40 60 80 100 120 28
A 支店の広告費と売上高 月 4 5 6 7 8 9 10 11 12 1 2 3 広告費 43 51 62 76 41 51 62 82 40 51 60 71 売上高 94 102 109 100 46 51 47 62 115 112 122 115 140 r=0.016 120 100 80 無相関! 60 40 20 0 30 40 50 60 70 80 90 29
B 支店の広告費と売上高 月 4 5 6 7 8 9 10 11 12 1 2 3 広告費 92 102 111 122 88 102 112 132 89 99 110 121 売上高 152 160 167 175 147 146 142 157 210 207 217 210 250 r=0.040 無相関! 200 150 100 50 0 80 90 100 110 120 130 140 30
(A 支店 +B 支店 ) の広告費と売上高 250 r=0.823 200 150??? 100 50 0 20 40 60 80 100 120 140 31
(A 支店 +B 支店 ) の広告費と売上高 250 200 150 100 A 支店 B 支店 50 0 20 40 60 80 100 120 140 32
都道府県別広告費と売上高実績 都道府県 売上高 広告費 北海道 245 26 青森 123 14 東京 5,672 492 沖縄 59 6 地域別の売上高と広告費 33
相関関係と因果関係 売上高 宣伝広告費 宣伝広告費 売上高 人口 交絡要因 ( 人口 ) に注意が必要! 34
支店別広告費と売上高 支店 広告費 売上高 北海道 92 44 東北 93 102 関東 332 288 北陸 78 54 中部 181 118 近畿 108 138 中国 113 138 四国 72 86 九州 243 152 沖縄 13 22 35
EG 相関係数 (r)=0.902 36
支店別広告費 売上高 人口 支店広告費売上高人口 北海道 92 44 5,506 東北 93 102 9,335 関東 332 288 42,604 北陸 78 54 5,443 中部 181 118 18,127 近畿 108 138 12,912 中国 113 138 15,554 四国 72 86 3,976 九州 243 152 13,204 沖縄 13 22 1,393 37
EG 広告費と売上高人口と広告費人口と売上高 r = 0.902 r = 0.895 r = 0.951 38
広告宣伝費は売上高に貢献? 売上高 宣伝広告費 宣伝広告費 売上高 人口 人口の影響を除いたときの広告費と売上高の積率相関係数偏相関係数 39
偏相関係数の求め方 (SAS EG ) EG 1. データを入力し 分析 - 多変量解析 - 相関分析 を選択する 40
EG 2. データ をクリックし 分析変数 及び部分変数 ( 人口 ) を設定する 41
EG 偏相関係数 =0.373 42
EG 都道府県別コンビニ件数 人口 甲子園の勝率 43
EG コンビニ数と甲子園勝率? コンビニ数と人口人口の多い都道府県はコンビニ件数が多い 人口と甲子園勝率人口が多いと高校の数や高校生の数も多く 結果として野球のレベルも上がる 人口の影響を除いた相関係数 ( 偏相関係数 ) 44
1. データを入力し 分析 - 多変量解析 - 相関分析 を選択する 2. データ をクリックし 分析変数 及び部分変数 ( 人口 ) を設定する EG 45
EG 偏相関係数 = -0.088 46
スピアマンの順位相関係数 (r s ) 10 名の児童の算数と国語のテストの順位 算数国語 1 3 2 2 3 4 4 1 5 8 6 5 7 6 8 7 9 10 10 9 47
スピアマンの順位相関係数 (SAS EG) EG 1. データを入力し 分析 - 多変量解析 - 相関分析 を選択 2. データ をクリックし 分析変数 の設定 3. オプション をクリックし スピアマン (Spearman) を選択 48
EG 順位相関係数 -1 < r s < 1 1 に近いほど関係性が強く 0 に近いほど関係性が弱い 49
2016 年のプロ野球パ リーグ 解説者 5 名のシーズン開幕前の予想順位 解説者の予想の正確さを比較 チーム 実際 赤星 張本 稲葉 福本 野村 日本ハム 1 2 2 3 3 2 ソフトバンク 2 1 1 2 1 1 ロッテ 3 5 5 5 4 5 西武 4 4 3 4 5 3 楽天 5 6 6 6 6 4 オリックス 6 3 4 1 2 6 50
EG 51
男性 10 名中性脂肪値とGOTの値 GOTに極端な値順位相関係数 中性脂肪 GOT 1 77 21 2 103 28 3 125 35 4 119 19 5 89 27 6 157 35 7 146 32 8 173 42 9 130 28 10 164 345 極端な値 ( 外れ値 ) 52
EG 順位相関係数 r s = 0.848 積率相関係数 r = 0.438 53
回帰分析 例 ) 売上高と売上高に影響を与える要因との関係 売上高 広告宣伝費 人口 セールスマン数 従属変数 説明変数 ( 独立変数 ) 説明変数が 1 つ : 単回帰説明変数が 2 つ以上 : 重回帰 目的 : 回帰式を求め 予測する 回帰式 (y=a+bx) を求める 54
走行距離と車両価格 価格 : 万円距離 : 千 km 1 2 3 4 5 6 7 8 9 車両価格 119 89.9 78 169.6 98 26.8 43.8 33.8 105 走行距離 47 46 51 27 85 101 89 138 46 3 4 5 6 7 8 9 10 11 車両価格 105 113 79 75 59 89 55 49 31 走行距離 70 48 76 61 62 70 105 92 119 車両価格 従属変数 単回帰分析 走行距離 説明変数 55
車両価格 相関分析 180 160 140 120 100 80 r = -0.827 60 40 20 0 0 20 40 60 80 100 120 140 160 走行距離 56
車両価格 回帰分析 180 160 140 120 100 80 60 40 20 0 0 20 40 60 80 100 120 140 160 走行距離 回帰式 (y=a+bx) を求める 57
回帰直線の求め方 ( 最小二乗法 ) Y 各データと回帰直線との垂直距離の 2 乗和を最小 X 58
回帰分析 (SAS EG ) EG 1. データを入力する 59
EG 2. 分析 - 回帰分析 - 線形回帰分析 を選択する 60
3. データ をクリックし 車両価格を 従属変数 走行距離を 説明変数 に設定する EG 61
EG 車両価格 =155.98-1.042 走行距離 走行距離 1 千 km 増えると車両価格は約 1 万円低下する 62
回帰式の信頼性 1) 偏回帰係数の t 検定 有意確率の確認 走行距離の偏回帰係数の有意確率 <0.0001 < 0.05 2) 決定係数の大きさ 0.5(50%) が目安 ( 必須 ) 自由度調整済み決定係数 =0.6635 回帰式により約 66.35% 説明できる 63
年度別市場規模と消費支出 年 市場規模 消費支出 2012 8 6 2013 9 6 2014 13 7 2015 11 5 2016 14 8 2017 17 10 2018? 11 64
年度別推移 EG 65
相関係数 EG r=0.8686 強い正の相関関係 66
散布図 EG 67
EG 市場規模 消費支出 市場規模 =0.625+1.625 消費支出自由度調整済み決定係数 =0.6931 2018 年予測値 =0.625+1.625 11=18.5 68
売上高推移 ( 設立 ~20 年 ) EG 売上高は順調に伸びている!? 69
年度 売上高 1996 1 1997 2 1998 3 1999 4 2000 5 2001 6 2002 7 2003 8 2004 9 2005 10 2006 11 2007 12 2008 13 2009 14 2010 15 2011 16 2012 17 2013 18 2014 19 2015 20 前年比 - 2.00 1.50 1.33 1.25 1.20 1.17 1.14 1.13 1.11 1.10 1.09 1.08 1.08 1.07 1.07 1.06 1.06 1.06 1.05 年度間の差に着目 +1 年度間の比に着目比率は年々減少! 70
折れ線グラフ EG 71
折れ線グラフと棒グラフの違いは何か? 300 250 200 150 100 50 0 4 月 5 月 6 月 7 月 8 月 9 月 10 月 11 月 12 月 目の動きは棒をイメージして上下に動かすべき 目を斜めに動かすグラフは対数目盛 72
支店 ( 東北 関東 沖縄 ) 別売上高 1 月 2 月 3 月 4 月 5 月 6 月 7 月 8 月 9 月 10 月 11 月 12 月東北 188 192 201 216 266 238 225 200 260 213 198 218 関東 730 648 813 752 802 868 856 910 1183 1020 923 955 沖縄 41 40 55 63 113 42 53 50 65 48 45 47 4 月 5 月 差 前月比 東北 216 266 50 1.231 関東 752 802 50 1.066 沖縄 63 113 50 1.794 8 月 9 月 差 前月比 東北 200 260 60 1.3 関東 910 1183 273 1.3 沖縄 50 65 15 1.3 73
折れ線グラフの作成 EG 1. データを入力する 74
2. 重ね合わせの縦列折れ線グラフ を選択する EG 3. データ をクリックし 月を X 軸 に 東北 関東 沖縄を Y 軸 に設定する 75
EG 普通目盛の折れ線グラフでは比較困難 76
対数目盛の設定法 (SAS EG) Y 軸 目盛 をクリックし Y 軸の目盛を 対数 Y 軸の底 を 底 10 に設定する EG 77
折れ線グラフ ( 対数目盛 ) EG 78
セールスマンの訪問回数と売上高 ( 単位 : 回 百万円 ) 訪問回数 売上高 1 月 38 523 2 月 25 384 3 月 73 758 4 月 82 813 5 月 43 492 6 月 66 678 7 月 38 495 8 月 29 418 9 月 71 723 79
EG 1. データを入力する 80
2. 重ね合わせの縦列折れ線グラフ を選択する EG 3. データ をクリックし 月を X 軸 に 訪問回数 売上高を Y 軸 に設定する 81
折れ線グラフ ( 普通目盛 ) EG 82
折れ線グラフ ( 対数目盛 ) EG 83
新製品と主力製品の売上高 ( 百万円 ) 新製品 主力製品 1 月 38 523 2 月 25 384 3 月 73 758 4 月 82 813 5 月 43 492 6 月 66 678 7 月 38 495 8 月 29 418 9 月 71 723 84
折れ線グラフ ( 普通目盛 ) EG 85
折れ線グラフ ( 対数目盛 ) EG 86
都道府県別人口とコンビニ数 ( 普通目盛 ) EG 87
X 軸 Y 軸共に対数目盛 EG 88
人間の五感は対数に変換されている ウェーバー フェヒナーの法則弁別閾 ( 気づくことができる最小の刺激差 ) は刺激の値に比例 手に重りを 100g のせ 少しずつ重りを加え 重さの違いを感じたのが 110g のとき 手に重りを 200g のせ 1g ずつ重りを加え 重さの違いを感じるのは 220g のときである デシベル PH マグニチュード 等星 89
2 群の関係を把握する方法 相関関係散布図交絡要因 ( 疑似相関 ) 相関係数ピアソンの積率相関係数偏相関係数スピアマンの順位相関係数 単回帰分析 対数目盛の活用法 90