回帰分析 怪奇な現象を回帰分析で数学的に説明しよう! 回帰分析編 24 相関図 データ X に対応してデータ Y が決まるような (Xi,Yi) のデータの組を考えます これを X-Y 座標にプロットすると 次のような相関図ができます 正の相関相関がない負の相関 相関係数 :X と Y の関係の強さを示す (-1 相関係数 1) プロットの傾きではなく 線上への密集の度合いで強さが決まる 回帰分析 相関図からデータ X とデータ Y の相関関係 ( 数式 ) が見つかれば 観測や予測による X の値を 数式に代入して Y の値 ( 理論値 ) を知ることができます 最も単純な式は 次の直線の式です これを回帰式といいます ここで a を回帰係数 b を定数項といいます a と b は最小 2 乗法で求めることができます また y を従属 ( 目的 ) 変数 x を独立 ( 説明 ) 変数とよびます 時間 ( 日 月 年 ) の経過 (x) に相関して変化するデータ (y) があれば 回帰式から将来が予測できそうですね また x と y のデータ ( 現象 ) の関係を数学的に示すことは現象の解明に客観性を与えます a と b を算出する : 最小 2 乗法 y 回帰直線 [ 最小 2 乗法 ] 距離 di の平方の和 Σd i 2 =Σ{y i -(ax i +b)} 2 ax i +b y i d i を最小にするように a,b の値を求める a を回帰係数 b を切片と呼ぶ b x i d i = y i -(ax i +b) x
科学のメスを入れる 回帰分析編 25 2009 年度に実施された全国学力調査から次の新聞報道のように 世帯年収と成績格差 が問題視された ( 日本経済新聞より ). 確かに表を見ていると世帯年収と成績は相関しているように見える. では, どのくらい相関しているのであろうか.10 人いれば 10 人の見解があるとも言える. そこで, 回帰分析によって科学的に解明しよう.
購買動機 (%) 手と頭を使って単回帰分析のコンテスト 回帰分析編 26 次のデータは首都圏と近畿圏の 20 歳から 59 歳までの消費者 600 人を対象にしたビールの調査結果です. Y 軸は購買動機 : そのビールを 買いたい と答えた人の割合 ( 複数回答 ) X 軸は評判 : そのビールを飲んだことがある人の銘柄評価の割合 ( 複数回答 ) 演習 1. このページを印刷して グラフから鉛筆と定規で回帰式 を求めよう 2. 求めた回帰式のに下表の観測値 評判がよい を代入して理論値を求めよう 3. 理論値と観測値 購買動機 の相関係数をデータ分析ツール ( 相関 ) で求めてみよう あとで みなさんが定規で求めた式と分析ツールで求めた回帰式とを比べてみましょう 評判と購買動機の関係 50 45 40 35 30 25 相関係数 20 15 10 5 0 銘柄名 人気度 理論値 評判が良い モーニングスーパードライ 45 45 ジラフ一番搾り 38 30 ジラフラガービール 34 26 ダイコクビール 33 27 サホロ生ビール黒ラベル 25 18 ジラフ淡麗生ビール 23 14 トリスモルツ 20 12 モーニング黒生ビール 15 11 オリオンビール 7 5 サホロドラフトワン 7 6 0 5 10 15 20 25 30 35 40 45 50 評判がよい (%)
購買動機 (%) グラフを基にした回帰分析 回帰分析編 27 データ X,Y の散布図 ( グラフ ) を描いて その上に回帰直線を求めます 銘柄 評判が良い (%) 購買動機 (%) モーニングスーパードライ 45 45 ジラフ一番搾り 30 38 ジラフラガービール 26 34 ダイコクビール 27 33 サホロ生ビール黒ラベル 18 25 ジラフ淡麗生ビール 14 23 トリスモルツ 12 20 モーニング黒生ビール 11 15 オリオンビール 5 7 サホロドラフトワン 6 7 1 散布図を作成データ範囲の指定 1 列目 :X 軸のデータ項目 2 列目 :Y 軸の数値データ 挿入タブ グラフの種類 : 散布図 散布図の形式 ( マーカーのみ ) デザインタブ クイックレイアウト タイトル 凡例 軸ラベル名の表示形式を指定 2 回帰直線を求めるグラフの選択 グラフのマーカーをクリック 評判と購買動機の関係 50 45 40 35 30 25 20 15 10 5 0 グラフのマーカーをクリックする 0 5 10 15 20 25 30 35 40 45 50 評判がよい (%)
購買動機 (%) グラフを基にした回帰分析 回帰分析編 28 3 近似曲線で回帰直線を描く グラフの右隅にある [ グラフ要素 ] をクリックします 近似曲線にチェック をクリックして その他のオプション 近似曲線の書式設定 線形近似 グラフに数式を表示する グラフにR2 乗値を表示する この二つをクリックして 回帰式と R 2 値 ( 重決定係数 ) を表示する. ( 右の例から ) 回帰式 重決定係数 重決定係数とは y の実測値と理論値の相関を表し 回帰式の説明力を示す指標となる 0< R 2 <1 R 2 >=0.8 が理想 一般的には 0.6 50 45 40 35 30 25 20 15 10 5 0 評判と購買動機の関係 y = 0.9928x + 5.4401 R² = 0.9342 回帰式と重決定係数 0 10 20 30 40 50 評判がよい (%) 問題 1: 手作業で求めた式と回帰分析で得られた回帰式とを比較しなさい
分析ツールによる回帰分析 - 単回帰分析 - つぎに分析ツールの回帰分析で回帰式を求めてみましょう. 重決定係数 回帰分析編 29 分散分析による y の変動が y の誤差による変動に比べて十分に大きいことからモデルの説明力を判定. 観測された分散比 (F) が自由度 (m.n) の F 分布表の F 値よりも大きいならば回帰式は有意とみなせる. ここで m= 説明変数の数 n=( サンプル数 -1) - m F 値の有意水準として 5% あるいは 1% を適用. 1 自由度 回帰 (m) 説明変数 1 分析手順 1 回帰分析ツールの選択 回帰式は * 残差 (n) ( サンプル数 -1)- 説明変数 8 2 変動 回帰の変動 =Σ( 理論値 - 理論値の平均 ) 2 データタブ データ分析 回帰分析 残差の変動 =Σ( 観測値 - 理論値 ) 2 3 分散 = 回帰 ( 残差 ) 変動 / 自由度 4 分散比 (F)=1392/12.3=113 5 自由度 (m=1,n=8) の有意水準 5% の F 値は 5.32 4>5 より 5% の誤り率で この回帰は有 意でない という帰無仮説は棄却される. 95% の信頼率で変動と誤差には有意な差がある. x( 評判が良い ) とう要因に y( 購買動機 ) が従属する. 6 有意 F は F=55.8 の有意水準 (P) を示す. 5.262E-05=0.000005262 1% よりさらに小さい 2 データの設定 従属変数のデータ範囲 ( 購買動機 ) 説明変数のデータ範囲 ( 評判が良い ) 結果表示セル
手と頭を使って単回帰分析の演習 -1- 回帰分析編 30 次のデータは首都圏と近畿圏の 20 歳から 59 歳までの消費者 600 人を対象にしたビールの調査結果です. 補足 購買動機 : そのビールを 買いたい と答えた人の割合 ( 複数回答 ) 味がよい : そのビールを飲んだことがある人の評価の割合 ( 複数回答 ) 銘柄名 購買動機 (%) 味がよい (%) 1 モーニングスーパードライ 45 61 2 ジラフ一番搾り 38 53 3 ジラフラガービール 34 45 4 ダイコクビール 33 57 5 サホロ生ビール黒ラベル 25 42 6 ジラフ淡麗生ビール 23 34 7 トリスモルツ 20 31 8 モーニング黒生ビール 15 33 9 オリオンビール 7 19 10 サホロドラフトワン 7 10 演習問題 参考 : 上田太一郎著 EXCEL でできるデータマイニング入門 より一部改変 説明変数を 味がよい 目的変数を 購買動機 とし 味と購買動機の関係を調べてみましょう. y( 購買動機 )=a * x( 味がよい ) + b 1. 散布図から回帰式を求めてください. そして R 2 値からこの回帰モデルの説明力を検討してください. 注意 : 購買動機度 と 味がよい のデータ範囲をドラッグして散布図を作成すると X 軸が 購買動機度 Y 軸が 味がよい になります ( 左列が X 軸になる ) これでは X 軸の 人気度 が説明変数になりますね つまり y( 味がよい )=a * x( 購買動機 ) + b X 軸と Y 軸を入れ替えるには 散布図を作成した後 グラフエリアを右クリックして データの選択 編集 系列の編集 画面で X と Y のデータ範囲を指定しなおします 2. つぎに データ分析ツールで回帰分析を行ってください. そして 分散分析表からこの回帰モデルの説明力を検討してください. 3. さて 同時に未発売 カモンちゃんビール の 味 を調査をしたところ 38% の人が 味がよい と評価してくれました. 予想される購買動機を求めてください. カモンちゃん 20 歳から
手と頭を使って単回帰分析の演習 -2- 回帰分析編 31 次のデータは首都圏と近畿圏の 20 歳から 59 歳までの消費者 600 人を対象にしたビールの調査結果です. 補足 購買動機 : そのビールを 買いたい と答えた人の割合 ( 複数回答 ) CM がよい : そのビールを飲んだことがある人の評価の割合 ( 複数回答 ) 銘柄名購買動機 (%) CM がよい (%) 1 モーニングスーパードライ 45 21 2 ジラフ一番搾り 38 23 3 ジラフラガービール 34 16 4 ダイコクビール 33 18 5 サホロ生ビール黒ラベル 25 12 6 ジラフ淡麗生ビール 23 12 7 トリスモルツ 20 28 8 モーニング黒生ビール 15 6 9 オリオンビール 7 0 10 サホロドラフトワン 7 6 演習問題 上田太一郎著 EXCEL でできるデータマイニング入門 より一部改変 説明変数を CM がよい 目的変数を 購買動機 とします. 1. 散布図から回帰式を求めてください. そして R 2 値からこの回帰モデルの説明力を検討してください. 注意 :X 軸のデータと Y 軸のデータを入れ替えてください 2. データ分析ツールで回帰分析をしてください. そして 分散分析表からこの回帰モデルの説明力を検討してください. 3. 前ページの 味がよい の調査結果 38% から予想される カモンちゃんビール の 購買動機 を達成するためには どのくらいの CM 評価を獲得しないといけないでしょうか. カモンちゃん 20 歳から
分析ツールによる回帰分析 - 重回帰分析 - 回帰分析編 32 説明変数 x が複数ある場合を重回帰分析といいます. 説明変数の有意性 ( 役立っているか ): 各説明変数の t- 値と P- 値によってその変数の有意性を検定することができる. t- 値は係数 a j =0 という帰無仮説を棄却する判断値で, t > 棄却境界値 (t 分布表の自由度と有意水準で求まる ) ならば, この帰無仮説は棄却される. すなわち, 係数 a j =0 とはできない. このときの有意水準は一般的に 5%(1%) とする.P- 値は検定された t 値に対する有意水準を示す. すなわち 5%(1%) 以下であれば上記の条件が成立する. 換言すると信頼率 95%(99%) で棄却できる. 味は 1% 以下で有意あるが CM は 5% を超えていて有意とは言えない. 残念ながら CM の効果はあまりないと判断できる. また,P- 値が小さい説明変数ほど棄却できない. この例では, CM を回帰モデルに加えない方がよい. t 値 = 係数 標準誤差. 分析手順 重回帰式 1 回帰分析ツールの選択 データタブ データ分析 回帰分析 2 データの設定目的変数のデータ範囲 ( 人気度 ) 説明変数のデータ範囲 ( 味と CM) ラベルを するとデータ範囲に列見出しを含めることができる. 結果を表示する左上のセル番号
重回帰分析の応用課題 回帰分析編 33 次のデータを重回帰分析してみよう. ファイル名 : 情報学への招待 ( 量的データの回帰分析 ).xls 彦根店のアイスクリーム販売量 日付 販売量 ( 個 ) 平均気温 ( ) 平均湿度 (%) 入店者数 7 月 1 日 112 26.00 93.12 1179 7 月 2 日 29 27.60 85.99 1787 7 月 3 日 47 34.99 79.20 1997 7 月 4 日 105 33.63 86.52 1150 7 月 5 日 107 30.09 70.32 1641 7 月 6 日 116 30.51 98.80 1660 7 月 7 日 104 31.14 72.39 1067 数量化 Ⅰ 類にチャレンジしてみよう ファイル名 : 情報学への招待 ( 質的データの回帰分析 ).xls 数量化 Ⅰ 類表 A のようにアイスクリームの販売量を 質的データで予測する方法を数量化 Ⅰ 類といいます 質的データをアイテムと呼び 予測する量的データ ( この場合は販売量 ) を外的基準と呼びます さて エクセルの分析ツール ( 回帰分析 ) でこのような分析を行ためには 以下のようにデータを加工します 1 まず 表 B のように天気を 晴れ 曇り 雨 に分け それぞれのセルに 該当 =1 非該当 =0 と数値化する 気温と通行人も同様に数値化する これをダミー変数という 2 つぎに 天気から 雨 の列を削除する 晴れ と 曇り がわかれば 雨 がわかる 例えば 回帰式で予測するとき 明日の天気予報が雨ならば 回帰式の晴れの項 =0 曇りの項 =0 を代入する どれを削除するかの決まりはない 雨 も分析対象にすると最小 2 乗法の計算エラーとなる 1 係数は回帰係数とは呼ばずカテゴリ スコアと呼ぶ 表 A 表 B 彦根城店のアイスクリーム販売量 日付 販売量 ( 個 ) 天気 気温通行人 7 月 1 日 131 晴れ 高い少ない 7 月 2 日 96 晴れ 高い少ない 7 月 3 日 58 曇り 普通少ない 7 月 4 日 91 曇り 高い 多い 7 月 5 日 132 曇り 高い少ない IF 関数を用いてダミー変数へ変換する 各要因からカテゴリデータを一つ削除する 彦根城店のアイスクリーム販売量天気気温通行人 日付販売量 ( 個 ) 天気気温通行人晴れ曇り雨高い普通低い多い少ない 7 月 1 日 131 晴れ高い少ない 1 0 0 1 0 0 0 1 7 月 2 日 96 晴れ高い少ない 1 0 0 1 0 0 0 1 7 月 3 日 58 曇り普通少ない 0 1 0 0 1 0 0 1 7 月 4 日 91 曇り高い多い 0 1 0 1 0 0 1 0 7 月 5 日 132 曇り高い少ない 0 1 0 1 0 0 0 1
回帰分析発展レポート 回帰分析編 34 興味, 関心のあるデータを回帰分析してみよう! データ収集 データの種類 データ名 サンプル番号 Y X 1 X 2 サンプル番号 Y X 1 X 2 1 11 2 12 3 13 4 14 5 15 6 16 7 17 8 18 9 19 10 20 自分の仮説 ( 説明変数と目的変数の関連 ) 1 説明変数 (x) と目的変数 (y) を決め 両変数間の相関について仮説を考える 2 説明変数 (x) と目的変数 (y) のデータを収集し 上の表にまとめる 注意結果のデータ同士を回帰分析しないこと 例 ) 鉄道などの駅の区間距離と運賃に相関があるようなので回帰分析を行ったところ有意であった どちらも結果のデータであり分析の意味がない 分析と考察 3 仮説と収集したデータに基づいて以下の中から適切な分析を実施する. 1. X と Y の散布図を描き, 次に近似曲線を当てはめる 式も求める. 2. 分析ツールにより単回帰分析を行う. 3. 分析ツールにより重回帰分析を行う. 重回帰分析を試みる場合,P- 値を参考にして (X,Y) の組み合わせによる回帰モデルの説明力と説明変数 X の有意性を検討するとよい. 4 2., 3. の単回帰のデータと回帰式をグラフ ( 散布図 ) にする 5 重決定係数と分散分析表から モデルの説明力を検討する 6 重回帰分析の場合は それぞれの説明変数の有意性を検討する 6 分析結果から自分の仮説を考察する