スライドタイトルなし

回帰分析怪奇な現象を回帰分析で数学的に説明しよう! 回帰分析編 24 相関図データ X に対応してデータ Y が決まるような (Xi,Yi) のデータの組を考えますこれを X-Y 座標にプロットすると次のような相関図ができます正の相関相関がない負の相関相関係数 :X と Y の関係の強さを示す (-1 相関係数 1) プロットの傾きではなく線上への密集の度合いで強さが決まる回帰分析相関図からデータ X とデータ Y の相関関係 ( 数式 ) が見つかれば観測や予測による X の値を数式に代入して Y の値 ( 理論値 ) を知ることができます最も単純な式は次の直線の式ですこれを回帰式といいますここで a を回帰係数 b を定数項といいます a と b は最小 2 乗法で求めることができますまた y を従属 ( 目的 ) 変数 x を独立 ( 説明 ) 変数とよびます時間 ( 日月年 ) の経過 (x) に相関して変化するデータ (y) があれば回帰式から将来が予測できそうですねまた x と y のデータ ( 現象 ) の関係を数学的に示すことは現象の解明に客観性を与えます a と b を算出する : 最小 2 乗法 y 回帰直線 [ 最小 2 乗法 ] 距離 di の平方の和 Σd i 2 =Σ{y i -(ax i +b)} 2 ax i +b y i d i を最小にするように a,b の値を求める a を回帰係数 b を切片と呼ぶ b x i d i = y i -(ax i +b) x

科学のメスを入れる回帰分析編 25 2009 年度に実施された全国学力調査から次の新聞報道のように世帯年収と成績格差が問題視された ( 日本経済新聞より ). 確かに表を見ていると世帯年収と成績は相関しているように見える. では, どのくらい相関しているのであろうか.10 人いれば 10 人の見解があるとも言える. そこで, 回帰分析によって科学的に解明しよう.

購買動機 (%) 手と頭を使って単回帰分析のコンテスト回帰分析編 26 次のデータは首都圏と近畿圏の 20 歳から 59 歳までの消費者 600 人を対象にしたビールの調査結果です. Y 軸は購買動機 : そのビールを買いたいと答えた人の割合 ( 複数回答 ) X 軸は評判 : そのビールを飲んだことがある人の銘柄評価の割合 ( 複数回答 ) 演習 1. このページを印刷してグラフから鉛筆と定規で回帰式を求めよう 2. 求めた回帰式のに下表の観測値評判がよいを代入して理論値を求めよう 3. 理論値と観測値購買動機の相関係数をデータ分析ツール ( 相関 ) で求めてみようあとでみなさんが定規で求めた式と分析ツールで求めた回帰式とを比べてみましょう評判と購買動機の関係 50 45 40 35 30 25 相関係数 20 15 10 5 0 銘柄名人気度理論値評判が良いモーニングスーパードライ 45 45 ジラフ一番搾り 38 30 ジラフラガービール 34 26 ダイコクビール 33 27 サホロ生ビール黒ラベル 25 18 ジラフ淡麗生ビール 23 14 トリスモルツ 20 12 モーニング黒生ビール 15 11 オリオンビール 7 5 サホロドラフトワン 7 6 0 5 10 15 20 25 30 35 40 45 50 評判がよい (%)

購買動機 (%) グラフを基にした回帰分析回帰分析編 27 データ X,Y の散布図 ( グラフ ) を描いてその上に回帰直線を求めます銘柄評判が良い (%) 購買動機 (%) モーニングスーパードライ 45 45 ジラフ一番搾り 30 38 ジラフラガービール 26 34 ダイコクビール 27 33 サホロ生ビール黒ラベル 18 25 ジラフ淡麗生ビール 14 23 トリスモルツ 12 20 モーニング黒生ビール 11 15 オリオンビール 5 7 サホロドラフトワン 6 7 1 散布図を作成データ範囲の指定 1 列目 :X 軸のデータ項目 2 列目 :Y 軸の数値データ挿入タブグラフの種類 : 散布図散布図の形式 ( マーカーのみ ) デザインタブクイックレイアウトタイトル凡例軸ラベル名の表示形式を指定 2 回帰直線を求めるグラフの選択グラフのマーカーをクリック評判と購買動機の関係 50 45 40 35 30 25 20 15 10 5 0 グラフのマーカーをクリックする 0 5 10 15 20 25 30 35 40 45 50 評判がよい (%)

購買動機 (%) グラフを基にした回帰分析回帰分析編 28 3 近似曲線で回帰直線を描くグラフの右隅にある [ グラフ要素 ] をクリックします近似曲線にチェックをクリックしてその他のオプション近似曲線の書式設定線形近似グラフに数式を表示するグラフにR2 乗値を表示するこの二つをクリックして回帰式と R 2 値 ( 重決定係数 ) を表示する. ( 右の例から ) 回帰式重決定係数重決定係数とは y の実測値と理論値の相関を表し回帰式の説明力を示す指標となる 0< R 2 <1 R 2 >=0.8 が理想一般的には 0.6 50 45 40 35 30 25 20 15 10 5 0 評判と購買動機の関係 y = 0.9928x + 5.4401 R² = 0.9342 回帰式と重決定係数 0 10 20 30 40 50 評判がよい (%) 問題 1: 手作業で求めた式と回帰分析で得られた回帰式とを比較しなさい

分析ツールによる回帰分析 - 単回帰分析 - つぎに分析ツールの回帰分析で回帰式を求めてみましょう. 重決定係数回帰分析編 29 分散分析による y の変動が y の誤差による変動に比べて十分に大きいことからモデルの説明力を判定. 観測された分散比 (F) が自由度 (m.n) の F 分布表の F 値よりも大きいならば回帰式は有意とみなせる. ここで m= 説明変数の数 n=( サンプル数 -1) - m F 値の有意水準として 5% あるいは 1% を適用. 1 自由度回帰 (m) 説明変数 1 分析手順 1 回帰分析ツールの選択回帰式は * 残差 (n) ( サンプル数 -1)- 説明変数 8 2 変動回帰の変動 =Σ( 理論値 - 理論値の平均 ) 2 データタブデータ分析回帰分析残差の変動 =Σ( 観測値 - 理論値 ) 2 3 分散 = 回帰 ( 残差 ) 変動 / 自由度 4 分散比 (F)=1392/12.3=113 5 自由度 (m=1,n=8) の有意水準 5% の F 値は 5.32 4>5 より 5% の誤り率でこの回帰は有意でないという帰無仮説は棄却される. 95% の信頼率で変動と誤差には有意な差がある. x( 評判が良い ) とう要因に y( 購買動機 ) が従属する. 6 有意 F は F=55.8 の有意水準 (P) を示す. 5.262E-05=0.000005262 1% よりさらに小さい 2 データの設定従属変数のデータ範囲 ( 購買動機 ) 説明変数のデータ範囲 ( 評判が良い ) 結果表示セル

手と頭を使って単回帰分析の演習 -1- 回帰分析編 30 次のデータは首都圏と近畿圏の 20 歳から 59 歳までの消費者 600 人を対象にしたビールの調査結果です. 補足購買動機 : そのビールを買いたいと答えた人の割合 ( 複数回答 ) 味がよい : そのビールを飲んだことがある人の評価の割合 ( 複数回答 ) 銘柄名購買動機 (%) 味がよい (%) 1 モーニングスーパードライ 45 61 2 ジラフ一番搾り 38 53 3 ジラフラガービール 34 45 4 ダイコクビール 33 57 5 サホロ生ビール黒ラベル 25 42 6 ジラフ淡麗生ビール 23 34 7 トリスモルツ 20 31 8 モーニング黒生ビール 15 33 9 オリオンビール 7 19 10 サホロドラフトワン 7 10 演習問題参考 : 上田太一郎著 EXCEL でできるデータマイニング入門より一部改変説明変数を味がよい目的変数を購買動機とし味と購買動機の関係を調べてみましょう. y( 購買動機 )=a * x( 味がよい ) + b 1. 散布図から回帰式を求めてください. そして R 2 値からこの回帰モデルの説明力を検討してください. 注意 : 購買動機度と味がよいのデータ範囲をドラッグして散布図を作成すると X 軸が購買動機度 Y 軸が味がよいになります ( 左列が X 軸になる ) これでは X 軸の人気度が説明変数になりますねつまり y( 味がよい )=a * x( 購買動機 ) + b X 軸と Y 軸を入れ替えるには散布図を作成した後グラフエリアを右クリックしてデータの選択編集系列の編集画面で X と Y のデータ範囲を指定しなおします 2. つぎにデータ分析ツールで回帰分析を行ってください. そして分散分析表からこの回帰モデルの説明力を検討してください. 3. さて同時に未発売カモンちゃんビールの味を調査をしたところ 38% の人が味がよいと評価してくれました. 予想される購買動機を求めてください. カモンちゃん 20 歳から

手と頭を使って単回帰分析の演習 -2- 回帰分析編 31 次のデータは首都圏と近畿圏の 20 歳から 59 歳までの消費者 600 人を対象にしたビールの調査結果です. 補足購買動機 : そのビールを買いたいと答えた人の割合 ( 複数回答 ) CM がよい : そのビールを飲んだことがある人の評価の割合 ( 複数回答 ) 銘柄名購買動機 (%) CM がよい (%) 1 モーニングスーパードライ 45 21 2 ジラフ一番搾り 38 23 3 ジラフラガービール 34 16 4 ダイコクビール 33 18 5 サホロ生ビール黒ラベル 25 12 6 ジラフ淡麗生ビール 23 12 7 トリスモルツ 20 28 8 モーニング黒生ビール 15 6 9 オリオンビール 7 0 10 サホロドラフトワン 7 6 演習問題上田太一郎著 EXCEL でできるデータマイニング入門より一部改変説明変数を CM がよい目的変数を購買動機とします. 1. 散布図から回帰式を求めてください. そして R 2 値からこの回帰モデルの説明力を検討してください. 注意 :X 軸のデータと Y 軸のデータを入れ替えてください 2. データ分析ツールで回帰分析をしてください. そして分散分析表からこの回帰モデルの説明力を検討してください. 3. 前ページの味がよいの調査結果 38% から予想されるカモンちゃんビールの購買動機を達成するためにはどのくらいの CM 評価を獲得しないといけないでしょうか. カモンちゃん 20 歳から

分析ツールによる回帰分析 - 重回帰分析 - 回帰分析編 32 説明変数 x が複数ある場合を重回帰分析といいます. 説明変数の有意性 ( 役立っているか ): 各説明変数の t- 値と P- 値によってその変数の有意性を検定することができる. t- 値は係数 a j =0 という帰無仮説を棄却する判断値で, t > 棄却境界値 (t 分布表の自由度と有意水準で求まる ) ならば, この帰無仮説は棄却される. すなわち, 係数 a j =0 とはできない. このときの有意水準は一般的に 5%(1%) とする.P- 値は検定された t 値に対する有意水準を示す. すなわち 5%(1%) 以下であれば上記の条件が成立する. 換言すると信頼率 95%(99%) で棄却できる. 味は 1% 以下で有意あるが CM は 5% を超えていて有意とは言えない. 残念ながら CM の効果はあまりないと判断できる. また,P- 値が小さい説明変数ほど棄却できない. この例では, CM を回帰モデルに加えない方がよい. t 値 = 係数標準誤差. 分析手順重回帰式 1 回帰分析ツールの選択データタブデータ分析回帰分析 2 データの設定目的変数のデータ範囲 ( 人気度 ) 説明変数のデータ範囲 ( 味と CM) ラベルをするとデータ範囲に列見出しを含めることができる. 結果を表示する左上のセル番号

重回帰分析の応用課題回帰分析編 33 次のデータを重回帰分析してみよう. ファイル名 : 情報学への招待 ( 量的データの回帰分析 ).xls 彦根店のアイスクリーム販売量日付販売量 ( 個 ) 平均気温 ( ) 平均湿度 (%) 入店者数 7 月 1 日 112 26.00 93.12 1179 7 月 2 日 29 27.60 85.99 1787 7 月 3 日 47 34.99 79.20 1997 7 月 4 日 105 33.63 86.52 1150 7 月 5 日 107 30.09 70.32 1641 7 月 6 日 116 30.51 98.80 1660 7 月 7 日 104 31.14 72.39 1067 数量化 Ⅰ 類にチャレンジしてみようファイル名 : 情報学への招待 ( 質的データの回帰分析 ).xls 数量化 Ⅰ 類表 A のようにアイスクリームの販売量を質的データで予測する方法を数量化 Ⅰ 類といいます質的データをアイテムと呼び予測する量的データ ( この場合は販売量 ) を外的基準と呼びますさてエクセルの分析ツール ( 回帰分析 ) でこのような分析を行ためには以下のようにデータを加工します 1 まず表 B のように天気を晴れ曇り雨に分けそれぞれのセルに該当 =1 非該当 =0 と数値化する気温と通行人も同様に数値化するこれをダミー変数という 2 つぎに天気から雨の列を削除する晴れと曇りがわかれば雨がわかる例えば回帰式で予測するとき明日の天気予報が雨ならば回帰式の晴れの項 =0 曇りの項 =0 を代入するどれを削除するかの決まりはない雨も分析対象にすると最小 2 乗法の計算エラーとなる 1 係数は回帰係数とは呼ばずカテゴリスコアと呼ぶ表 A 表 B 彦根城店のアイスクリーム販売量日付販売量 ( 個 ) 天気気温通行人 7 月 1 日 131 晴れ高い少ない 7 月 2 日 96 晴れ高い少ない 7 月 3 日 58 曇り普通少ない 7 月 4 日 91 曇り高い多い 7 月 5 日 132 曇り高い少ない IF 関数を用いてダミー変数へ変換する各要因からカテゴリデータを一つ削除する彦根城店のアイスクリーム販売量天気気温通行人日付販売量 ( 個 ) 天気気温通行人晴れ曇り雨高い普通低い多い少ない 7 月 1 日 131 晴れ高い少ない 1 0 0 1 0 0 0 1 7 月 2 日 96 晴れ高い少ない 1 0 0 1 0 0 0 1 7 月 3 日 58 曇り普通少ない 0 1 0 0 1 0 0 1 7 月 4 日 91 曇り高い多い 0 1 0 1 0 0 1 0 7 月 5 日 132 曇り高い少ない 0 1 0 1 0 0 0 1

回帰分析発展レポート回帰分析編 34 興味, 関心のあるデータを回帰分析してみよう! データ収集データの種類データ名サンプル番号 Y X 1 X 2 サンプル番号 Y X 1 X 2 1 11 2 12 3 13 4 14 5 15 6 16 7 17 8 18 9 19 10 20 自分の仮説 ( 説明変数と目的変数の関連 ) 1 説明変数 (x) と目的変数 (y) を決め両変数間の相関について仮説を考える 2 説明変数 (x) と目的変数 (y) のデータを収集し上の表にまとめる注意結果のデータ同士を回帰分析しないこと例 ) 鉄道などの駅の区間距離と運賃に相関があるようなので回帰分析を行ったところ有意であったどちらも結果のデータであり分析の意味がない分析と考察 3 仮説と収集したデータに基づいて以下の中から適切な分析を実施する. 1. X と Y の散布図を描き, 次に近似曲線を当てはめる式も求める. 2. 分析ツールにより単回帰分析を行う. 3. 分析ツールにより重回帰分析を行う. 重回帰分析を試みる場合,P- 値を参考にして (X,Y) の組み合わせによる回帰モデルの説明力と説明変数 X の有意性を検討するとよい. 4 2., 3. の単回帰のデータと回帰式をグラフ ( 散布図 ) にする 5 重決定係数と分散分析表からモデルの説明力を検討する 6 重回帰分析の場合はそれぞれの説明変数の有意性を検討する 6 分析結果から自分の仮説を考察する

スライド タイトルなし