Excelによるデータ分析

Similar documents
多変量解析 ~ 重回帰分析 ~ 2006 年 4 月 21 日 ( 金 ) 南慶典

Microsoft PowerPoint - e-stat(OLS).pptx

1.民営化

タイトルを修正 軸ラベルを挿入グラフツール デザイン グラフ要素を追加 軸ラベル 第 1 横 ( 縦 ) 軸 凡例は削除 横軸は, 軸の目盛範囲の最小値 最 大値を手動で設定して調整 図 2 散布図の仕上げ見本 相関係数の計算 散布図を見ると, 因果関係はともかく, 人口と輸送量の間には相関関係があ

スライド タイトルなし

Microsoft PowerPoint - 資料04 重回帰分析.ppt

スライド 1

Microsoft Word - econome5.docx

Microsoft Word - mstattext02.docx

Microsoft Word - appendix_b

Microsoft Word - å“Ÿåłžå¸°173.docx

13章 回帰分析

スライド 1

Excelにおける回帰分析(最小二乗法)の手順と出力

tshaifu423

消費 統計学基礎実習資料 2017/11/27 < 回帰分析 > 1. 準備 今回の実習では あらかじめ河田が作成した所得と消費のファイルを用いる 課題 19 統計学基礎の講義用 HP から 所得と消費のファイルをダウンロードしてみよう 手順 1 検索エンジンで 河田研究室 と入力し検索すると 河田

本日の内容 相関関係散布図 相関係数偏相関係数順位相関係数 単回帰分析 対数目盛 2

314 図 10.1 分析ツールの起動 図 10.2 データ分析ウィンドウ [ データ ] タブに [ 分析 ] がないときは 以下の手順で表示させる 1. Office ボタン をクリックし Excel のオプション をクリックする ( 図 10.3) 図 10.3 Excel のオプション

Microsoft PowerPoint - 統計科学研究所_R_重回帰分析_変数選択_2.ppt

0 部分的最小二乗回帰 Partial Least Squares Regression PLS 明治大学理 学部応用化学科 データ化学 学研究室 弘昌

Microsoft Word - apstattext04.docx

発表の流れ 1. 回帰分析とは? 2. 単回帰分析単回帰分析とは? / 単回帰式の算出 / 単回帰式の予測精度 <R による演習 1> 3. 重回帰分析重回帰分析とは? / 重回帰式の算出 / 重回帰式の予測精度 質的変数を含む場合の回帰分析 / 多重共線性の問題 変数選択の基準と方法 <R による

0.0 Excelファイルの読み取り専用での立ち上げ手順 1) 開示 Excelファイルの知的所有権について開示する数値解析の説明用の Excel ファイルには 改変ができないようにパスワードが設定してあります しかし 読者の方には読み取り用のパスワードを開示しますので Excel ファイルを読み取

目次 はじめに P.02 マクロの種類 ---

初めてのプログラミング

因子分析

横浜市環境科学研究所

Microsoft PowerPoint - 価格関数R3.pptx

tshaifu423

ビジネス統計 統計基礎とエクセル分析 正誤表

13章 回帰分析

Microsoft PowerPoint ppt

Microsoft PowerPoint - Econometrics

Microsoft Word - 操作マニュアル-Excel-2.doc

Microsoft PowerPoint - R-stat-intro_04.ppt [互換モード]

1. 多変量解析の基本的な概念 1. 多変量解析の基本的な概念 1.1 多変量解析の目的 人間のデータは多変量データが多いので多変量解析が有用 特性概括評価特性概括評価 症 例 主 治 医 の 主 観 症 例 主 治 医 の 主 観 単変量解析 客観的規準のある要約多変量解析 要約値 客観的規準のな

グラフ作成 暮らしのパソコンいろは 表のデータをグラフにするとデータの内容が視覚化され とてもわかりやすくなります ネット通販売上件数 を表すグラフを作成しましょう Excel2013 資料 C を開いておきましょう 1. グラフの構成要素 ネットショッピング購入状況ネット通販年代別利用

目次 1 章 SPSS の基礎 基本 はじめに 基本操作方法 章データの編集 はじめに 値ラベルの利用 計算結果に基づく新変数の作成 値のグループ化 値の昇順

ANOVA

テレビ学習メモ 数学 Ⅰ 第 40 回 第 5 章データの分析 相関係数 監修 執筆 湯浅弘一 今回学ぶこと データの分析の最終回 今までの代表値を複合し ながら 2 種類のデータの関係を数値化します 相関係数は 相関がどの程度強いのかを表しています 学習のポイント 12 種類のデータの相関関係を

情報処理 基 礎

統計的データ解析

Microsoft PowerPoint ppt

PowerPoint プレゼンテーション

第 4 章事業収支シミュレーション 1. シミュレーションの作成 本章では アンケート調査結果から得られた9 月収支差プラスの事業所データ 4 をもとに その平均像をもとにした事業所 1か月当たりの事業実態のシミュレーションを試みることとする 試算にあたっては 利用者数の設定から 単月ベースの事業所

コレスポンデンス分Ⅵコレスポンデンス分析とは コレスポンデンス分析は, 多変量解析の 数量化 Ⅲ 類 と同様の手法です 行の要素と列の要素を使って数量化するとするという点で, 数量化 Ⅲ 類と基本的に同じなのですが, 数量化理論の場合は集計前のオリジナルデータから処理していくのに対し, コレスポンデ

Microsoft PowerPoint - データ解析基礎4.ppt [互換モード]

Microsoft Word - SDA2012kadai07.doc

Microsoft PowerPoint - Econometrics pptx

Microsoft Word - Excel統計・2014サンプル.docx

JUSE-StatWorks/V5 活用ガイドブック

目次 1. はじめに Excel シートからグラフの選択 グラフの各部の名称 成績の複合グラフを作成 各生徒の 3 科目の合計点を求める 合計点から全体の平均を求める 標準偏差を求める...

Microsoft Word - SPSS2007s5.doc

関数の定義域を制限する 関数のコマンドを入力バーに打つことにより 関数の定義域を制限することが出来ます Function[ < 関数 >, <x の開始値 >, <x の終了値 > ] 例えば f(x) = x 2 2x + 1 ( 1 < x < 4) のグラフを描くには Function[ x^

次に Excel のメニューから 挿入 タブをクリックし 表示されたメニュー内の グラフ にある 折れ 線グラフ のボタンをクリックする するとサブメニューが表示されるので 左上の 折れ線 を選択する 挿入 メニューの グラフ クリック後 シート上の折れ線が追加される ここで 2 本グラフ があるの

> usdata01 と打ち込んでエンター キーを押すと V1 V2 V : : : : のように表示され 読み込まれていることがわかる ここで V1, V2, V3 は R が列のデータに自 動的につけた変数名である ( variable

<4D F736F F D208EC08CB18C7689E68A E F1918A8AD695AA90CD2E646F63>

PowerPoint プレゼンテーション

最小二乗法とロバスト推定

1. 気温と産業の関係 2. 気温と販売数の関係の分析 過去の気温データをダウンロードする 時系列グラフを描く 気温と販売の関係を調べる 散布図を描く 定量的な関係を求める 気温から販売数を推定する 2 週間先の気温予測を取得し 活用する 気温以外の要素の影響 3. 予報精度 過去の 1 か月予報

第4回

Microsoft Word - econome4.docx

2. 時系列分析 プラットフォームの使用法 JMP の 時系列分析 プラットフォームでは 一変量の時系列に対する分析を行うことができます この章では JMP のサンプルデ ータを用いて このプラットフォームの使用法をご説明します JMP のメニューバーより [ ヘルプ ] > [ サンプルデータ ]

重回帰式 y= x x 2 重症度 5 TC TC 重症度

14 化学実験法 II( 吉村 ( 洋 mmol/l の半分だったから さんの測定値は くんの測定値の 4 倍の重みがあり 推定値 としては 0.68 mmol/l その標準偏差は mmol/l 程度ということになる 測定値を 特徴づけるパラメータ t を推定するこの手

切片 ( 定数項 ) ダミー 以下の単回帰モデルを考えよう これは賃金と就業年数の関係を分析している : ( 賃金関数 ) ここで Y i = α + β X i + u i, i =1,, n, u i ~ i.i.d. N(0, σ 2 ) Y i : 賃金の対数値, X i : 就業年数. (

Microsoft Word - lec_student-chp3_1-representative

セミナー標準カリキュラム4.0

Microsoft PowerPoint - ch04j

平均値 () 次のデータは, ある高校生 7 人が ヵ月にカレーライスを食べた回数 x を調べたものである 0,8,4,6,9,5,7 ( 回 ) このデータの平均値 x を求めよ () 右の表から, テレビをみた時間 x の平均値を求めよ 階級 ( 分 ) 階級値度数 x( 分 ) f( 人 )

RSS Higher Certificate in Statistics, Specimen A Module 3: Basic Statistical Methods Solutions Question 1 (i) 帰無仮説 : 200C と 250C において鉄鋼の破壊応力の母平均には違いはな

7. フィリップス曲線 経済統計分析 (2014 年度秋学期 ) フィリップス曲線の推定 ( 経済理論との関連 ) フィリップス曲線とは何か? 物価と失業の関係 トレード オフ 政策運営 ( 財政 金融政策 ) への含意 ( 計量分析の手法 ) 関数形の選択 ( 関係が直線的でない場合の推定 ) 推

相関分析・偏相関分析

計量経済学の第一歩 田中隆一 ( 著 ) gretl で例題と実証分析問題を 再現する方法 発行所株式会社有斐閣 2015 年 12 月 20 日初版第 1 刷発行 ISBN , Ryuichi Tanaka, Printed in Japan

簿記教育における習熟度別クラス編成 簿記教育における習熟度別クラス編成 濱田峰子 要旨 近年 学生の多様化に伴い きめ細やかな個別対応や対話型授業が可能な少人数の習熟度別クラス編成の重要性が増している そのため 本学では入学時にプレイスメントテストを実施し 国語 数学 英語の 3 教科については習熟

Excel2013 ピボットテーブルを使った分析

Excelを用いた行列演算

A. 表の作成 はじめに 講座テキストページに保存されている表 1 の元データをエクセル 2010 にコピーします (No1) 講座テキスト (Web ページ ) に示した表 1 過去 12 年間の為替と外貨準備の推移 のデータ表を選択する この表 1 を選択した状態で WEB ページの 編集 コピ

Kumamoto University Center for Multimedia and Information Technologies Lab. 熊本大学アプリケーション実験 ~ 実環境における無線 LAN 受信電波強度を用いた位置推定手法の検討 ~ InKIAI 宮崎県美郷

二次関数 1 二次関数とは ともなって変化する 2 つの数 ( 変数 ) x, y があります x y つの変数 x, y が, 表のように変化するとき y は x の二次関数 といいます また,2 つの変数を式に表すと, 2 y x となりま

経済統計分析1 イントロダクション

Microsoft Word - NumericalComputation.docx

Microsoft PowerPoint - zairiki_3

スライド 1

計算機シミュレーション

Microsoft Word - Excel2.doc

Microsoft PowerPoint - H17-5時限(パターン認識).ppt

Microsoft PowerPoint - sc7.ppt [互換モード]

3. 統計関数による回帰直線の導出 Excelが備えている関数を用いて 回帰直線の導出を行ってみることにする (1) 回帰係数の導出 ( 関数 SLOPE とINTERCEPT 1 ) Y=a+bX という回帰モデルにおいて SLOPE は回帰直線の傾き b を INTERCEPT は切片 a を求

(Microsoft Word - Excel\211\236\227p6\217\315.docx)

PowerPoint プレゼンテーション

測量試補 重要事項

<4D F736F F F696E74202D E738A5889BB8BE688E68A4F82CC926E89BF908492E882C98AD682B782E98CA48B862E707074>

Microsoft Word - reg2.doc

ドリルダウン棒グラフを右クリックすると ドリルダウン が選択でき ドリルダウンすることで更に細かな視点で構成比を確認できます 例えば グラフの出力値を 品種 にしてドリルダウンで メーカー を設定すると 選択された品種の中でどのメーカーが売上に貢献しているかを確認することが可能です 該当商品の確認棒

Microsoft PowerPoint - Econometrics

Microsoft Word - Stattext13.doc

回帰分析の用途・実験計画法の意義・グラフィカルモデリングの活用 | 永田 靖教授(早稲田大学)

変更された状態 同様に価格のセルを書式設定する場合は 金額のセルをすべて選択し 書式 のプルダウンメニューか ら 会計 を選択する すると が追加され 金額としての書式が設定される 金額に と が追加 会計 を設定 2.2. テーブルの設定 ここでは 書式設定された表をテーブルとして Excel に

スライド 1

Transcription:

Excel による データ分析 多変量解析編 矢野佑樹 2013/07/27

Excel で学ぶデータ分析 ( 多変量解析編 ) 多変量解析では, 気温とアイスの売上個数の関係や, 最寄り駅からの距離と来店者数の 関係など,2 つ以上の変数を一度に分析します. では, 早速 2 つのデータ間の関係を Excel によって分析しましょう. < 散布図と相関 > 例 1. あるアイスクリーム販売店では,1 日あたりの適性在庫量を確保するために, アイ スクリーム販売量と最高気温の関係を知りたいと考えています. 実際にデータを集 めてみると, 以下の表のようになりました. 日付 最高気温 ( 度 ) 販売量 ( 個 ) 8 月 1 日 31 100 8 月 2 日 30 95 8 月 3 日 36 150 8 月 4 日 29 88 8 月 5 日 27 80 8 月 6 日 30 91 8 月 7 日 32 112 8 月 8 日 31 105 8 月 9 日 33 125 8 月 10 日 34 140 8 月 11 日 27 80 8 月 12 日 29 90 8 月 13 日 28 87 8 月 14 日 32 119 散布図を作成する 1. ice_cream.xlsx というファイルを開く. 2. C2~D16 までの範囲を選択し, 挿入タブの散布図の中にある 散布図 ( マーカーのみ ) を選択する. グラフを選択したまま右クリックをして, グラフの移動 を押し, 新しいシート を選択する. 3. グラフのレイアウトから, グラフタイトルと軸ラベルを追加する. グラフタイトルに 最高気温とアイスクリーム販売量の散布図, 縦軸に 販売量 ( 個 ), 横軸に 最高気温 ( 度 ) と入力する. 4. 軸の目盛の最小値を指定する場合は, 軸を選択し, 軸の書式設定 軸のオプション で, 最小値に固定値 ( 例えば横軸であれば 20) を指定する. 1

フォントサイズなどを調整すると, 以下のような散布図が出来上がったと思います. 散布図から, 最高気温が高ければ販売量も多くなるという関係があることがわかります ( 正 の相関 ).2 変数間の関係を分析したいときは, まず散布図を描いて視覚的にデータの特徴 を捉えることをお勧めします. 相関係数を計算する 1. 分析ツール の 相関 をクリックする. 2. C2~D16 までの範囲を選択し, 新規ワークシートに相関係数を出力する. データ方向は 列 を選択し, 先頭行をラベルとして使用 にチェックを入れる. 以下の表が, 新しいワークシートにできたと思います. 最高気温 ( 度 ) 販売量 ( 個 ) 最高気温 ( 度 ) 1 販売量 ( 個 ) 0.973957624 1 相関係数は約 0.97 ですので, 最高気温とアイスクリームの販売量の間には 強い正の相関 2

があると判断できます. 一般に, 相関係数と関連性の強さは以下の表のようになっていま すので, 参考にしてください. 相関係数 関連性の強さ ( 正の相関 ) 相関係数 関連性の強さ ( 負の相関 ) 0~0.2 ほとんど関連なし ( 無相関 ) -0.2~0 ほとんど関連なし 0.2~0.4 やや関連あり -0.4~-0.2 やや関連あり 0.4~0.7 かなり関連あり -0.7~-0.4 かなり関連あり 0.7~1.0 強い関連あり -1.0~-0.7 強い関連あり 演習問題 1 以下の表は, あるドラッグストアチェーンの店舗の売上高, 店舗面積, 駐車場面積のデータを示しています. 新たな店舗を出店する場合, 店舗面積と駐車場面積のどちらを広くした方がよいでしょうか. 店舗面積と売上高, 駐車場面積と売上高 の散布図を作成し, それぞれの相関係数を求めて分析してください.drug_store.xlsx 店舗 店舗面積 (m 2 ) 駐車場面積 (m 2 ) 売上高 ( 万円 ) 1 970 420 3200 2 680 500 2000 3 530 460 1600 4 880 250 3100 5 740 330 2800 6 640 400 2900 7 500 260 2600 8 480 310 2000 9 670 400 2600 10 620 200 2400 11 630 300 2500 12 770 480 2800 13 860 490 3200 14 560 500 2800 15 760 320 3000 16 570 170 2200 17 800 490 3100 18 810 510 3000 19 760 500 2900 20 910 360 3400 3

< 単回帰分析 > 散布図及び相関係数の値から,2 種類のデータ間の関係の強さがわかりましたが, それらの関係を数式で表し, 予測などに用いることはできないでしょうか. そこで, データの集まりについて, できるだけ真ん中を通る直線を描くことを考えます ( データを代表する一本の直線 ). この直線のことを回帰直線と呼びます. この手法は実証分析などでもよく用いられます. 直線の引き方 x と y という 2 つの変数間の関係を考えます. ここで, x の値が y の値に影響を与えるという因果関係を想定します. 例えば, 最高気温とアイスクリーム販売量の例では, 最高気温 ( x ) がアイスクリームの販売量 ( y ) に影響を与えると考えられます. 下の x と y の散布図の中に, データのできるだけ真ん中を通る直線が描かれているのがわかると思います. この回帰直線は, 直線と観測値の y 軸方向のずれ ( つまり, 観測値から直線までの縦のずれ ) を全体として最小にするように描かれています. より専門的には, それぞれの観測値と直線の y 軸方向のずれの二乗をすべて足し合わせたもの ( 平方和 ) を最小にするように直線の式が決められますが, ここでの詳しい解説は省略します ( 最小二乗法 ). 4

この直線の式を一般的に表すと, y a bxと書くことができ, データから a と b の値を最小二乗法によって求めることで, 回帰直線の式を導くことができます. 計算は Excel が自動的に行ってくれます. では実際に,ice_cream.xlsx のデータを用いて回帰分析を行ってみましょう. 回帰直線を描く 1. 散布図でデータ系列を選択する. 2. 右クリックで 近似曲線の追加, もしくは グラフツール の レイアウト から その他の近似曲線オプション を選ぶ. 3. 近似曲線のオプションで, 線形近似 を選択し, グラフに数式を表示する と グラフに R-2 乗値を表示する にチェックを入れる. 以下のようにデータを代表する一本の線形の近似曲線 ( 回帰直線 ) が描かれたと思います. 数式は, 販売量 ( 個 )= 8.1841 最高気温 ( 度 )- 146.36 であることを表していま す. また, R 2 ( 決定係数 ) は直線の当てはまりの良さを表しており,0~1 の間の値を取り ます.1 に近ければ近いほど, 直線がよく当てはまっていることがわかります. 逆に 0 に近 ければ, 直線の当てはまりがよくないと言えます. この場合 0.9486 なので, 直線はよく当 てはまっているといえるでしょう. 5

では, この回帰式を用いて予測をしてみましょう. 例えば, 気温 35 度のときの販売量を 予測したいのであれば, 上の式に 35 を代入するだけで予測値が得られます. 販売量 ( 個 )= 8.1841 35-146.36 = 286.44-146.36 = 140.08 ( 約 140 個 ) このように回帰式を予測に用いることができますが, 分析に用いたデータの範囲からあま りにも離れている値を予測に用いることはお勧めできません. 回帰分析を実行して信頼性を確かめる ( より詳しい分析 ) 1. 分析ツール の 回帰分析 をクリックする. 2. 入力 Y 範囲で D2~D16 までを選択, 入力 X 範囲で C2~C16 までを選択する. 3. ラベル にチェックを入れ, 出力オプションでは 新規ワークシート を選択し, 残差 と 標準化された残差, 残差グラフの作成 にチェックを入れる. 以下のように結果が出力されたと思います. 回帰統計 重相関 R 0.973957624 重決定 R2 0.948593454 補正 R2 0.944309575 標準誤差 5.194804019 観測数 14 2 回帰統計 では, 重決定 R2 が重要です. 重決定 R2 は, 前に計算された決定係数 R と同じものです. 次に解説する重回帰分析の場合, 補正 R2( 自由度修正済み決定係数 ) の方がよいのですが, 単回帰分析の場合は重決定 R2 でもよいです. 重決定 R2 の値が 0.4 以上であれば, モデルの当てはまりに問題はないでしょう. 分散分析表 自由度 変動 分散 観測された分散比 有意 F 回帰 1 5975.596706 5975.596706 221.4333057 4.25809E-09 残差 12 323.8318655 26.98598879 合計 13 6299.428571 分散分析表 では, 一番右の 有意 F のところの値に着目してください. この値が,0.05 以下であれば, 係数の推定値の少なくとも一つは意味があるものであることを示していま す. この例では,4.25809E-09( 4.25809 10 9 ) で,0.05 よりも圧倒的に小さいので, モ デルが意味のあるものであることがわかります. 単回帰の場合は係数の P 値と一致する. 6

係数 標準誤差 t P- 値 切片 -146.3570857 16.91024584-8.65493542 1.66516E-06 最高気温 ( 度 ) 8.184147318 0.54998642 14.88063526 4.25809E-09 下限 95% 上限 95% 下限 95.0% 上限 95.0% -183.2013463-109.5128251-183.2013463-109.5128251 6.985829849 9.382464787 6.985829849 9.382464787 次の表では, 係数 とその P- 値 に着目してください. 切片の係数は, y a bx の式の a, 最高気温の係数は b の推定値になっています ( 前と同じ ). ここで重要なのが, 最高気温の P- 値です.P 値は, 推定された係数の値が 0 である確率を示しています. つまり, 最高気温とアイスクリームの販売量の間には関連性がない確率を表しているわけです. こ の例では,P 値が 4.25809E-09( 4.25809 10 9 ) というものすごく小さい値ですので, 関 連性がない確率はものすごく小さいと考えることができます. よって, データ間には関連性があると結論付けます. 一般に,P 値が 0.05 以下であれば, 推定された係数は意味のあるものであると考えてよいでしょう. 逆に 0.05 より大きな値であれば, データ間に関連性がない確率が高いと考えられます. 切片は 0 であってもよいので P 値は気にしなくて大丈夫です. 最後に, 直線 ( 予測値 ) と観測値の y 軸方向のずれを 残差 と呼びますが, その残差と最高気温 ( 度 ) のプロットを確認しましょう. 点の集まりにあまり規則性がないような感じであれば ( 無相関であれば ), 分析の信頼性には問題ないと考えてよいでしょう. 何かしらの規則性がある感じであれば ( 例えば, 最高気温が上がるにしたがって, 点の散らばりが大きくなる ), 不均一分散や系列相関といった問題が考えられます. より高度な分析手法が必要になりますので注意してください. 7

演習問題 2 以下の表は, ある商品を売る 20 人のセールスマンの営業活動の適性テストの得点と, テス ト後一定期間における販売実績 ( 個数 ) を示したものです. 適性テストの得点が販売実績 に結び付いているかを確かめてみましょう. 散布図の中に回帰直線を描き, 分析ツールで 回帰分析を行ってください. 残差グラフも作成しましょう. また, 新たに採用されたセー ルスマンの適性テストの得点が 48 点であった場合, 商品の販売個数を予測してみましょう. sale.xlsx No 適性テスト得点 販売実績 ( 個 ) 1 41 32 2 35 20 3 34 30 4 40 24 5 33 27 6 42 28 7 37 31 8 42 33 9 30 25 10 43 40 11 38 29 12 38 33 13 46 36 14 36 23 15 32 22 16 43 38 17 42 26 18 30 21 19 41 30 20 45 30 < 重回帰分析 > 単回帰分析では, ある 1 つの変数 x の値が, もう 1 つの変数 y の値に影響を与えるという ことを考えました. では,2 つ以上の変数が y の値に影響を与えるケースを考えるときはど のようにすればよいでしょうか.y の動きを説明する変数が 2 つ以上ある場合は, 単回帰分 析の式を拡張して重回帰分析を行います. 例えば, あるドラッグストアチェーンの店舗面 積 x1 と駐車場面積 x2 が, 売上高 y ( 演習問題 1 のデータ ) にどのような影響を与えている かどうかを分析してみます. 拡張された式は, y a0 a1x1 a2x2 となり, a0, a1, a2 は推定 するパラメータです. とにかく,Excel で重回帰分析を行ってみましょう. 手順は単回帰分 析のときと同じですが, 入力 X 範囲を拡張します. 8

重回帰分析を実行する 1. drug_store.xlsx を開き, 分析ツール の 回帰分析 をクリックする. 2. 入力 Y 範囲で E2~E22 までを選択, 入力 X 範囲で C2~D22 までを選択する. 3. ラベル にチェックを入れ, 出力オプションでは 新規ワークシート を選択し, 残差 と 標準化された残差, 残差グラフの作成 にチェックを入れる. 以下のように結果が出力されたと思います. 回帰統計 重相関 R 0.796174438 重決定 R2 0.633893736 補正 R2 0.59082241 標準誤差 300.3725329 観測数 20 重回帰分析の場合, 補正 R2( 自由度修正済み決定係数 ) に着目してください. 補正 R2 の値が 0.4 以上であれば, モデルの当てはまりに問題はないでしょう. この場合,0.59 なので, 当てはまりの良さはまあまあです. 補正 R2 の方がよい理由の一つとしては, 重回帰分析では変数の数が増えると決定係数がどんどん大きくなっていってしまうという計算上の問題があるからです. 分散分析表自由度 変動 分散 観測された分散比 有意 F 回帰 2 2655698 1327849 14.71730281 0.000195 残差 17 1533802 90223.66 合計 19 4189500 分散分析表 では, 有意 F の値が 0.05 以下であれば, 推定された係数の少なくとも一 つは意味があるものであることを示しています. この例では 0.000195 ですので, 推定され たモデルが意味のあるものであることがわかります. 係数 標準誤差 t P- 値 切片 889.568729 380.0692 2.340544 0.031706393 店舗面積 (m2) 2.690506489 0.509822 5.277349 6.15931E-05 駐車場面積 (m2) -0.226815207 0.657193-0.34513 0.734231971 この表では単回帰のときと同様に, 係数 とその P- 値 に着目してください. 切片の係数は, y a0 a1x1 a2x2 の式の a 0, 店舗面積の係数は a 1, 駐車場面積の係数は a 2 の推定値になっています. 上述の通り,P 値は推定された係数の値が 0 である確率を示しています. 9

P 値を見ると, 店舗面積の P- 値は非常に低く, 駐車場面積の P- 値は 0.73 と 0.05 よりだいぶ大きいことがわかります. このことと係数の符号から, 店舗面積が広くなれば売上高が上がるという関係があり, 駐車場面積は売上高には影響を及ぼさないということが言えます. よって, 駐車場面積はモデルから除外してしまってよいでしょう. つまり, 店舗面積から売上高を予測する単回帰分析でよいということになります. 重回帰分析 (2) 例 2. 次の表は,C 社が発売している既存の缶コーヒーブランドの, 初年度の販売ケース 数, それにかけた広告費と販売促進費のデータを示しています.marketing.xlsx ブランド 広告費 ( 万円 ) 販促費 ( 万円 ) 販売ケース数 ( 万ケース ) A 6200 5900 2500 B 8000 5900 3000 C 6700 5500 2200 D 5100 4000 1000 E 6300 6400 2500 F 7500 6500 3100 G 5500 5500 1500 H 6500 5700 2400 I 5900 5100 1900 J 9900 6500 3400 上と同じ手順で分析すると, 以下のような結果が得られます. 回帰統計 重相関 R 0.964261877 重決定 R2 0.929800967 補正 R2 0.9097441 標準誤差 221.7869823 観測数 10 分散分析表 自由度 変動 分散 観測された分散比 有意 F 回帰 2 4560673.741 2280336.871 46.3582364 9.17E-05 残差 7 344326.2586 49189.46551 合計 9 4905000 10

係数 標準誤差 t P- 値 切片 -2455.442508 560.6626773-4.37953623 0.003236291 広告費 ( 万円 ) 0.273289776 0.072272235 3.781393716 0.006879744 販促費 ( 万円 ) 0.518948004 0.133308809 3.892826039 0.00595366 補正 R2 の値を見るとモデルの精度には問題がないことがわかります. 広告費と販促費の P 値は共に 0.05 より小さく, 係数の符号はプラスですので, どちらかもしくは両方増えれば販売ケース数は多くなるということがいえます. 販売ケース数の予測には以下の式を使います. 販売ケース数 = 0.27 広告費 + 0.52 販促費 - 2455.44 もし, 新たな商品 ( ブランド ) を追加するときに, 広告費 8200 万円, 販促費 5800 万円を 設定するならば, 販売ケース数は, 販売ケース数 = 0.27 8200 + 0.52 5800-2455.44 = 2774.56 2774 個と予測できます. ちなみに, 残差分析では 残差と予測値 の散布図 ( e Yˆ プロット ) を用います ( 説明変数が 2 つ以上あるため ). 点の集まりに規則性がなければ特に問題はないでしょう. 重回帰分析における注意点 予測に用いる変数間に高い強い相関があると, 多重共線性という問題が発生します. 説明 変数間に 0.7~1 の強い相関がある場合は注意してください. 11

< 数量化理論 Ⅰ 類 > 数量化理論 Ⅰ 類は, 0, 1 データを用いた回帰分析です. よって分析手法はこれまで と同じですが, データの質が異なります. 例を用いて解説します. 例 3. 次の表は, あるチョコレート菓子の様々なブランドが売り出されたときの, テレビ CM の有無と新聞広告の有無, そのとき対象となったお菓子の認知率のデータを示 しています.ad.xlsx ブランドテレビ CM 新聞広告認知率 (%) A 2 2 21.8 B 1 1 48.3 C 1 1 46.7 D 2 1 28.3 E 2 2 16.7 F 1 2 25.8 G 2 1 34.2 H 1 1 50.0 I 1 2 34.3 J 2 1 21.0 K 1 1 43.5 L 1 1 41.3 M 1 1 41.7 N 2 1 26.2 O 1 2 27.7 1 は あり,2 は なし を示している まず, このデータを次のような 0, 1 データ ( 質的データ ) に変換します. ブランドテレビ CM ありテレビ CM なし新聞広告あり新聞広告なし認知率 (%) A 0 1 0 1 21.8 B 1 0 1 0 48.3 C 1 0 1 0 46.7 D 0 1 1 0 28.3 E 0 1 0 1 16.7 F 1 0 0 1 25.8 G 0 1 1 0 34.2 H 1 0 1 0 50.0 I 1 0 0 1 34.3 J 0 1 1 0 21.0 K 1 0 1 0 43.5 L 1 0 1 0 41.3 M 1 0 1 0 41.7 N 0 1 1 0 26.2 O 1 0 0 1 27.7 該当するなら 1, 該当しないなら 0 12

分析には, あり と なし のどちらかのデータを用います. なぜなら, どちらか一方が決まればもう一方の値も決まるので,2 つも必要ないからです. 今回は, テレビ CM あり と 新聞広告あり の列を使って分析を行います. 今回のデータを用いて重回帰分析を行うと以下の結果が得られます. 回帰統計 重相関 R 0.918640707 重決定 R2 0.843900749 補正 R2 0.817884207 標準誤差 4.621239212 観測数 15 分散分析表 自由度 変動 分散 観測された分散比 有意 F 回帰 2 1385.443 692.7216 32.43708377 1.44679E-05 残差 12 256.2702 21.35585 合計 14 1641.713 係数標準誤差 t P- 値切片 16.12666667 2.531157 6.371263 3.55044E-05 テレビCMあり15.22222222 2.435607 6.249868 4.25526E-05 新聞広告あり 12.86 2.531157 5.080681 0.000270346 補正 R2 も有意 F の値も問題なく, テレビ CM ありと新聞広告ありの P 値も小さい値なの で問題ありません. 係数の値から, 認知率の予測式がわかります. 認知率 = 15.22 テレビ CM あり + 12.86 新聞広告あり + 16.13 ここで, テレビ CM ありと新聞広告ありの値は 0 か 1 ですので, 例えばテレビ CM ありで 新聞広告なしの場合の認知率の予測値は, 認知率 = 15.22 1 + 12.86 0 + 16.13 = 31.35(%) と予想されます. ところで, 数量化理論 Ⅰでは係数の値を正規化します. 調整は以下のように行います. テレビ CM なし の 1 の数は 6 で, 分析から除外しているので係数は 0 とします. テレビ CM あり の 1 の数は 9 で, 係数は 15.22 です. その平均値を求めると, ( 0 6 15.22 9) /15 9.132 13

重回帰分析で求めた係数からこの値を差し引いた値を, 各ダミー変数への重みとします. テレビ CM なしは 0 9.132 9. 132, テレビ CM ありは15.22 9.132 6. 09となります. 同様 に新聞広告なしは 8. 57, 新聞広告ありは 4. 29となります. 定数項を調整してあげると, 認知率 = 6.09 テレビ CM あり + 4.29 新聞広告あり + 33.83 となります. もう一つの式は, 認知率 = -9.13 テレビ CM なし -8.57 新聞広告なし + 33.83 となります. 認知率が前と同じになるかを計算してみましょう. < コンジョイント分析 > 例 4. 以下の表は来年発売可能なノートパソコンの 属性 と 水準 を示しています. 属性 水準 バッテリー持続時間 3 時間 6 時間 ハードディスク容量 100GB 160GB メモリ容量 512MB 1GB 価格 5 万円 10 万円 どのような組み合わせの商品がよいでしょうか? 新商品開発のヒントを得るためには消費者アンケートが有効です. この場合,2 水準に対して属性が 4 つあるので, すべての組み合わせについて満足度を聞くとすれば,16 通りの商品案を提示しなければなりません. しかし, あまり案が多いとアンケートに回答する側が大変になってしまいます. そこで, 商品案を絞りつつバランスの良い商品案リストを作ります. コンジョイント分析では 直交表 というものを使って商品案を作成します. 商品案 持続時間 ハードディスク容量 メモリ容量 価格 1 3 時間 100GB 512MB 10 万 2 3 時間 100GB 512MB 20 万 3 3 時間 160GB 1GB 10 万 4 3 時間 160GB 1GB 20 万 5 6 時間 100GB 1GB 10 万 6 6 時間 100GB 1GB 20 万 7 6 時間 160GB 512MB 10 万 8 6 時間 160GB 512MB 20 万 14

上の表は,L8 直交表を用いて作成した商品案です. 今回はそれぞれの商品案について, 消 費者に 7 段階 (1 点 ~7 点 ) で評価してもらうことにしました. 以下の表は, その結果をま とめたものです. 満足度 商品案持続時間 ハードディメモリスク容量容量 価格 回答者 1 回答者 2 回答者 3 回答者 4 1 3 時間 100GB 512MB 10 万 2 4 4 4 2 3 時間 100GB 512MB 20 万 1 1 1 1 3 3 時間 160GB 1GB 10 万 6 6 7 5 4 3 時間 160GB 1GB 20 万 4 3 3 2 5 6 時間 100GB 1GB 10 万 5 5 7 7 6 6 時間 100GB 1GB 20 万 2 2 2 3 7 6 時間 160GB 512MB 10 万 7 7 5 6 8 6 時間 160GB 512MB 20 万 3 2 3 2 分析をするためには, それぞれの回答者について商品 1~8 までのデータを, 以下のような 0, 1 データに変換します. 持続時間 ハードディスク容量 メモリ容量 価格 回答者商品案 3 時間 6 時間 100GB 160GB 512MB 1GB 10 万 20 万 満足度 1 1 1 0 1 0 1 0 1 0 2 1 2 1 0 1 0 1 0 0 1 1 1 3 1 0 0 1 0 1 1 0 6 1 4 1 0 0 1 0 1 0 1 4 1 5 0 1 1 0 0 1 1 0 5 1 6 0 1 1 0 0 1 0 1 2 1 7 0 1 0 1 1 0 1 0 7 1 8 0 1 0 1 1 0 0 1 3 2 1 1 0 1 0 1 0 1 0 4 回答者 2,3,4, についても同様にデータを加工します. 加工が終わったら, 再度回帰分析を用いて分析をします. 数量化理論 Ⅰ 類のときと同様に,0,1 データなので, 一方の列を削除して分析を行います. 今回は,3 時間の列,100GB の列,512MB の列,20 万の列を削除します. データが加工できたら, 回帰分析 の 入力 Y 範囲 に満足度の列を指定し, 入力 X 範囲 には 6 時間,160GB,1GB,10 万の列を指定して重回帰分析を行ってください (laptop.xlsx). 結果を見ると, 補正 R2 も有意 F の値も問題なく, すべての説明変数の P 値は 0.05 よりも小さくなっています. 15

回帰統計 重相関 R 0.928585 重決定 R2 0.86227 補正 R2 0.841865 標準誤差 0.810807 観測数 32 分散分析表 自由度 変動 分散 観測された分散比 有意 F 回帰 4 111.125 27.78125 42.25880282 3.01072E-11 残差 27 17.75 0.657407 合計 31 128.875 係数 標準誤差 t P- 値 切片 0.625 0.320499 1.950081 0.061620261 6 時間 0.875 0.286663 3.05236 0.005051579 160GB 1.25 0.286663 4.360514 0.00016954 1GB 1 0.286663 3.488411 0.001682873 10 万 3.25 0.286663 11.33734 9.00056E-12 係数の値から, 満足度の予測式は以下のように書けます. 満足度 = 0.875 持続時間 +1.25 HDD+1 メモリ容量 +3.25 価格 +0.625 機能高水準で 20 万の商品と, 機能は低水準だが 10 万円の商品のどちらの満足度が高いで しょうか?(3.76,3.88) 属性の重要度それぞれの係数の値は, 説明変数が 0 から 1 へ変化したときの満足度の変動幅を表しています. よって, すべての係数の値を合計し, それに対するそれぞれの係数の大きさの割合を求めることで, 属性の重要度がわかります. この例では価格が満足度の変動幅の 50% を占めていますので, 消費者が価格を非常に重要視していると判断できます. コンジョイント分析の注意点あまりにも 属性 もしくは 水準 の数が多くなると, 直交表を用いて絞り込んでも商品案が多くなってしまいます. 分析対象とする属性と水準をなるべく絞り込んでから直交表を用いるようにしてください. 16

付録 Ⅰ: 残差分析 回帰分析において, 残差の特徴を見ることは非常に重要です. 単回帰の場合は, 散布図を描くことで特徴がすぐわかりますが, 重回帰分析ではグラフを描くのが大変なため, 残差の特徴で分析の正確さを判断します. 以下の 4 つのデータセットで回帰分析を行うと, すべてほぼ同じ回帰式となります. しかし, データの特徴 ( 残差の特徴 ) は全然違いますので, 確かめてみてください. パターン1 パターン2 パターン3 パターン4 no x1 y1 x2 y2 x3 y3 x4 y4 1 10 8.04 10 9.14 10 7.46 8 6.58 2 8 6.95 8 8.14 8 6.77 8 5.76 3 13 7.58 13 8.74 13 12.74 8 7.71 4 9 8.81 9 8.77 9 7.11 8 8.84 5 11 8.33 11 9.26 11 7.81 8 8.47 6 14 9.96 14 8.1 14 8.84 8 7.04 7 6 7.24 6 6.13 6 6.08 8 5.25 8 4 4.26 4 3.1 4 5.39 19 12.5 9 12 10.84 12 9.13 12 8.15 8 5.56 10 7 4.82 7 7.26 7 6.42 8 7.91 11 5 5.68 5 4.74 5 5.73 8 6.89 出所 :F.J.Anscombe, Graphs in Statistical Analysis, The American Statistician, Vol.27, No.1,1973, pp.17-21. 17

パターン 1 は特に問題はありません. パターン 2 は, 回帰式が線形でないことを示しています. また, このようなパターンは, 系列相関がある場合によく見られます. パターン 3 は,1 つの外れ値が回帰直線を曲げてしまう ( 大きな影響を与えてしまう ) ことを示しています. このような場合には, 外れ値を除くことで違った回帰直線が得られます. パターン 4 は,1 つの外れ値が全く異なった結果を与えることを示しています. 外れ値を除いたら垂直な回帰線が得られることがわかります. とにかく, 規則性の見られる残差がプロットされる場合には注意が必要です. 付録 Ⅱ: 分析ツールが表示されていない場合 1. ファイル オプション をクリック 2. アドインの中の 分析ツール を選択し, 設定を押す. 3. 分析ツール にチェックを入れて OK を押す. データタブの中に データ分析 ア イコンができる. 18