スライド 1 - PDF 無料ダウンロード

経営系データ解析

回帰分析散布図に直線を当てはめる

回帰直線の式 y = b + b x +... + b x + i 0 1 1i n ni e i 従属変数または被説明変数目的変数定数項 ( 偏 ) 回帰係数独立変数または説明変数誤差変数誤差項参考 URL: 回帰分析の基礎理論 : http://www.sci.kagoshima-u.ac.jp/~itls/japanese/chapter5/index.html

回帰直線の選び方 y= 39.065183-0.6449298*x 平成 18 年時の 6 歳から 17 歳までの男女の平均身長体重

最小 2 乗法残差平方和の最小となる式実測値と予測値の平方和が最小値を2 乗する符号をあわせる為絶対値は扱いが複雑大きい残差はより大きく強調大きな残差を排除できる

式の推定 weight(kg) height(mm) 1 30.4 14.5 2 26.5 17.1 3 29.2 16.5 4 29.5 15.5 5 25.9 16.6 6 29.6 18.8 7 26.2 19.1 8 28.1 17.5 9 31.1 14.6 10 26.9 16.1 平均 28.34 16.63 分散 3.50 2.45 b 1 = y + e i = b0 + b1 x1 i 偏差積和説明変数の平方和 = i 共分散説明変数の分散偏差積和 : 平均との差を掛け合わせた結果の合計 b -14.20 22.02-1.58 2.45 1 = = = -0.6449298

式の推定 weight(kg) height(mm) 1 30.4 14.5 2 26.5 17.1 3 29.2 16.5 4 29.5 15.5 5 25.9 16.6 6 29.6 18.8 7 26.2 19.1 8 28.1 17.5 9 31.1 14.6 10 26.9 16.1 平均 28.34 16.63 分散 3.50 2.45 y + e b 0 i = b0 + b1 x1 i = yi b1 x1 i e b 1 = -0.6449298, x i = 16.63, yi = b = 28.34 0.6449298 16.63 0 b 0 = 39.065183 i i 28.34 y = 39.065183-0.6449298x

単回帰分析推定された式寄与率決定係数 2 R 推定の偏差平方和 = 目的変数の偏差平方和推定の偏差平方和誤差の平方和目的変数の偏差平方和回帰式の有意性の検定 F 検定と t 検定 p 値が 0.05 および 0.01 より小さいかどうか? t 値 = 推定値に対する標準誤差の比

重回帰分析の手順 1 データ入力 2 変数の選択と散布図行列の表示分析多変量多変量の相関 (Y, 列に相関関係を見たい変数名を割り当てる ) (By に変数を割り当てるとその変数で層別の散布図行列が作成される ) 3 散布図を動かしてみる ( 外れ値の有無や相関関係の確認 ) ツール手のひらツール

重回帰分析の手順 4 変数の選択と重回帰分析の実行分析モデルのあてはめ 1) 被説明変数 ( 従属変数 ) を役割変数の選択の Y に割り当てる 2) 説明変数 ( 独立変数 ) をモデル効果の構成に追加で指定する 3) 手法を標準最小 2 乗に設定してモデルの実行をクリックする 5 結果の解釈 1) 自由度調整 R2 乗 2) 分散分析のp 値 ( モデルのF 検定 ) 3) パラメータ推定値のp 値の列 ( 偏回帰係数のt 検定 )

重回帰分析の手順 6 残差の分析 1) 応答 Y のプルダウンメニューの列の保存スチューデント化された残差を選択 2) データテーブルにスチューデント化された残差が記録されるのでこのスチューデント化された残差と各説明変数との間の無相関を散布図から確認する最小 2 乗法によるモデルのあてはめの前提 1) 誤差項が各ケースで独立 2) 誤差項は平均が 0 で分散は一定 3) 誤差項は正規分布に従う

95% 信頼区間と平均線の表示図示した 95% 信頼区間の曲線が平均線と交わっているかどうかで 5% 有意水準での回帰式の有意性の検定を視覚的に行うことができる

残差分析残差分析 ( 残差 = 観測値 - 予測値 ) 残差をプロットすることにより 1 外れ値や異常値のチェックおよびこれによる隠された要因の検討 2 点の並び方のクセやトレンドから誤差の等分散性や系列相関さらに非線形性のチェック 1) 残差のヒストグラムから正規分布にしたがっているといえるか? 2) 残差の + と - の符号の数は同数か? 3) 残差の中央値はゼロに近いか? 4) 残差と目的変数および説明変数との間の散布図から何らかの関係が見つからないか? を検討するダービンワトソン比 : 時系列データの自己相関のチェックに 2 を中心に 0 から 4 までの値を取る

三次元散布図

三次元散布図 3 次元表示で視覚的に確認旧称は回転プロット手のひらツールで回転させる Shift Alt の各キーを押しながら Ctrl

モデルのあてはめ被説明変数目的変数従属変数説明変数決定変数独立変数

あてはめ結果の解釈 1 自由度調整 R2 乗 ( 自由度調整済み決定係数 ) 2 分散分析表による F 検定 ( 帰無仮説 : 回帰式は意味をもたない ( 切片を除く全ての回帰パラメータが 0 である )) 3 偏回帰係数の t 検定 ( 帰無仮説 : 真のパラメータはゼロである ) 4 偏回帰係数の推定値の符号

残差分析効果の検定は連続量の説明変数の場合には t 検定と同じ残差分析製造条件をチェック他の要因はないか?

残差と変数との関係スチューデント化された残差 : i 番目の残差について i 番目の残差を除いた他の残りの残差から計算された残差の標準偏差を用いて基準化した残差外的にスチューデント化された残差とも言う単に全残差の標準偏差で基準化された残差を標準化残差あるいは内的にスチューデント化された残差と言う

残差と各説明変数との間の関係スチューデント化された残差と説明変数との間に何の関係も見られないことが望ましい

てこ比プロット個々の偏回帰係数の有意性に関して 5% 有意水準で視覚的に判定できる

標準偏回帰係数目的変数と説明変数のそれぞれのデータを標準化してデータテーブルに保存この標準化されたデータを用いて重回帰分析を行うと得られる偏回帰係数はある説明変数が 1 標準偏差分だけ変化したとき目的変数は何標準偏差分だけ変化するかを示すことになり説明変数のスケール値やバラツキの大小には依存しないようにして各説明変数の目的変数への影響度の比較を行うことができるようになるこのようにして得られる偏回帰係数を標準偏回帰係数と呼ぶ

標準偏回帰係数の推定

重回帰分析演習 (1) 酸度の変数を追加して収率の変動を説明するモデルを構築せよバッチ番号 y: 収率 (%) x1: 圧力 ( 気圧 ) x2: 温度 ( ) x3: 酸度 (ph) 1 30.4 14.5 87.6 7.5 2 26.5 17.1 89.3 6.9 3 29.2 16.5 92.3 7.2 4 29.5 15.5 89.2 7.4 5 25.9 16.6 87 6.5 6 29.6 18.8 91.6 8.2 7 26.2 19.1 90 7.3 8 28.1 17.5 91.5 7.8 9 31.1 14.6 89.7 7 10 26.9 16.1 90.5 6.7

相関分析偏相関係数他の変数の影響を取り除いた純粋な目的変数と 1 つの説明変数との間の相関の程度を表す尺度目的変数と説明変数を残りの説明変数で回帰式にあてはめそれぞれの残差から求められる相関係数のこと

結果の解釈 1 自由度調整 R2 乗 ( 自由度調整済み決定係数 ) 2 分散分析表による F 検定 3 偏回帰係数の t 検定 4 偏回帰係数の推定値の符号

重相関分析演習 (2) 粘度が追加された以下のデータを用いて収率を説明するモデルを作成せよバッチ番号 y: 収率 (%) x1: 圧力 ( 気圧 ) x2: 温度 ( ) x3: 酸度 (ph) x4: 粘度 1 30.4 14.5 87.6 7.5 6.2 2 26.5 17.1 89.3 6.9 5.5 3 29.2 16.5 92.3 7.2 5.7 4 29.5 15.5 89.2 7.4 6.1 5 25.9 16.6 87 6.5 5 6 29.6 18.8 91.6 8.2 5.9 7 26.2 19.1 90 7.3 5 8 28.1 17.5 91.5 7.8 5.7 9 31.1 14.6 89.7 7 6.4 10 26.9 16.1 90.5 6.7 5.2

相関分析と相関偏相関係数

結果の解釈偏回帰係数の t 検定結果と偏回帰係数の推定値はどのように変化しただろうか?

偽相関同じ説明変数を用いた収率を目的変数とした重回帰分析の結果と比較してみよ粘度は収率を説明する原因系の変数ではなく収率と同様に圧力と温度と酸度で説明される結果系の変数ではないか収率と粘度との間の高い単相関は互いに共通した説明要因に起因する偽相関である可能性が強いようだ

説明変数の選択 PrincipleofParsimony( ケチの原則 ) 目的変数の予測という立場からは説明変数の数が増えるほど寄与率は高くなるがあまり寄与率は下げないでなるべく少数の説明変数で簡潔にモデルを記述したいという考え方有効な変数と不要な変数を選択して最適な回帰式を求めるには? 変数選択の方法 1 総当り法 2ステップワイズ法 ( 逐次変数選択法 ) 1) 変数増加法 2) 変数減少法 3) 変数増減法 4) 変数減増法 3 対話型変数選択法

ステップワイズ法による変数選択

説明変数の選択方法の選択方向で選択方法を選択 SSE: 誤差平方和 DFE: 誤差の自由度 MSE: 平均平方誤差 Cp:Mallow の Cp 基準 AIC: 赤池の情報量基準 AIC=nln(SSE/n)+2p AIC が最小であるモデルが最良のモデル経験的に F 値が 2 以上であれば有効な変数 2 未満であれば不要な変数とされている

ステップワイズ法の結果

多重共線性説明変数の中に互いに非常に相関の高い変数が含まれているときに起こる現象発生する問題 1 偏回帰係数を求めるとき大きな計算誤差を伴うかあるいは計算不能になってしまう 2 求められた偏回帰係数が 1 つのオブザベーションの追加やちょっとした誤差によって大きく変化してしまう 3 求められた偏回帰係数の符号が単相関係数の符号と合わない 4 寄与率 ( 決定係数 ) は高いのに個々の偏回帰係数は統計的に有意にならない対策 1 互いに関係をもった説明変数の一部を除去する 2 多重共線性を弱めるようなデータを追加する

多重共線性の例以下のデータを用いて重回帰分析を行ってみなさい ( 内田他すぐわかる JMP による多変量解析東京図書 2002 年より ) バッチ番号 y x1 x2 x3 1 30 10 20 15 2 32 12 24 17 3 30 14 28 19 4 33 16 32 19 5 30 18 36 22 6 35 20 40 24 7 35 22 44 24 8 37 24 48 25 9 37 26 52 25 10 39 28 56 26

質的変数を含んだ重回帰分析これまでのデータには A と B の異なる原産地からの原料が含まれていることがわかった原料の情報を新たな説明変数に加えて重回帰分析を試みよバッチ番号 y: 収率 (%) x1: 圧力 ( 気圧 ) x2: 温度 ( ) x3: 酸度 (ph) x5: 原料 1 30.4 14.5 87.6 7.5 A 2 26.5 17.1 89.3 6.9 B 3 29.2 16.5 92.3 7.2 B 4 29.5 15.5 89.2 7.4 A 5 25.9 16.6 87 6.5 B 6 29.6 18.8 91.6 8.2 A 7 26.2 19.1 90 7.3 B 8 28.1 17.5 91.5 7.8 B 9 31.1 14.6 89.7 7 A 10 26.9 16.1 90.5 6.7 B

結果の解釈 Marginal 法推定された回帰式は?

0 ー 1 型ダミー変数の導入

結果の違いは? Partial 法推定された回帰式は?

ダミー変数の作り方 partial 法 marginal 法 x1 x2 x3 x1 x2 x3 A 1 0 0 1 0 0 B 0 1 0 1 0 O 0 0 1 0 0 1 AB 0 0 0-1 -1-1 順序尺度の場合のJMP x1 x2 x3 1 0 0 0 2 1 0 0 3 1 1 0 4 1 1 1

多項式回帰モデルと線形回帰モデル西暦 VTR 生産台数 1970 50 1971 49 1972 114 1973 137 1974 124 1975 119 1976 288 1977 762 1978 1470 1979 2199 1980 4441 1981 9498 1982 13134 1983 18217 1984 28611 左に示すのは 1970 年から 1984 年までの国内 VTR 生産台数のデータであるこの生産台数の推移をうまく当てはめるモデルを推定しなさいヒント 1 年の取り方に工夫されたい 2 グラフでプロットしてみてデータの特徴を読み取られたい 32 次と 3 次の項を考えなさい

データ分析の例店舗名乗降客数店の広さ駐車台数売上高小田原 245 59 60 272 秦野 118 32 35 161 伊勢原 142 25 30 129 本厚木 249 55 45 252 海老名 174 49 40 204 藤沢 202 32 35 168 大和 254 54 45 242 相模大野 168 32 40 169 町田 224 42 50 224 新百合ヶ丘 186 45 45 202 成城学園前 212 56 50 259 経堂 145 32 30 165 下北沢 174 31 35 180 梅ヶ丘 82 38 30 131 代々木上原 177 34 40 215 出所 : Lotus1-2-3 活用多変量解析 ( 共立出版 )

参考文献内野治松木秀明上野真由美すぐわかるJMPによる統計解析東京図書 2002 年内野治松木秀明上野真由美すぐわかるJMPによる多変量解析東京図書 2002 年田久浩志林俊克小島隆矢 JMPによる統計解析入門 2002 年圓川隆夫多変量のデータ解析朝倉書店 1988 JMPのヘルプファイルや統計関係のウェブサイトも参考になります JMP をキーワードに検索エンジンで検索してみて下さい

多項式回帰 (1) 直線 ( 説明変数 x の 1 次式 ) y = ax + b 曲線 1( 説明変数の 2 次式 ) 2 y = ax + bx + c 曲線 2( 説明変数の 3 次式 ) 3 2 y = ax + bx + cx + d

多項式回帰 (2) 列を追加して計算式で説明変数 ( 西暦年 -1969) の 2 乗と 3 乗の列を作成する

多項式回帰 (3)

多項式回帰 (4)

多項式回帰 (5) 推定された多項式回帰モデルは y = 5318.13 2812.08 x + 271.686 x2

多項式回帰 (6) 推定された多項式回帰モデルは y = -2063.55 + 1970.32 x 452.007 x2+ 30.1539 x3

予測値のチェック

モデルは予測に使えるか? 1 マイナスの生産台数 23 次のモデル 1973 年から 76 年まで予測値が減少 31970 年頃 ( 少量生産 ) と 1980 年頃 ( 大量生産 ) で等分散性を仮定してよいか?

VTR 生産台数の対数変換 VTR 生産台数を対数変換してみると線形の関係が見られる

変数変換による線形回帰モデル推定された回帰モデル :lny = 2.797 + 0.496 x このモデルで生産台数を予測するには?

予測値の逆変換

対数変換モデルによる予測

JMP での変数変換による重回帰分析

JMP での対数変換モデルの推定結果ここに示された決定係数は変換後のデータに対するもの

数量化理論第 Ⅰ 類ダミー変数のみを用いた重回帰分析と同等チーム名観客動員数リーグ本拠地親会社業種前年度成績読売 304 セ首都圏新聞 A 中日 201 セその他新聞 A 広島 112 セその他市 A ヤクルト 222 セ首都圏メーカー B 大洋 154 セ首都圏市 B 阪神 213 セ関西電鉄 C 西武 181 パ首都圏電鉄 A 阪急 123 パ関西電鉄 A 日本ハム 124 パ首都圏メーカー B 南海 88 パ関西電鉄 B ロッテ 78 パ首都圏メーカー C 近鉄 101 パ関西電鉄 C 1987 年度プロ野球観客動員数と球団属性一覧

モデルの仮説

モデルのあてはめ

数量化理論第 Ⅰ 類の結果 (1) カテゴリスコアリーグ [ パ ] の係数 = - リーグ [ セ ] の係数 = -60.76087 本拠地 [ 首都圏 ] の係数 =- 本拠地 [ 関西 ] の係数 - 本拠地 [ その他 ] の係数 = 4.333333 + 42.24638 =46.57971 アイテムのレンジ = アイテムのカテゴリスコアの最大値 - カテゴリスコアの最小値有意性の判定

数量化理論第 Ⅰ 類の結果 (2)

残差の分析

数量化理論第 Ⅰ 類の応用 1. 2003 年度のデータを使用してプロ野球の観客動員数の予測を行ってみなさい 2. 兵庫県市町データを用いて数量化理論第 Ⅰ 類を適用した分析を考えてみなさい

判別関数分析サンプル番号カード使用状態家族構成数年齢年収 1 3 30 347 2 4 55 383 3 5 50 615 4 4 54 435 5 6 60 751 6 5 39 377 7 3 42 430 8 6 64 672 9 2 70 702 10 4 35 398 11 3 41 552 12 3 37 306 13 2 40 408 14 2 30 301 15 3 42 315 16 4 37 308 17 4 33 375 18 2 34 578 19 3 39 357 20 5 30 422

一変量の分布 ( 層別ヒストグラム ) カード使用状況とその他の変数との間にはどのような関係が存在するか?

層別散布図 (1)

層別散布図 (2)

回転プロット

判別関数分析 (1) 外的基準 ( 説明したい変数 ) を 0-1 型の変数に変換する

判別関数分析 (2) 0-1 型に変換された外的基準

判別関数分析 (3)

判別関数分析 (4)

判別関数分析 (5)

判別関数分析 (6) マハラノビスの汎距離による判別式を得るには外的基準 y の値として Ⅰ 群に Ⅱ 群に n2 /( n1 + n2) n /( n + n 1 を与えるこうすれば外的基準の値の総平均が 0 となり予測値の正負で判別が可能になるまた重回帰分析の変数選択や偏回帰係数の有意性の検討が判別関数分析にも応用できる 1 2 )

判別関数分析 (7) z = 1.362 + 0.116x1 + 0. 0218x となる直線 ( 線形判別関数 ) 2 Ⅱ 群 ( 異常 ) に判別 Ⅰ 群 ( 正常 ) に判別

判別関数分析 (8) MANOVA( 多変量分散分析モデル ) を指定説明変数を指定外的基準を指定

判別関数分析 (9) 判別結果をデータテーブルに保存する

判別関数分析 (10) 判別結果各群の重心からオブザベーションまでのマハラノビスの距離オブザベーションが各群に含まれる確率

判別関数分析 (11) 説明変数として家族構成員数と年齢に加えて年収も入れて分析を行ってみよ年収は判別に寄与していない!

数量化理論第 Ⅱ 類 (1) ダミー変数のみを用いた判別関数分析と同等リーグを外的基準にしてリーグの違いを分析してみよ 1987 年度プロ野球観客動員数と球団属性一覧チーム名観客動員数リーグ本拠地親会社業種前年度成績読売 304 セ首都圏新聞 A 中日 201 セその他新聞 A 広島 112 セその他市 A ヤクルト 222 セ首都圏メーカー B 大洋 154 セ首都圏市 B 阪神 213 セ関西電鉄 C 西武 181 パ首都圏電鉄 A 阪急 123 パ関西電鉄 A 日本ハム 124 パ首都圏メーカー B 南海 88 パ関西電鉄 B ロッテ 78 パ首都圏メーカー C 近鉄 101 パ関西電鉄 C

数量化理論第 Ⅱ 類 (2) リーグを 0 ー 1 型変数または 0.5 と -0.5 の値をとる変数に変換

数量化理論第 Ⅱ 類 (3) 分析結果を解釈してみると? R 2 = 1 ( S /( n p 1)) /( S /( n 1)) E T

数量化理論第 Ⅱ 類 (3)

主成分分析 (1) 多数の変数データから変数間の内部関連に基づく少数の主成分と呼ばれる合成変数を構成する分析法学生番号国語社会数学理科音楽美術保健体育技術家庭英語 1 55 59 38 66 29 32 29 36 61 2 36 49 35 57 63 62 55 66 45 3 53 58 16 41 67 54 50 50 48 4 78 80 42 65 85 75 69 76 70 5 6 19 38 59 49 47 43 57 26 6 41 43 49 66 74 64 63 75 49 7 73 78 57 77 61 62 53 65 73 8 21 29 38 58 64 58 52 65 32 9 50 55 22 51 58 58 51 46 52 10 61 69 57 71 68 61 53 64 63 11 73 80 66 88 43 48 42 60 80 12 56 69 79 91 55 50 50 72 73 13 56 53 30 50 73 72 63 62 45 14 35 43 35 49 57 53 45 47 38 15 37 52 54 71 81 72 70 80 51 16 61 66 53 74 69 62 56 74 63 17 39 55 56 69 82 70 68 78 52 18 37 41 23 42 53 50 37 44 37 19 40 45 60 72 73 67 59 76 48 20 54 65 55 72 81 73 68 85 66

主成分分析 (2)

主成分分析 (3) x1, x2,, xpのp 個の変数から新しい変数 z1, z2,, zmを作成することを考える z a x a x a x 1 = 11 1 + 12 2 + + 1p p z a x a x a x 2 = 21 1 + 22 2 + + 2 p p ::::: z + + a m = am 1x1 + am2x2 ここで z1からzmへと順にx1からxpまでの情報が最大限に集約されるように係数 aijを決めたいもとの変数の分散共分散行列の固有値と固有ベクトルを計算することに帰着される mp x p

主成分分析 (4) 通常は相関係数行列からを選択分散共分散行列からを選択すると変数のスケールのとり方に依存して分散共分散行列の値が変化する

主成分分析 (5) 固有値の総和 =p( 分散共分散行列からの場合は各変数の分散の総和 ) 第 k 主成分の寄与率 = 第 k 主成分の固有値 /p どこまでの主成分を考えるかの基準 1 累積寄与率 2 寄与率の低下の仕方 3 相関行列からの場合に固有値が1より大

主成分分析 (6) 主成分分析の結果 ( 各主成分の重み係数 = 主成分負荷量 = 固有ベクトル ) を保存

主成分分析 (7) 主成分の解釈 ( 主成分の意味の検討 ) 各主成分の散布図行列から各主成分のもつ意味を検討する

主成分分析 (8)

主成分分析 (9) 第 1 主成分綜合点第 2 主成分第 3 主成分で特殊技能系文科系理科系主成分スコアから各オブザベーションの特徴を知る