経営系データ解析
回帰分析 散布図に直線を当てはめる
回帰直線の式 y = b + b x +... + b x + i 0 1 1i n ni e i 従属変数または被説明変数目的変数 定数項 ( 偏 ) 回帰係数 独立変数 または 説明変数 誤差変数誤差項 参考 URL: 回帰分析の基礎理論 : http://www.sci.kagoshima-u.ac.jp/~itls/japanese/chapter5/index.html
回帰直線の選び方 y= 39.065183-0.6449298*x 平成 18 年時の 6 歳から 17 歳までの男女の平均身長 体重
最小 2 乗法 残差平方和の最小となる式 実測値と予測値の平方和が最小 値を2 乗する 符号をあわせる為 絶対値は扱いが複雑 大きい残差はより大きく強調 大きな残差を排除できる
式の推定 weight(kg) height(mm) 1 30.4 14.5 2 26.5 17.1 3 29.2 16.5 4 29.5 15.5 5 25.9 16.6 6 29.6 18.8 7 26.2 19.1 8 28.1 17.5 9 31.1 14.6 10 26.9 16.1 平均 28.34 16.63 分散 3.50 2.45 b 1 = y + e i = b0 + b1 x1 i 偏差積和説明変数の平方和 = i 共分散説明変数の分散 偏差積和 : 平均との差を掛け合わせた結果の合計 b -14.20 22.02-1.58 2.45 1 = = = -0.6449298
式の推定 weight(kg) height(mm) 1 30.4 14.5 2 26.5 17.1 3 29.2 16.5 4 29.5 15.5 5 25.9 16.6 6 29.6 18.8 7 26.2 19.1 8 28.1 17.5 9 31.1 14.6 10 26.9 16.1 平均 28.34 16.63 分散 3.50 2.45 y + e b 0 i = b0 + b1 x1 i = yi b1 x1 i e b 1 = -0.6449298, x i = 16.63, yi = b = 28.34 0.6449298 16.63 0 b 0 = 39.065183 i i 28.34 y = 39.065183-0.6449298x
単回帰分析 推定された式 寄与率 決定係数 2 R 推定の偏差平方和 = 目的変数の偏差平方和 推定の偏差平方和誤差の平方和目的変数の偏差平方和 回帰式の有意性の検定 F 検定と t 検定 p 値が 0.05 および 0.01 より小さいかどうか? t 値 = 推定値に対する標準誤差の比
重回帰分析の手順 1 データ入力 2 変数の選択と散布図行列の表示分析 多変量 多変量の相関 (Y, 列に相関関係を見たい変数名を割り当てる ) (By に変数を割り当てるとその変数で層別の散布図行列が作成される ) 3 散布図を動かしてみる ( 外れ値の有無や相関関係の確認 ) ツール 手のひらツール
重回帰分析の手順 4 変数の選択と重回帰分析の実行分析 モデルのあてはめ 1) 被説明変数 ( 従属変数 ) を 役割変数の選択 の Y に割り当てる 2) 説明変数 ( 独立変数 ) を モデル効果の構成 に追加で指定する 3) 手法を 標準最小 2 乗 に設定して モデルの実行 をクリックする 5 結果の解釈 1) 自由度調整 R2 乗 2) 分散分析のp 値 ( モデルのF 検定 ) 3) パラメータ推定値のp 値の列 ( 偏回帰係数のt 検定 )
重回帰分析の手順 6 残差の分析 1) 応答 Y のプルダウンメニューの 列の保存 スチューデント化された残差を選択 2) データテーブルにスチューデント化された残差が記録されるので このスチューデント化された残差と各説明変数との間の無相関を散布図から確認する 最小 2 乗法によるモデルのあてはめの前提 1) 誤差項が各ケースで独立 2) 誤差項は平均が 0 で分散は一定 3) 誤差項は正規分布に従う
95% 信頼区間と平均線の表示 図示した 95% 信頼区間の曲線が平均線と交わっているかどうかで 5% 有意水準での回帰式の有意性の検定を視覚的に行うことができる
残差分析 残差分析 ( 残差 = 観測値 - 予測値 ) 残差をプロットすることにより 1 外れ値や異常値のチェックおよびこれによる隠された要因の検討 2 点の並び方のクセやトレンドから誤差の等分散性や系列相関 さらに非線形性のチェック 1) 残差のヒストグラムから正規分布にしたがっているといえるか? 2) 残差の + と - の符号の数は同数か? 3) 残差の中央値はゼロに近いか? 4) 残差と目的変数および説明変数との間の散布図から何らかの関係が見つからないか? を検討する ダービン ワトソン比 : 時系列データの自己相関のチェックに 2 を中心に 0 から 4 までの値を取る
三次元散布図
三次元散布図 3 次元表示で視覚的に確認旧称は回転プロット 手のひらツールで回転させる Shift Alt の各キーを押しながら Ctrl
モデルのあてはめ 被説明変数目的変数従属変数 説明変数決定変数独立変数
あてはめ結果の解釈 1 自由度調整 R2 乗 ( 自由度調整済み決定係数 ) 2 分散分析表による F 検定 ( 帰無仮説 : 回帰式は意味をもたない ( 切片を除く全ての回帰パラメータが 0 である )) 3 偏回帰係数の t 検定 ( 帰無仮説 : 真のパラメータはゼロである ) 4 偏回帰係数の推定値の符号
残差分析 効果の検定は 連続量の説明変数の場合には t 検定と同じ 残差分析製造条件をチェック他の要因はないか?
残差と変数との関係 スチューデント化された残差 : i 番目の残差について i 番目の残差を除いた他の残りの残差から計算された残差の標準偏差を用いて基準化した残差 外的にスチューデント化された残差とも言う 単に全残差の標準偏差で基準化された残差を標準化残差あるいは内的にスチューデント化された残差と言う
残差と各説明変数との間の関係 スチューデント化された残差と説明変数との間に何の関係も見られないことが望ましい
てこ比プロット 個々の偏回帰係数の有意性に関して 5% 有意水準で視覚的に判定できる
標準偏回帰係数 目的変数と説明変数のそれぞれのデータを標準化してデータテーブルに保存 この標準化されたデータを用いて重回帰分析を行うと 得られる偏回帰係数は ある説明変数が 1 標準偏差分だけ変化したとき 目的変数は何標準偏差分だけ変化するかを示すことになり 説明変数のスケール値やバラツキの大小には依存しないようにして 各説明変数の目的変数への影響度の比較を行うことができるようになる このようにして得られる偏回帰係数を標準偏回帰係数と呼ぶ
標準偏回帰係数の推定
重回帰分析演習 (1) 酸度の変数を追加して収率の変動を説明するモデルを構築せよ バッチ番号 y: 収率 (%) x1: 圧力 ( 気圧 ) x2: 温度 ( ) x3: 酸度 (ph) 1 30.4 14.5 87.6 7.5 2 26.5 17.1 89.3 6.9 3 29.2 16.5 92.3 7.2 4 29.5 15.5 89.2 7.4 5 25.9 16.6 87 6.5 6 29.6 18.8 91.6 8.2 7 26.2 19.1 90 7.3 8 28.1 17.5 91.5 7.8 9 31.1 14.6 89.7 7 10 26.9 16.1 90.5 6.7
相関分析 偏相関係数他の変数の影響を取り除いた純粋な目的変数と 1 つの説明変数との間の相関の程度を表す尺度 目的変数と説明変数を残りの説明変数で回帰式にあてはめ それぞれの残差から求められる相関係数のこと
結果の解釈 1 自由度調整 R2 乗 ( 自由度調整済み決定係数 ) 2 分散分析表による F 検定 3 偏回帰係数の t 検定 4 偏回帰係数の推定値の符号
重相関分析演習 (2) 粘度が追加された以下のデータを用いて収率を説明するモデルを作成せよ バッチ番号 y: 収率 (%) x1: 圧力 ( 気圧 ) x2: 温度 ( ) x3: 酸度 (ph) x4: 粘度 1 30.4 14.5 87.6 7.5 6.2 2 26.5 17.1 89.3 6.9 5.5 3 29.2 16.5 92.3 7.2 5.7 4 29.5 15.5 89.2 7.4 6.1 5 25.9 16.6 87 6.5 5 6 29.6 18.8 91.6 8.2 5.9 7 26.2 19.1 90 7.3 5 8 28.1 17.5 91.5 7.8 5.7 9 31.1 14.6 89.7 7 6.4 10 26.9 16.1 90.5 6.7 5.2
相関分析と相関 偏相関係数
結果の解釈 偏回帰係数の t 検定結果と偏回帰係数の推定値はどのように変化しただろうか?
偽相関 同じ説明変数を用いた 収率を目的変数とした重回帰分析の結果と比較してみよ 粘度は収率を説明する原因系の変数ではなく 収率と同様に圧力と温度と酸度で説明される結果系の変数ではないか 収率と粘度との間の高い単相関は 互いに共通した説明要因に起因する偽相関である可能性が強いようだ
説明変数の選択 PrincipleofParsimony( ケチの原則 ) 目的変数の予測という立場からは 説明変数の数が増えるほど寄与率は高くなるが あまり寄与率は下げないで なるべく少数の説明変数で 簡潔にモデルを記述したいという考え方 有効な変数と不要な変数を選択して 最適な回帰式を求めるには? 変数選択の方法 1 総当り法 2ステップワイズ法 ( 逐次変数選択法 ) 1) 変数増加法 2) 変数減少法 3) 変数増減法 4) 変数減増法 3 対話型変数選択法
ステップワイズ法による変数選択
説明変数の選択方法の選択 方向で選択方法を選択 SSE: 誤差平方和 DFE: 誤差の自由度 MSE: 平均平方誤差 Cp:Mallow の Cp 基準 AIC: 赤池の情報量基準 AIC=nln(SSE/n)+2p AIC が最小であるモデルが最良のモデル 経験的に F 値が 2 以上であれば有効な変数 2 未満であれば不要な変数とされている
ステップワイズ法の結果
多重共線性 説明変数の中に互いに非常に相関の高い変数が含まれているときに起こる現象 発生する問題 1 偏回帰係数を求めるとき 大きな計算誤差を伴うか あるいは計算不能になってしまう 2 求められた偏回帰係数が 1 つのオブザベーションの追加や ちょっとした誤差によって 大きく変化してしまう 3 求められた偏回帰係数の符号が単相関係数の符号と合わない 4 寄与率 ( 決定係数 ) は高いのに 個々の偏回帰係数は統計的に有意にならない 対策 1 互いに関係をもった説明変数の一部を除去する 2 多重共線性を弱めるようなデータを追加する
多重共線性の例 以下のデータを用いて重回帰分析を行ってみなさい ( 内田他 すぐわかる JMP による多変量解析 東京図書 2002 年より ) バッチ番号 y x1 x2 x3 1 30 10 20 15 2 32 12 24 17 3 30 14 28 19 4 33 16 32 19 5 30 18 36 22 6 35 20 40 24 7 35 22 44 24 8 37 24 48 25 9 37 26 52 25 10 39 28 56 26
質的変数を含んだ重回帰分析 これまでのデータには A と B の異なる原産地からの原料が含まれていることが わかった 原料の情報を新たな説明変数に加えて重回帰分析を試みよ バッチ番号 y: 収率 (%) x1: 圧力 ( 気圧 ) x2: 温度 ( ) x3: 酸度 (ph) x5: 原料 1 30.4 14.5 87.6 7.5 A 2 26.5 17.1 89.3 6.9 B 3 29.2 16.5 92.3 7.2 B 4 29.5 15.5 89.2 7.4 A 5 25.9 16.6 87 6.5 B 6 29.6 18.8 91.6 8.2 A 7 26.2 19.1 90 7.3 B 8 28.1 17.5 91.5 7.8 B 9 31.1 14.6 89.7 7 A 10 26.9 16.1 90.5 6.7 B
結果の解釈 Marginal 法 推定された回帰式は?
0 ー 1 型ダミー変数の導入
結果の違いは? Partial 法 推定された回帰式は?
ダミー変数の作り方 partial 法 marginal 法 x1 x2 x3 x1 x2 x3 A 1 0 0 1 0 0 B 0 1 0 1 0 O 0 0 1 0 0 1 AB 0 0 0-1 -1-1 順序尺度の場合のJMP x1 x2 x3 1 0 0 0 2 1 0 0 3 1 1 0 4 1 1 1
多項式回帰モデルと線形回帰モデル 西暦 VTR 生産台数 1970 50 1971 49 1972 114 1973 137 1974 124 1975 119 1976 288 1977 762 1978 1470 1979 2199 1980 4441 1981 9498 1982 13134 1983 18217 1984 28611 左に示すのは 1970 年から 1984 年までの国内 VTR 生産台数のデータである この生産台数の推移をうまく当てはめるモデルを推定しなさい ヒント 1 年の取り方に工夫されたい 2 グラフでプロットしてみて データの特徴を読み取られたい 32 次と 3 次の項を考えなさい
データ分析の例 店舗名 乗降客数 店の広さ 駐車台数 売上高 小田原 245 59 60 272 秦野 118 32 35 161 伊勢原 142 25 30 129 本厚木 249 55 45 252 海老名 174 49 40 204 藤沢 202 32 35 168 大和 254 54 45 242 相模大野 168 32 40 169 町田 224 42 50 224 新百合ヶ丘 186 45 45 202 成城学園前 212 56 50 259 経堂 145 32 30 165 下北沢 174 31 35 180 梅ヶ丘 82 38 30 131 代々木上原 177 34 40 215 出所 : Lotus1-2-3 活用多変量解析 ( 共立出版 )
参考文献 内野治 松木秀明 上野真由美 すぐわかるJMPによる統計解析 東京図書 2002 年 内野治 松木秀明 上野真由美 すぐわかるJMPによる多変量解析 東京図書 2002 年 田久浩志 林俊克 小島隆矢 JMPによる統計解析入門 2002 年 圓川隆夫 多変量のデータ解析 朝倉書店 1988 JMPのヘルプファイルや統計関係のウェブサイトも参考になります JMP をキーワードに検索エンジンで検索してみて下さい
多項式回帰 (1) 直線 ( 説明変数 x の 1 次式 ) y = ax + b 曲線 1( 説明変数の 2 次式 ) 2 y = ax + bx + c 曲線 2( 説明変数の 3 次式 ) 3 2 y = ax + bx + cx + d
多項式回帰 (2) 列を追加して 計算式で説明変数 ( 西暦年 -1969) の 2 乗と 3 乗の列を作成する
多項式回帰 (3)
多項式回帰 (4)
多項式回帰 (5) 推定された多項式回帰モデルは y = 5318.13 2812.08 x + 271.686 x2
多項式回帰 (6) 推定された多項式回帰モデルは y = -2063.55 + 1970.32 x 452.007 x2+ 30.1539 x3
予測値のチェック
モデルは予測に使えるか? 1 マイナスの生産台数 23 次のモデル 1973 年から 76 年まで予測値が減少 31970 年頃 ( 少量生産 ) と 1980 年頃 ( 大量生産 ) で等分散性を仮定してよいか?
VTR 生産台数の対数変換 VTR 生産台数を対数変換してみると 線形の関係が見られる
変数変換による線形回帰モデル 推定された回帰モデル :lny = 2.797 + 0.496 x このモデルで生産台数を予測するには?
予測値の逆変換
対数変換モデルによる予測
JMP での変数変換による重回帰分析
JMP での対数変換モデルの推定結果 ここに示された決定係数は 変換後のデータに対するもの
数量化理論第 Ⅰ 類 ダミー変数のみを用いた重回帰分析と同等 チーム名観客動員数リーグ本拠地親会社業種前年度成績 読売 304 セ 首都圏 新聞 A 中日 201 セ その他 新聞 A 広島 112 セ その他 市 A ヤクルト 222 セ 首都圏 メーカー B 大洋 154 セ 首都圏 市 B 阪神 213 セ 関西 電鉄 C 西武 181 パ 首都圏 電鉄 A 阪急 123 パ 関西 電鉄 A 日本ハム 124 パ 首都圏 メーカー B 南海 88 パ 関西 電鉄 B ロッテ 78 パ 首都圏 メーカー C 近鉄 101 パ 関西 電鉄 C 1987 年度プロ野球観客動員数と球団属性一覧
モデルの仮説
モデルのあてはめ
数量化理論第 Ⅰ 類の結果 (1) カテゴリスコア リーグ [ パ ] の係数 = - リーグ [ セ ] の係数 = -60.76087 本拠地 [ 首都圏 ] の係数 =- 本拠地 [ 関西 ] の係数 - 本拠地 [ その他 ] の係数 = 4.333333 + 42.24638 =46.57971 アイテムのレンジ = アイテムのカテゴリスコアの最大値 - カテゴリスコアの最小値 有意性の判定
数量化理論第 Ⅰ 類の結果 (2)
残差の分析
数量化理論第 Ⅰ 類の応用 1. 2003 年度のデータを使用してプロ野球の観客動員数の予測を行ってみなさい 2. 兵庫県市町データを用いて 数量化理論第 Ⅰ 類を適用した分析を考えてみなさい
判別関数分析 サンプル番号 カード使用状態 家族構成数 年齢 年収 1 3 30 347 2 4 55 383 3 5 50 615 4 4 54 435 5 6 60 751 6 5 39 377 7 3 42 430 8 6 64 672 9 2 70 702 10 4 35 398 11 3 41 552 12 3 37 306 13 2 40 408 14 2 30 301 15 3 42 315 16 4 37 308 17 4 33 375 18 2 34 578 19 3 39 357 20 5 30 422
一変量の分布 ( 層別ヒストグラム ) カード使用状況とその他の変数との間には どのような関係が存在するか?
層別散布図 (1)
層別散布図 (2)
回転プロット
判別関数分析 (1) 外的基準 ( 説明したい変数 ) を 0-1 型の変数に変換する
判別関数分析 (2) 0-1 型に変換された外的基準
判別関数分析 (3)
判別関数分析 (4)
判別関数分析 (5)
判別関数分析 (6) マハラノビスの汎距離による判別式を得るには 外的基準 y の値として Ⅰ 群に Ⅱ 群に n2 /( n1 + n2) n /( n + n 1 を与える こうすれば 外的基準の値の総平均が 0 となり 予測値の正負で判別が可能になる また 重回帰分析の変数選択や偏回帰係数の有意性の検討が判別関数分析にも応用できる 1 2 )
判別関数分析 (7) z = 1.362 + 0.116x1 + 0. 0218x となる直線 ( 線形判別関数 ) 2 Ⅱ 群 ( 異常 ) に判別 Ⅰ 群 ( 正常 ) に判別
判別関数分析 (8) MANOVA( 多変量分散分析モデル ) を指定 説明変数を指定 外的基準を指定
判別関数分析 (9) 判別結果をデータテーブルに保存する
判別関数分析 (10) 判別結果 各群の重心からオブザベーションまでのマハラノビスの距離 オブザベーションが各群に含まれる確率
判別関数分析 (11) 説明変数として 家族構成員数と年齢に加えて 年収も入れて分析を行ってみよ 年収は判別に寄与していない!
数量化理論第 Ⅱ 類 (1) ダミー変数のみを用いた判別関数分析と同等 リーグを外的基準にして リーグの違いを分析してみよ 1987 年度プロ野球観客動員数と球団属性一覧 チーム名 観客動員数 リーグ 本拠地 親会社業種 前年度成績 読売 304 セ 首都圏 新聞 A 中日 201 セ その他 新聞 A 広島 112 セ その他 市 A ヤクルト 222 セ 首都圏 メーカー B 大洋 154 セ 首都圏 市 B 阪神 213 セ 関西 電鉄 C 西武 181 パ 首都圏 電鉄 A 阪急 123 パ 関西 電鉄 A 日本ハム 124 パ 首都圏 メーカー B 南海 88 パ 関西 電鉄 B ロッテ 78 パ 首都圏 メーカー C 近鉄 101 パ 関西 電鉄 C
数量化理論第 Ⅱ 類 (2) リーグを 0 ー 1 型変数または 0.5 と -0.5 の値をとる変数に変換
数量化理論第 Ⅱ 類 (3) 分析結果を解釈してみると? R 2 = 1 ( S /( n p 1)) /( S /( n 1)) E T
数量化理論第 Ⅱ 類 (3)
主成分分析 (1) 多数の変数データから 変数間の内部関連に基づく少数の主成分と呼ばれる合成変数を構成する分析法 学生番号 国語 社会 数学 理科 音楽 美術 保健体育 技術家庭 英語 1 55 59 38 66 29 32 29 36 61 2 36 49 35 57 63 62 55 66 45 3 53 58 16 41 67 54 50 50 48 4 78 80 42 65 85 75 69 76 70 5 6 19 38 59 49 47 43 57 26 6 41 43 49 66 74 64 63 75 49 7 73 78 57 77 61 62 53 65 73 8 21 29 38 58 64 58 52 65 32 9 50 55 22 51 58 58 51 46 52 10 61 69 57 71 68 61 53 64 63 11 73 80 66 88 43 48 42 60 80 12 56 69 79 91 55 50 50 72 73 13 56 53 30 50 73 72 63 62 45 14 35 43 35 49 57 53 45 47 38 15 37 52 54 71 81 72 70 80 51 16 61 66 53 74 69 62 56 74 63 17 39 55 56 69 82 70 68 78 52 18 37 41 23 42 53 50 37 44 37 19 40 45 60 72 73 67 59 76 48 20 54 65 55 72 81 73 68 85 66
主成分分析 (2)
主成分分析 (3) x1, x2,, xpのp 個の変数から新しい変数 z1, z2,, zmを作成することを考える z a x a x a x 1 = 11 1 + 12 2 + + 1p p z a x a x a x 2 = 21 1 + 22 2 + + 2 p p ::::: z + + a m = am 1x1 + am2x2 ここで z1からzmへと順にx1からxpまでの情報が最大限に集約されるように係数 aijを決めたい もとの変数の分散共分散行列の固有値と固有ベクトルを計算することに帰着される mp x p
主成分分析 (4) 通常は相関係数行列からを選択 分散共分散行列からを選択すると変数のスケールのとり方に依存して分散共分散行列の値が変化する
主成分分析 (5) 固有値の総和 =p( 分散共分散行列からの場合は各変数の分散の総和 ) 第 k 主成分の寄与率 = 第 k 主成分の固有値 /p どこまでの主成分を考えるかの基準 1 累積寄与率 2 寄与率の低下の仕方 3 相関行列からの場合に固有値が1より大
主成分分析 (6) 主成分分析の結果 ( 各主成分の重み係数 = 主成分負荷量 = 固有ベクトル ) を保存
主成分分析 (7) 主成分の解釈 ( 主成分の意味の検討 ) 各主成分の散布図行列から各主成分のもつ意味を検討する
主成分分析 (8)
主成分分析 (9) 第 1 主成分綜合点 第 2 主成分第 3 主成分で 特殊技能系 文科系 理科系 主成分スコアから各オブザベーションの特徴を知る