スライド 1

Similar documents
スライド タイトルなし

多変量解析 ~ 重回帰分析 ~ 2006 年 4 月 21 日 ( 金 ) 南慶典

スライド 1

Microsoft Word - mstattext02.docx

Microsoft PowerPoint - 資料04 重回帰分析.ppt

スライド 1

Microsoft PowerPoint - 統計科学研究所_R_重回帰分析_変数選択_2.ppt

1.民営化

1. 多変量解析の基本的な概念 1. 多変量解析の基本的な概念 1.1 多変量解析の目的 人間のデータは多変量データが多いので多変量解析が有用 特性概括評価特性概括評価 症 例 主 治 医 の 主 観 症 例 主 治 医 の 主 観 単変量解析 客観的規準のある要約多変量解析 要約値 客観的規準のな

発表の流れ 1. 回帰分析とは? 2. 単回帰分析単回帰分析とは? / 単回帰式の算出 / 単回帰式の予測精度 <R による演習 1> 3. 重回帰分析重回帰分析とは? / 重回帰式の算出 / 重回帰式の予測精度 質的変数を含む場合の回帰分析 / 多重共線性の問題 変数選択の基準と方法 <R による

Microsoft PowerPoint - e-stat(OLS).pptx

0 部分的最小二乗回帰 Partial Least Squares Regression PLS 明治大学理 学部応用化学科 データ化学 学研究室 弘昌

重回帰式 y= x x 2 重症度 5 TC TC 重症度

本日の内容 相関関係散布図 相関係数偏相関係数順位相関係数 単回帰分析 対数目盛 2

Microsoft PowerPoint - 統計科学研究所_R_主成分分析.ppt

当し 図 6. のように 2 分類 ( 疾患の有無 ) のデータを直線の代わりにシグモイド曲線 (S 字状曲線 ) で回帰する手法である ちなみに 直線で回帰する手法はコクラン アーミテージの傾向検定 疾患の確率 x : リスクファクター 図 6. ロジスティック曲線と回帰直線 疾患が発

スライド タイトルなし

14 化学実験法 II( 吉村 ( 洋 mmol/l の半分だったから さんの測定値は くんの測定値の 4 倍の重みがあり 推定値 としては 0.68 mmol/l その標準偏差は mmol/l 程度ということになる 測定値を 特徴づけるパラメータ t を推定するこの手

13章 回帰分析

Microsoft Word - SDA2012kadai07.doc

8 A B B B B B B B B B 175

PowerPoint プレゼンテーション

ビジネス統計 統計基礎とエクセル分析 正誤表

Microsoft PowerPoint - Econometrics

統計的データ解析

Microsoft PowerPoint - データ解析演習 0520 廣橋

Microsoft PowerPoint - H17-5時限(パターン認識).ppt

タイトルを修正 軸ラベルを挿入グラフツール デザイン グラフ要素を追加 軸ラベル 第 1 横 ( 縦 ) 軸 凡例は削除 横軸は, 軸の目盛範囲の最小値 最 大値を手動で設定して調整 図 2 散布図の仕上げ見本 相関係数の計算 散布図を見ると, 因果関係はともかく, 人口と輸送量の間には相関関係があ

切片 ( 定数項 ) ダミー 以下の単回帰モデルを考えよう これは賃金と就業年数の関係を分析している : ( 賃金関数 ) ここで Y i = α + β X i + u i, i =1,, n, u i ~ i.i.d. N(0, σ 2 ) Y i : 賃金の対数値, X i : 就業年数. (

スライド 1

スライド 1

Microsoft Word - å“Ÿåłžå¸°173.docx

回帰分析の用途・実験計画法の意義・グラフィカルモデリングの活用 | 永田 靖教授(早稲田大学)

Microsoft PowerPoint - ch04j

Microsoft Word - SPSS2007s5.doc

目次 はじめに P.02 マクロの種類 ---

Microsoft PowerPoint - Econometrics pptx

因子分析

Microsoft PowerPoint - Econometrics

Excelによるデータ分析

<4D F736F F F696E74202D BD95CF97CA89F090CD F6489F18B4195AA90CD816A>

Microsoft Word - econome5.docx

2. 時系列分析 プラットフォームの使用法 JMP の 時系列分析 プラットフォームでは 一変量の時系列に対する分析を行うことができます この章では JMP のサンプルデ ータを用いて このプラットフォームの使用法をご説明します JMP のメニューバーより [ ヘルプ ] > [ サンプルデータ ]


Microsoft Word - reg2.doc

計量経済学の第一歩 田中隆一 ( 著 ) gretl で例題と実証分析問題を 再現する方法 発行所株式会社有斐閣 2015 年 12 月 20 日初版第 1 刷発行 ISBN , Ryuichi Tanaka, Printed in Japan

<4D F736F F F696E74202D B835E89F090CD89898F4B81408F6489F18B4195AA90CD A E707074>

主成分分析 + 重回帰分析 a.2 変数群に対して, 以下のような手順を実行 ( 多変数群 ) では,2 変数群を組み合わせて実行 ) 説明変数群の主成分分析 2 基準変数群の主成分分析 3 説明変数群における 個の主成分得点に対して, 基準へ数群における主成分得点のすべてを用いて重回帰分析を反復

横浜市環境科学研究所

スライド 1

JMP による 2 群間の比較 SAS Institute Japan 株式会社 JMP ジャパン事業部 2008 年 3 月 JMP で t 検定や Wilcoxon 検定はどのメニューで実行できるのか または検定を行う際の前提条件の評価 ( 正規性 等分散性 ) はどのメニューで実行できるのかと

Medical3

Probit , Mixed logit

Microsoft Word - Stattext12.doc

主成分分析 -因子分析との比較-

PowerPoint プレゼンテーション

PowerPoint プレゼンテーション

回帰分析 単回帰

<4D F736F F D208EC08CB18C7689E68A E F AA957A82C682948C9F92E82E646F63>

Microsoft PowerPoint - R-stat-intro_12.ppt [互換モード]

カイ二乗フィット検定、パラメータの誤差

消費 統計学基礎実習資料 2017/11/27 < 回帰分析 > 1. 準備 今回の実習では あらかじめ河田が作成した所得と消費のファイルを用いる 課題 19 統計学基礎の講義用 HP から 所得と消費のファイルをダウンロードしてみよう 手順 1 検索エンジンで 河田研究室 と入力し検索すると 河田

Microsoft Word - reg.doc

Microsoft Word - econome4.docx

MedicalStatisticsForAll.indd

Microsoft Word - appendix_b

Microsoft Word - 補論3.2

Microsoft PowerPoint - データ解析基礎4.ppt [互換モード]

PowerPoint プレゼンテーション

基礎統計

分析のステップ Step 1: Y( 目的変数 ) に対する値の順序を確認 Step 2: モデルのあてはめ を実行 適切なモデルの指定 Step 3: オプションを指定し オッズ比とその信頼区間を表示 以下 このステップに沿って JMP の操作をご説明します Step 1: Y( 目的変数 ) の

<4D F736F F F696E74202D E738A5889BB8BE688E68A4F82CC926E89BF908492E882C98AD682B782E98CA48B862E707074>


プログラミング基礎

13章 回帰分析

講義「○○○○」

Microsoft PowerPoint - A1.ppt [互換モード]

JUSE-StatWorks/V5 ユーザーズマニュアル

Kumamoto University Center for Multimedia and Information Technologies Lab. 熊本大学アプリケーション実験 ~ 実環境における無線 LAN 受信電波強度を用いた位置推定手法の検討 ~ InKIAI 宮崎県美郷

異文化言語教育評価論 ⅠA 第 4 章分散分析 (3 グループ以上の平均を比較する ) 平成 26 年 5 月 14 日 報告者 :D.M. K.S. 4-1 分散分析とは 検定の多重性 t 検定 2 群の平均値を比較する場合の手法分散分析 3 群以上の平均を比較する場合の手法 t 検定

一般化線型モデルとは? R 従属変数群が独立変数群の一次結合と誤差で表されるという形のモデルを線型モデルという ( 回帰分析はデータへの線型モデルの当てはめである ) 式で書けば Y = β 0 + βx + ε R では glm( ) という関数で実行する glm( ) は量的なデータが正規分布に

Microsoft Word - Stattext13.doc

正常 正常 正常 正常 正常 正常 正常 正常 正常 正常 正常 正常 正常 220

経済統計分析1 イントロダクション

経営戦略研究_1.indb

Microsoft Word - Time Series Basic - Modeling.doc

簿記教育における習熟度別クラス編成 簿記教育における習熟度別クラス編成 濱田峰子 要旨 近年 学生の多様化に伴い きめ細やかな個別対応や対話型授業が可能な少人数の習熟度別クラス編成の重要性が増している そのため 本学では入学時にプレイスメントテストを実施し 国語 数学 英語の 3 教科については習熟

JMP によるオッズ比 リスク比 ( ハザード比 ) の算出方法と注意点 SAS Institute Japan 株式会社 JMP ジャパン事業部 2008 年 3 月改定 1. はじめに本文書は JMP でオッズ比 リスク比 それぞれに対する信頼区間を求める算出方法と注意点を述べたものです この後

解答のポイント 第 1 章問 1 ポイント仮に1 年生全員の数が 100 人であったとする.100 人全員に数学の試験を課して, それらの 100 人の個人個人の点数が母集団となる. 問 2 ポイント仮に10 人を抽出するとする. 学生に1から 100 までの番号を割り当てたとする. 箱の中に番号札

様々なミクロ計量モデル†

はじめに Excel における計算式の入力方法の基礎 Excel では計算式を入力することで様々な計算を行うことができる 例えば はセルに =SQRT((4^2)/3+3*5-2) と入力することで算出される ( 答え ) どのような数式が使えるかは 数式

目次 1 章 SPSS の基礎 基本 はじめに 基本操作方法 章データの編集 はじめに 値ラベルの利用 計算結果に基づく新変数の作成 値のグループ化 値の昇順

Microsoft PowerPoint - 三次元座標測定 ppt

日心TWS


要約 本稿では プロ野球における予告先発投手制の導入が観客動員数を変動させているのかを検討する パ リーグの活性化を図るために導入された予告先発投手制だが 2012 年にセ リーグにおいても採用された Yamamura(2010) は 2005~2007 年の試合データを分析し パ リーグにとって先

今回用いる例データ lh( 小文字のエル ) ある女性の血液中の黄体ホルモンを 10 分間隔で測定した時系列データ UKgas 1960 年 ~1986 年のイギリスのガス消費量を四半期ごとに観測した時系列データ ldeaths 1974 年 ~1979 年のイギリスで喘息 気管支炎 肺気腫による死

EBNと疫学

untitled

相関分析・偏相関分析

Transcription:

経営系データ解析

回帰分析 散布図に直線を当てはめる

回帰直線の式 y = b + b x +... + b x + i 0 1 1i n ni e i 従属変数または被説明変数目的変数 定数項 ( 偏 ) 回帰係数 独立変数 または 説明変数 誤差変数誤差項 参考 URL: 回帰分析の基礎理論 : http://www.sci.kagoshima-u.ac.jp/~itls/japanese/chapter5/index.html

回帰直線の選び方 y= 39.065183-0.6449298*x 平成 18 年時の 6 歳から 17 歳までの男女の平均身長 体重

最小 2 乗法 残差平方和の最小となる式 実測値と予測値の平方和が最小 値を2 乗する 符号をあわせる為 絶対値は扱いが複雑 大きい残差はより大きく強調 大きな残差を排除できる

式の推定 weight(kg) height(mm) 1 30.4 14.5 2 26.5 17.1 3 29.2 16.5 4 29.5 15.5 5 25.9 16.6 6 29.6 18.8 7 26.2 19.1 8 28.1 17.5 9 31.1 14.6 10 26.9 16.1 平均 28.34 16.63 分散 3.50 2.45 b 1 = y + e i = b0 + b1 x1 i 偏差積和説明変数の平方和 = i 共分散説明変数の分散 偏差積和 : 平均との差を掛け合わせた結果の合計 b -14.20 22.02-1.58 2.45 1 = = = -0.6449298

式の推定 weight(kg) height(mm) 1 30.4 14.5 2 26.5 17.1 3 29.2 16.5 4 29.5 15.5 5 25.9 16.6 6 29.6 18.8 7 26.2 19.1 8 28.1 17.5 9 31.1 14.6 10 26.9 16.1 平均 28.34 16.63 分散 3.50 2.45 y + e b 0 i = b0 + b1 x1 i = yi b1 x1 i e b 1 = -0.6449298, x i = 16.63, yi = b = 28.34 0.6449298 16.63 0 b 0 = 39.065183 i i 28.34 y = 39.065183-0.6449298x

単回帰分析 推定された式 寄与率 決定係数 2 R 推定の偏差平方和 = 目的変数の偏差平方和 推定の偏差平方和誤差の平方和目的変数の偏差平方和 回帰式の有意性の検定 F 検定と t 検定 p 値が 0.05 および 0.01 より小さいかどうか? t 値 = 推定値に対する標準誤差の比

重回帰分析の手順 1 データ入力 2 変数の選択と散布図行列の表示分析 多変量 多変量の相関 (Y, 列に相関関係を見たい変数名を割り当てる ) (By に変数を割り当てるとその変数で層別の散布図行列が作成される ) 3 散布図を動かしてみる ( 外れ値の有無や相関関係の確認 ) ツール 手のひらツール

重回帰分析の手順 4 変数の選択と重回帰分析の実行分析 モデルのあてはめ 1) 被説明変数 ( 従属変数 ) を 役割変数の選択 の Y に割り当てる 2) 説明変数 ( 独立変数 ) を モデル効果の構成 に追加で指定する 3) 手法を 標準最小 2 乗 に設定して モデルの実行 をクリックする 5 結果の解釈 1) 自由度調整 R2 乗 2) 分散分析のp 値 ( モデルのF 検定 ) 3) パラメータ推定値のp 値の列 ( 偏回帰係数のt 検定 )

重回帰分析の手順 6 残差の分析 1) 応答 Y のプルダウンメニューの 列の保存 スチューデント化された残差を選択 2) データテーブルにスチューデント化された残差が記録されるので このスチューデント化された残差と各説明変数との間の無相関を散布図から確認する 最小 2 乗法によるモデルのあてはめの前提 1) 誤差項が各ケースで独立 2) 誤差項は平均が 0 で分散は一定 3) 誤差項は正規分布に従う

95% 信頼区間と平均線の表示 図示した 95% 信頼区間の曲線が平均線と交わっているかどうかで 5% 有意水準での回帰式の有意性の検定を視覚的に行うことができる

残差分析 残差分析 ( 残差 = 観測値 - 予測値 ) 残差をプロットすることにより 1 外れ値や異常値のチェックおよびこれによる隠された要因の検討 2 点の並び方のクセやトレンドから誤差の等分散性や系列相関 さらに非線形性のチェック 1) 残差のヒストグラムから正規分布にしたがっているといえるか? 2) 残差の + と - の符号の数は同数か? 3) 残差の中央値はゼロに近いか? 4) 残差と目的変数および説明変数との間の散布図から何らかの関係が見つからないか? を検討する ダービン ワトソン比 : 時系列データの自己相関のチェックに 2 を中心に 0 から 4 までの値を取る

三次元散布図

三次元散布図 3 次元表示で視覚的に確認旧称は回転プロット 手のひらツールで回転させる Shift Alt の各キーを押しながら Ctrl

モデルのあてはめ 被説明変数目的変数従属変数 説明変数決定変数独立変数

あてはめ結果の解釈 1 自由度調整 R2 乗 ( 自由度調整済み決定係数 ) 2 分散分析表による F 検定 ( 帰無仮説 : 回帰式は意味をもたない ( 切片を除く全ての回帰パラメータが 0 である )) 3 偏回帰係数の t 検定 ( 帰無仮説 : 真のパラメータはゼロである ) 4 偏回帰係数の推定値の符号

残差分析 効果の検定は 連続量の説明変数の場合には t 検定と同じ 残差分析製造条件をチェック他の要因はないか?

残差と変数との関係 スチューデント化された残差 : i 番目の残差について i 番目の残差を除いた他の残りの残差から計算された残差の標準偏差を用いて基準化した残差 外的にスチューデント化された残差とも言う 単に全残差の標準偏差で基準化された残差を標準化残差あるいは内的にスチューデント化された残差と言う

残差と各説明変数との間の関係 スチューデント化された残差と説明変数との間に何の関係も見られないことが望ましい

てこ比プロット 個々の偏回帰係数の有意性に関して 5% 有意水準で視覚的に判定できる

標準偏回帰係数 目的変数と説明変数のそれぞれのデータを標準化してデータテーブルに保存 この標準化されたデータを用いて重回帰分析を行うと 得られる偏回帰係数は ある説明変数が 1 標準偏差分だけ変化したとき 目的変数は何標準偏差分だけ変化するかを示すことになり 説明変数のスケール値やバラツキの大小には依存しないようにして 各説明変数の目的変数への影響度の比較を行うことができるようになる このようにして得られる偏回帰係数を標準偏回帰係数と呼ぶ

標準偏回帰係数の推定

重回帰分析演習 (1) 酸度の変数を追加して収率の変動を説明するモデルを構築せよ バッチ番号 y: 収率 (%) x1: 圧力 ( 気圧 ) x2: 温度 ( ) x3: 酸度 (ph) 1 30.4 14.5 87.6 7.5 2 26.5 17.1 89.3 6.9 3 29.2 16.5 92.3 7.2 4 29.5 15.5 89.2 7.4 5 25.9 16.6 87 6.5 6 29.6 18.8 91.6 8.2 7 26.2 19.1 90 7.3 8 28.1 17.5 91.5 7.8 9 31.1 14.6 89.7 7 10 26.9 16.1 90.5 6.7

相関分析 偏相関係数他の変数の影響を取り除いた純粋な目的変数と 1 つの説明変数との間の相関の程度を表す尺度 目的変数と説明変数を残りの説明変数で回帰式にあてはめ それぞれの残差から求められる相関係数のこと

結果の解釈 1 自由度調整 R2 乗 ( 自由度調整済み決定係数 ) 2 分散分析表による F 検定 3 偏回帰係数の t 検定 4 偏回帰係数の推定値の符号

重相関分析演習 (2) 粘度が追加された以下のデータを用いて収率を説明するモデルを作成せよ バッチ番号 y: 収率 (%) x1: 圧力 ( 気圧 ) x2: 温度 ( ) x3: 酸度 (ph) x4: 粘度 1 30.4 14.5 87.6 7.5 6.2 2 26.5 17.1 89.3 6.9 5.5 3 29.2 16.5 92.3 7.2 5.7 4 29.5 15.5 89.2 7.4 6.1 5 25.9 16.6 87 6.5 5 6 29.6 18.8 91.6 8.2 5.9 7 26.2 19.1 90 7.3 5 8 28.1 17.5 91.5 7.8 5.7 9 31.1 14.6 89.7 7 6.4 10 26.9 16.1 90.5 6.7 5.2

相関分析と相関 偏相関係数

結果の解釈 偏回帰係数の t 検定結果と偏回帰係数の推定値はどのように変化しただろうか?

偽相関 同じ説明変数を用いた 収率を目的変数とした重回帰分析の結果と比較してみよ 粘度は収率を説明する原因系の変数ではなく 収率と同様に圧力と温度と酸度で説明される結果系の変数ではないか 収率と粘度との間の高い単相関は 互いに共通した説明要因に起因する偽相関である可能性が強いようだ

説明変数の選択 PrincipleofParsimony( ケチの原則 ) 目的変数の予測という立場からは 説明変数の数が増えるほど寄与率は高くなるが あまり寄与率は下げないで なるべく少数の説明変数で 簡潔にモデルを記述したいという考え方 有効な変数と不要な変数を選択して 最適な回帰式を求めるには? 変数選択の方法 1 総当り法 2ステップワイズ法 ( 逐次変数選択法 ) 1) 変数増加法 2) 変数減少法 3) 変数増減法 4) 変数減増法 3 対話型変数選択法

ステップワイズ法による変数選択

説明変数の選択方法の選択 方向で選択方法を選択 SSE: 誤差平方和 DFE: 誤差の自由度 MSE: 平均平方誤差 Cp:Mallow の Cp 基準 AIC: 赤池の情報量基準 AIC=nln(SSE/n)+2p AIC が最小であるモデルが最良のモデル 経験的に F 値が 2 以上であれば有効な変数 2 未満であれば不要な変数とされている

ステップワイズ法の結果

多重共線性 説明変数の中に互いに非常に相関の高い変数が含まれているときに起こる現象 発生する問題 1 偏回帰係数を求めるとき 大きな計算誤差を伴うか あるいは計算不能になってしまう 2 求められた偏回帰係数が 1 つのオブザベーションの追加や ちょっとした誤差によって 大きく変化してしまう 3 求められた偏回帰係数の符号が単相関係数の符号と合わない 4 寄与率 ( 決定係数 ) は高いのに 個々の偏回帰係数は統計的に有意にならない 対策 1 互いに関係をもった説明変数の一部を除去する 2 多重共線性を弱めるようなデータを追加する

多重共線性の例 以下のデータを用いて重回帰分析を行ってみなさい ( 内田他 すぐわかる JMP による多変量解析 東京図書 2002 年より ) バッチ番号 y x1 x2 x3 1 30 10 20 15 2 32 12 24 17 3 30 14 28 19 4 33 16 32 19 5 30 18 36 22 6 35 20 40 24 7 35 22 44 24 8 37 24 48 25 9 37 26 52 25 10 39 28 56 26

質的変数を含んだ重回帰分析 これまでのデータには A と B の異なる原産地からの原料が含まれていることが わかった 原料の情報を新たな説明変数に加えて重回帰分析を試みよ バッチ番号 y: 収率 (%) x1: 圧力 ( 気圧 ) x2: 温度 ( ) x3: 酸度 (ph) x5: 原料 1 30.4 14.5 87.6 7.5 A 2 26.5 17.1 89.3 6.9 B 3 29.2 16.5 92.3 7.2 B 4 29.5 15.5 89.2 7.4 A 5 25.9 16.6 87 6.5 B 6 29.6 18.8 91.6 8.2 A 7 26.2 19.1 90 7.3 B 8 28.1 17.5 91.5 7.8 B 9 31.1 14.6 89.7 7 A 10 26.9 16.1 90.5 6.7 B

結果の解釈 Marginal 法 推定された回帰式は?

0 ー 1 型ダミー変数の導入

結果の違いは? Partial 法 推定された回帰式は?

ダミー変数の作り方 partial 法 marginal 法 x1 x2 x3 x1 x2 x3 A 1 0 0 1 0 0 B 0 1 0 1 0 O 0 0 1 0 0 1 AB 0 0 0-1 -1-1 順序尺度の場合のJMP x1 x2 x3 1 0 0 0 2 1 0 0 3 1 1 0 4 1 1 1

多項式回帰モデルと線形回帰モデル 西暦 VTR 生産台数 1970 50 1971 49 1972 114 1973 137 1974 124 1975 119 1976 288 1977 762 1978 1470 1979 2199 1980 4441 1981 9498 1982 13134 1983 18217 1984 28611 左に示すのは 1970 年から 1984 年までの国内 VTR 生産台数のデータである この生産台数の推移をうまく当てはめるモデルを推定しなさい ヒント 1 年の取り方に工夫されたい 2 グラフでプロットしてみて データの特徴を読み取られたい 32 次と 3 次の項を考えなさい

データ分析の例 店舗名 乗降客数 店の広さ 駐車台数 売上高 小田原 245 59 60 272 秦野 118 32 35 161 伊勢原 142 25 30 129 本厚木 249 55 45 252 海老名 174 49 40 204 藤沢 202 32 35 168 大和 254 54 45 242 相模大野 168 32 40 169 町田 224 42 50 224 新百合ヶ丘 186 45 45 202 成城学園前 212 56 50 259 経堂 145 32 30 165 下北沢 174 31 35 180 梅ヶ丘 82 38 30 131 代々木上原 177 34 40 215 出所 : Lotus1-2-3 活用多変量解析 ( 共立出版 )

参考文献 内野治 松木秀明 上野真由美 すぐわかるJMPによる統計解析 東京図書 2002 年 内野治 松木秀明 上野真由美 すぐわかるJMPによる多変量解析 東京図書 2002 年 田久浩志 林俊克 小島隆矢 JMPによる統計解析入門 2002 年 圓川隆夫 多変量のデータ解析 朝倉書店 1988 JMPのヘルプファイルや統計関係のウェブサイトも参考になります JMP をキーワードに検索エンジンで検索してみて下さい

多項式回帰 (1) 直線 ( 説明変数 x の 1 次式 ) y = ax + b 曲線 1( 説明変数の 2 次式 ) 2 y = ax + bx + c 曲線 2( 説明変数の 3 次式 ) 3 2 y = ax + bx + cx + d

多項式回帰 (2) 列を追加して 計算式で説明変数 ( 西暦年 -1969) の 2 乗と 3 乗の列を作成する

多項式回帰 (3)

多項式回帰 (4)

多項式回帰 (5) 推定された多項式回帰モデルは y = 5318.13 2812.08 x + 271.686 x2

多項式回帰 (6) 推定された多項式回帰モデルは y = -2063.55 + 1970.32 x 452.007 x2+ 30.1539 x3

予測値のチェック

モデルは予測に使えるか? 1 マイナスの生産台数 23 次のモデル 1973 年から 76 年まで予測値が減少 31970 年頃 ( 少量生産 ) と 1980 年頃 ( 大量生産 ) で等分散性を仮定してよいか?

VTR 生産台数の対数変換 VTR 生産台数を対数変換してみると 線形の関係が見られる

変数変換による線形回帰モデル 推定された回帰モデル :lny = 2.797 + 0.496 x このモデルで生産台数を予測するには?

予測値の逆変換

対数変換モデルによる予測

JMP での変数変換による重回帰分析

JMP での対数変換モデルの推定結果 ここに示された決定係数は 変換後のデータに対するもの

数量化理論第 Ⅰ 類 ダミー変数のみを用いた重回帰分析と同等 チーム名観客動員数リーグ本拠地親会社業種前年度成績 読売 304 セ 首都圏 新聞 A 中日 201 セ その他 新聞 A 広島 112 セ その他 市 A ヤクルト 222 セ 首都圏 メーカー B 大洋 154 セ 首都圏 市 B 阪神 213 セ 関西 電鉄 C 西武 181 パ 首都圏 電鉄 A 阪急 123 パ 関西 電鉄 A 日本ハム 124 パ 首都圏 メーカー B 南海 88 パ 関西 電鉄 B ロッテ 78 パ 首都圏 メーカー C 近鉄 101 パ 関西 電鉄 C 1987 年度プロ野球観客動員数と球団属性一覧

モデルの仮説

モデルのあてはめ

数量化理論第 Ⅰ 類の結果 (1) カテゴリスコア リーグ [ パ ] の係数 = - リーグ [ セ ] の係数 = -60.76087 本拠地 [ 首都圏 ] の係数 =- 本拠地 [ 関西 ] の係数 - 本拠地 [ その他 ] の係数 = 4.333333 + 42.24638 =46.57971 アイテムのレンジ = アイテムのカテゴリスコアの最大値 - カテゴリスコアの最小値 有意性の判定

数量化理論第 Ⅰ 類の結果 (2)

残差の分析

数量化理論第 Ⅰ 類の応用 1. 2003 年度のデータを使用してプロ野球の観客動員数の予測を行ってみなさい 2. 兵庫県市町データを用いて 数量化理論第 Ⅰ 類を適用した分析を考えてみなさい

判別関数分析 サンプル番号 カード使用状態 家族構成数 年齢 年収 1 3 30 347 2 4 55 383 3 5 50 615 4 4 54 435 5 6 60 751 6 5 39 377 7 3 42 430 8 6 64 672 9 2 70 702 10 4 35 398 11 3 41 552 12 3 37 306 13 2 40 408 14 2 30 301 15 3 42 315 16 4 37 308 17 4 33 375 18 2 34 578 19 3 39 357 20 5 30 422

一変量の分布 ( 層別ヒストグラム ) カード使用状況とその他の変数との間には どのような関係が存在するか?

層別散布図 (1)

層別散布図 (2)

回転プロット

判別関数分析 (1) 外的基準 ( 説明したい変数 ) を 0-1 型の変数に変換する

判別関数分析 (2) 0-1 型に変換された外的基準

判別関数分析 (3)

判別関数分析 (4)

判別関数分析 (5)

判別関数分析 (6) マハラノビスの汎距離による判別式を得るには 外的基準 y の値として Ⅰ 群に Ⅱ 群に n2 /( n1 + n2) n /( n + n 1 を与える こうすれば 外的基準の値の総平均が 0 となり 予測値の正負で判別が可能になる また 重回帰分析の変数選択や偏回帰係数の有意性の検討が判別関数分析にも応用できる 1 2 )

判別関数分析 (7) z = 1.362 + 0.116x1 + 0. 0218x となる直線 ( 線形判別関数 ) 2 Ⅱ 群 ( 異常 ) に判別 Ⅰ 群 ( 正常 ) に判別

判別関数分析 (8) MANOVA( 多変量分散分析モデル ) を指定 説明変数を指定 外的基準を指定

判別関数分析 (9) 判別結果をデータテーブルに保存する

判別関数分析 (10) 判別結果 各群の重心からオブザベーションまでのマハラノビスの距離 オブザベーションが各群に含まれる確率

判別関数分析 (11) 説明変数として 家族構成員数と年齢に加えて 年収も入れて分析を行ってみよ 年収は判別に寄与していない!

数量化理論第 Ⅱ 類 (1) ダミー変数のみを用いた判別関数分析と同等 リーグを外的基準にして リーグの違いを分析してみよ 1987 年度プロ野球観客動員数と球団属性一覧 チーム名 観客動員数 リーグ 本拠地 親会社業種 前年度成績 読売 304 セ 首都圏 新聞 A 中日 201 セ その他 新聞 A 広島 112 セ その他 市 A ヤクルト 222 セ 首都圏 メーカー B 大洋 154 セ 首都圏 市 B 阪神 213 セ 関西 電鉄 C 西武 181 パ 首都圏 電鉄 A 阪急 123 パ 関西 電鉄 A 日本ハム 124 パ 首都圏 メーカー B 南海 88 パ 関西 電鉄 B ロッテ 78 パ 首都圏 メーカー C 近鉄 101 パ 関西 電鉄 C

数量化理論第 Ⅱ 類 (2) リーグを 0 ー 1 型変数または 0.5 と -0.5 の値をとる変数に変換

数量化理論第 Ⅱ 類 (3) 分析結果を解釈してみると? R 2 = 1 ( S /( n p 1)) /( S /( n 1)) E T

数量化理論第 Ⅱ 類 (3)

主成分分析 (1) 多数の変数データから 変数間の内部関連に基づく少数の主成分と呼ばれる合成変数を構成する分析法 学生番号 国語 社会 数学 理科 音楽 美術 保健体育 技術家庭 英語 1 55 59 38 66 29 32 29 36 61 2 36 49 35 57 63 62 55 66 45 3 53 58 16 41 67 54 50 50 48 4 78 80 42 65 85 75 69 76 70 5 6 19 38 59 49 47 43 57 26 6 41 43 49 66 74 64 63 75 49 7 73 78 57 77 61 62 53 65 73 8 21 29 38 58 64 58 52 65 32 9 50 55 22 51 58 58 51 46 52 10 61 69 57 71 68 61 53 64 63 11 73 80 66 88 43 48 42 60 80 12 56 69 79 91 55 50 50 72 73 13 56 53 30 50 73 72 63 62 45 14 35 43 35 49 57 53 45 47 38 15 37 52 54 71 81 72 70 80 51 16 61 66 53 74 69 62 56 74 63 17 39 55 56 69 82 70 68 78 52 18 37 41 23 42 53 50 37 44 37 19 40 45 60 72 73 67 59 76 48 20 54 65 55 72 81 73 68 85 66

主成分分析 (2)

主成分分析 (3) x1, x2,, xpのp 個の変数から新しい変数 z1, z2,, zmを作成することを考える z a x a x a x 1 = 11 1 + 12 2 + + 1p p z a x a x a x 2 = 21 1 + 22 2 + + 2 p p ::::: z + + a m = am 1x1 + am2x2 ここで z1からzmへと順にx1からxpまでの情報が最大限に集約されるように係数 aijを決めたい もとの変数の分散共分散行列の固有値と固有ベクトルを計算することに帰着される mp x p

主成分分析 (4) 通常は相関係数行列からを選択 分散共分散行列からを選択すると変数のスケールのとり方に依存して分散共分散行列の値が変化する

主成分分析 (5) 固有値の総和 =p( 分散共分散行列からの場合は各変数の分散の総和 ) 第 k 主成分の寄与率 = 第 k 主成分の固有値 /p どこまでの主成分を考えるかの基準 1 累積寄与率 2 寄与率の低下の仕方 3 相関行列からの場合に固有値が1より大

主成分分析 (6) 主成分分析の結果 ( 各主成分の重み係数 = 主成分負荷量 = 固有ベクトル ) を保存

主成分分析 (7) 主成分の解釈 ( 主成分の意味の検討 ) 各主成分の散布図行列から各主成分のもつ意味を検討する

主成分分析 (8)

主成分分析 (9) 第 1 主成分綜合点 第 2 主成分第 3 主成分で 特殊技能系 文科系 理科系 主成分スコアから各オブザベーションの特徴を知る