Microsoft Word - mstattext02.docx

Similar documents
多変量解析 ~ 重回帰分析 ~ 2006 年 4 月 21 日 ( 金 ) 南慶典

スライド 1

Microsoft PowerPoint - 資料04 重回帰分析.ppt

Microsoft PowerPoint - e-stat(OLS).pptx

スライド 1

Microsoft Word - mstattext03.docx

13章 回帰分析

Microsoft Word - econome5.docx

Microsoft PowerPoint - 統計科学研究所_R_重回帰分析_変数選択_2.ppt

重回帰式 y= x x 2 重症度 5 TC TC 重症度

本日の内容 相関関係散布図 相関係数偏相関係数順位相関係数 単回帰分析 対数目盛 2

Microsoft Word - apstattext01b.docx

Microsoft Word - apstattext05.docx

Microsoft Word - apstattext04.docx

ビジネス統計 統計基礎とエクセル分析 正誤表

Microsoft Word - SDA2012kadai07.doc

Microsoft Word - Stattext13.doc

経営統計学

Microsoft Word - SPSS2007s5.doc

タイトルを修正 軸ラベルを挿入グラフツール デザイン グラフ要素を追加 軸ラベル 第 1 横 ( 縦 ) 軸 凡例は削除 横軸は, 軸の目盛範囲の最小値 最 大値を手動で設定して調整 図 2 散布図の仕上げ見本 相関係数の計算 散布図を見ると, 因果関係はともかく, 人口と輸送量の間には相関関係があ

Microsoft Word - mstattext01.docx

8 A B B B B B B B B B 175

当し 図 6. のように 2 分類 ( 疾患の有無 ) のデータを直線の代わりにシグモイド曲線 (S 字状曲線 ) で回帰する手法である ちなみに 直線で回帰する手法はコクラン アーミテージの傾向検定 疾患の確率 x : リスクファクター 図 6. ロジスティック曲線と回帰直線 疾患が発

発表の流れ 1. 回帰分析とは? 2. 単回帰分析単回帰分析とは? / 単回帰式の算出 / 単回帰式の予測精度 <R による演習 1> 3. 重回帰分析重回帰分析とは? / 重回帰式の算出 / 重回帰式の予測精度 質的変数を含む場合の回帰分析 / 多重共線性の問題 変数選択の基準と方法 <R による

簿記教育における習熟度別クラス編成 簿記教育における習熟度別クラス編成 濱田峰子 要旨 近年 学生の多様化に伴い きめ細やかな個別対応や対話型授業が可能な少人数の習熟度別クラス編成の重要性が増している そのため 本学では入学時にプレイスメントテストを実施し 国語 数学 英語の 3 教科については習熟

<4D F736F F F696E74202D BD95CF97CA89F090CD F6489F18B4195AA90CD816A>

Microsoft Word - Stattext12.doc

スライド タイトルなし

1.民営化

Microsoft PowerPoint - R-stat-intro_04.ppt [互換モード]

1. 多変量解析の基本的な概念 1. 多変量解析の基本的な概念 1.1 多変量解析の目的 人間のデータは多変量データが多いので多変量解析が有用 特性概括評価特性概括評価 症 例 主 治 医 の 主 観 症 例 主 治 医 の 主 観 単変量解析 客観的規準のある要約多変量解析 要約値 客観的規準のな

計量経済学の第一歩 田中隆一 ( 著 ) gretl で例題と実証分析問題を 再現する方法 発行所株式会社有斐閣 2015 年 12 月 20 日初版第 1 刷発行 ISBN , Ryuichi Tanaka, Printed in Japan

Microsoft Word - å“Ÿåłžå¸°173.docx

Medical3

切片 ( 定数項 ) ダミー 以下の単回帰モデルを考えよう これは賃金と就業年数の関係を分析している : ( 賃金関数 ) ここで Y i = α + β X i + u i, i =1,, n, u i ~ i.i.d. N(0, σ 2 ) Y i : 賃金の対数値, X i : 就業年数. (

13章 回帰分析

回帰分析の用途・実験計画法の意義・グラフィカルモデリングの活用 | 永田 靖教授(早稲田大学)

0 部分的最小二乗回帰 Partial Least Squares Regression PLS 明治大学理 学部応用化学科 データ化学 学研究室 弘昌

Microsoft Word - apstattext03.docx

相関分析・偏相関分析

Excelによるデータ分析

<4D F736F F F696E74202D B835E89F090CD89898F4B81408F6489F18B4195AA90CD A E707074>

統計的データ解析

Microsoft Word - Stattext07.doc

Chapter 1 Epidemiological Terminology

Microsoft PowerPoint - sc7.ppt [互換モード]

Microsoft Word - econome4.docx

Microsoft Word - appendix_b

Microsoft PowerPoint - データ解析基礎4.ppt [互換モード]

目次 はじめに P.02 マクロの種類 ---

スライド 1

第4回

正常 正常 正常 正常 正常 正常 正常 正常 正常 正常 正常 正常 正常 220

基礎統計

一般化線型モデルとは? R 従属変数群が独立変数群の一次結合と誤差で表されるという形のモデルを線型モデルという ( 回帰分析はデータへの線型モデルの当てはめである ) 式で書けば Y = β 0 + βx + ε R では glm( ) という関数で実行する glm( ) は量的なデータが正規分布に

Excelにおける回帰分析(最小二乗法)の手順と出力

Microsoft PowerPoint - ch04j

第 3 回講義の項目と概要 統計的手法入門 : 品質のばらつきを解析する 平均と標準偏差 (P30) a) データは平均を見ただけではわからない 平均が同じだからといって 同一視してはいけない b) データのばらつきを示す 標準偏差 にも注目しよう c) 平均

経営戦略研究_1.indb

Microsoft Word - SPSS_Manual_I.doc

Microsoft PowerPoint - H17-5時限(パターン認識).ppt

Kumamoto University Center for Multimedia and Information Technologies Lab. 熊本大学アプリケーション実験 ~ 実環境における無線 LAN 受信電波強度を用いた位置推定手法の検討 ~ InKIAI 宮崎県美郷

EBNと疫学

【補足資料】確率・統計の基礎知識

Medical3

14 化学実験法 II( 吉村 ( 洋 mmol/l の半分だったから さんの測定値は くんの測定値の 4 倍の重みがあり 推定値 としては 0.68 mmol/l その標準偏差は mmol/l 程度ということになる 測定値を 特徴づけるパラメータ t を推定するこの手

1. 研究の背景 目的 背景 臼杵の町は 城下町であったこともあり 地形を上手に利用した特色のある街並みが形成されている 現在臼杵では 歴史的景観を保存 再生する街並みづくりが行われている そして中央通商店街周辺においても整備計画が持ち上がっている 目的 VR をもちいた景観シミュレーションにより

ダンゴムシの 交替性転向反応に 関する研究 3A15 今野直輝

件法 (1: 中学卒業 ~5: 大学院卒業 ) で 収入については 父親 母親それぞれについて 12 件法 (0: わからない 収入なし~ 11:1200 万以上 ) でたずねた 本稿では 3 時点目の両親の収入を分析に用いた 表出語彙種類数幼児期の言語的発達の状態を測定するために 3 時点目でマッ

講義「○○○○」

情報工学概論

確率・統計の基礎知識

<4D F736F F D208EC08CB18C7689E68A E F AA957A82C682948C9F92E82E646F63>

平均値 () 次のデータは, ある高校生 7 人が ヵ月にカレーライスを食べた回数 x を調べたものである 0,8,4,6,9,5,7 ( 回 ) このデータの平均値 x を求めよ () 右の表から, テレビをみた時間 x の平均値を求めよ 階級 ( 分 ) 階級値度数 x( 分 ) f( 人 )

0.0 Excelファイルの読み取り専用での立ち上げ手順 1) 開示 Excelファイルの知的所有権について開示する数値解析の説明用の Excel ファイルには 改変ができないようにパスワードが設定してあります しかし 読者の方には読み取り用のパスワードを開示しますので Excel ファイルを読み取

テンプレート

スライド 1

Microsoft Word - Excel統計・2014サンプル.docx

3章 度数分布とヒストグラム

PowerPoint プレゼンテーション

Excelによる統計分析検定_知識編_小塚明_5_9章.indd

Taro-13semiamos.jtd

因子分析

データの整理 ( 度数分布表とヒストグラム ) 1 次元のデータの整理の仕方として代表的な ものに度数分布表とヒストグラムがあります 度数分布表観測値をその値に応じていくつかのグループ ( これを階級という ) に分類し 各階級に入る観測値の数 ( これを度数という ) を数えて表にしたもの 2

ANOVA

Microsoft PowerPoint - 価格関数R3.pptx

SPSSによる実習

日本言語科学会(JSLS)チュートリアル講演会 平成13年12月16日(日)午前10時30分から午後4時30分 慶應義塾大学三田キャンパス東館6階G-SEC Lab   言語研究のための統計解析 「論理」学としての思考法,「美」学としての提示法

夏季五輪の メダル獲得要因はなにか

初めてのプログラミング

様々なミクロ計量モデル†

MedicalStatisticsForAll.indd

解答のポイント 第 1 章問 1 ポイント仮に1 年生全員の数が 100 人であったとする.100 人全員に数学の試験を課して, それらの 100 人の個人個人の点数が母集団となる. 問 2 ポイント仮に10 人を抽出するとする. 学生に1から 100 までの番号を割り当てたとする. 箱の中に番号札

Microsoft PowerPoint - 測量学.ppt [互換モード]

データ解析

314 図 10.1 分析ツールの起動 図 10.2 データ分析ウィンドウ [ データ ] タブに [ 分析 ] がないときは 以下の手順で表示させる 1. Office ボタン をクリックし Excel のオプション をクリックする ( 図 10.3) 図 10.3 Excel のオプション

目次 1 章 SPSS の基礎 基本 はじめに 基本操作方法 章データの編集 はじめに 値ラベルの利用 計算結果に基づく新変数の作成 値のグループ化 値の昇順

Microsoft PowerPoint - Econometrics

回帰分析の重要な手続きは 次の 3 点にまとめられる 順に説明しよう ( 1) もっともよい線を引く ( 2) その線はどのくらいよい線であるかを評価する ( 3) 母集団についても同様の線を引く価値があるかどうかを判断する 概要をスライドで確認 テキスト p.99 の図が回帰分析の本質 実際のデー

JMP による 2 群間の比較 SAS Institute Japan 株式会社 JMP ジャパン事業部 2008 年 3 月 JMP で t 検定や Wilcoxon 検定はどのメニューで実行できるのか または検定を行う際の前提条件の評価 ( 正規性 等分散性 ) はどのメニューで実行できるのかと

Transcription:

章重回帰分析 複数の変数で 1つの変数を予測するような手法を 重回帰分析 といいます 前の巻でところで述べた回帰分析は 1つの説明変数で目的変数を予測 ( 説明 ) する手法でしたが この説明変数が複数個になったと考えればよいでしょう 重回帰分析はこの予測式を与える分析手法です 以下の例を見て下さい 例 以下のデータ (Samples 重回帰分析 1.txt) をもとに体重を身長と胸囲の1 次関数で 予測せよ 体重 身長 胸囲 体重 身長 胸囲 61.0 167.0 84.0 49.5 164.7 78.0 55.5 167.5 87.0 61.0 171.0 90.0 57.0 168.4 86.0 59.5 16.6 88.0 57.0 17.0 85.0 58.4 164.8 87.0 50.0 155.3 8.0 53.5 163.3 8.0 50.0 151.4 87.0 54.0 167.6 84.0 66.5 163.0 9.0 60.0 169. 86.0 65.0 174.0 94.0 58.8 168.0 83.0 60.5 168.0 88.0 54.0 167.4 85. 49.5 160.4 84.9 56.0 17.0 8.0 体重を身長と胸囲の1 次式で予測 ( 説明 ) するのですから 体重を目的変数 身長と脅威が説明変数となります 説明変数を独立変数 目的変数を従属変数と呼ぶ場合もあります 予測式は以下の形になります 体重 身長 胸囲 この式は重回帰式と呼ばれ 係数,, は偏回帰係数と呼ばれます それでは実際に重回帰分析を実行してみましょう データ Samples 重回帰分析 1.txt を読み込んで メニュー [ 分析 - 多変量解析他 - 重回帰分析 ] を選択すると図.1 の分析メニューが表示されます 1

図.1 重回帰分析メニュー 分析メニュー中に目的変数を最初に選択するよう書いてありますので 変数選択 ボタンで体重を最初に選択し 他の変数を後から選択します (All の選択でそのようになります ) College Analyss では基本的に分析名の書いてあるボタンをクリックすると最も大事な結果が表示されるようになっていますので この場合はまず 重回帰分析 ボタンをクリックします すると図. の結果が表示されます 図. 重回帰分析結果

ここで重回帰式と偏回帰係数は数式の形で表示されています 重相関係数は体重の実測値と予測値の相関係数で 寄与率はこの重回帰式がどの程度体重の変動を説明できているかを表しており 重相関係数の 乗で与えられます 自由度調整済みとなっているのは自由度調整済み重相関係数のことで 説明変数をたくさん選ぶことで重相関係数が高くなっていくことを調整した指標です その下には残差の正規性の検定を行っている部分があります 回帰分析の回帰式の検定のときにも行ったものと同じ検定を実施するためには 回帰分析の体重の実測値と予測値の差である残差について正規性が成り立つことが必要ですが ここではその検定を行っています その下に重回帰式の有効性の検定の結果が表示されていますが これは残差の変動と重回帰式の変動の大きさを比べるもので 残差の変動が大きすぎると重回帰式の有効性が疑われることになります ここでは 重回帰式が有効であることが示されています 図. の結果表示と同時に図.3 で与えられるグリッド ( 表 ) も出力されます 図.3 重回帰分析の結果のグリッド出力 この表では 重回帰式の係数である偏回帰係数の他に データを平均 0 不偏分散 1 に標準化した場合の偏回帰係数である標準化偏回帰係数 ( 標準化係数となっています ) も表示されています 標準化偏回帰係数は重回帰式における各変数の重要性を表す指標です 通常の偏回帰係数では変数の大きさの影響でその値だけで重要性を判断することはできません 次のt 検定値から確率値までは各偏回帰係数 ( 切片も含めて ) が統計的に 0 でないことを調べる検定結果です 確率値は偏回帰係数が 0 となる確率で有意水準以下で偏回帰係数が 0 でないと判断します 相関係数は目的変数と各変数のピアソンの相関係数で 偏相関係数は他の説明変数 3

からの影響を取り除いた目的変数と説明変数の相関係数です 目的変数は説明変数から影響を受けますが 直接的な影響と間接的な影響が考えられ この間接的な影響を取り除いたものです 図.1 のメニューで 分散分析表 ボタンをクリックすると図.4 の結果が表示されます 図.4 分散分析表出力結果これは分散分析表と呼ばれ 全変動とその中の回帰変動 残差変動を表示したものです また図. で表示された重回帰式の有効性の検定結果も表形式で表示しています 図.1 のメニューで 予測値と残差 ボタンをクリックすると図.5 の画面が表示されます 図.5 予測値と残差出力結果ここでは目的変数の実測値と重回帰式による予測値 及びそれらの差である残差を表示しています 実測値と予測値の関係を図で見たいなら 実測 / 予測散布図 ボタンをクリックします 図.6 のような散布図が得られます 4

図.6 実測値と予測値の散布図タイトルバーに ( 実測値 / 予測値 ) とありますが これは実測値が縦軸 予測値が横軸であることを示しています また斜めの線はこの散布図の回帰直線で 実測値 = 予測値を表す直線になります 重回帰分析は説明変数をたくさん選ぶほど寄与率が高くなりますが 多ければ良いというものではありません 意味のある説明変数でシンプルに式を作ることこそモデルとして重要です そこで 図.3 のところで見た偏回帰係数の検定を行い 有意なものだけを残すことを考える必要があります これは一つ一つの変数を吟味しながら利用者が行うことをお勧めしますが 自動的に行うこともできます それが図.1 のメニューの下の部分の変数自動選択です その方法には 変数増減法 変数減少法 変数増加法が用意されていますが 良く利用されるのが変数増減法です 意味のある変数を追加し 重回帰分析を行い その中で不要となった変数を除去するということを繰り返しますが そのときの追加と削除の基準が Pn, Pout の確率値です これは偏回帰係数の検定と同じなので t 検定を用いてもよいのですが 乗して F 検定を利用するのが一般的です Fn, Fout はそのときの F 値を使いますが 確率で考える方が意味がはっきりするように思います 選択法を左のコンボボックスで選び 選択 ボタンをクリックすると選択過程で得られた図.3 と同じ表が出力されます ここでは例が説明変数 つなので図は省略します 得られた結果で良ければ 設定 ボタンで選択変数を設定し 分析を実行することができるようになります 5

最後にこれまでのことを簡単にまとめておきましょう 重回帰分析とは以下の形で目的変数を予測する 目的変数 = b 1 説明変数 1+b 説明変数 + +b 0 係数の値は? 偏回帰係数 説明変数の重要性は? 標準化偏回帰係数 どの程度予測できるか? 重相関係数, 寄与率 ( 決定係数 ) このモデルは有効か? F 検定値と確率 ( 要残差正規性 ) それぞれの係数は有効か? t 検定値と確率 ( 要残差正規性 ) 他の変数の影響を除いた目的変数と各説明変数の相関は? 偏相関係数 どの程度予測できているのか図的に見たい 散布図 どの程度予測できているのかデータ毎に見たい 予測値と残差 まとめ目的変数を体重に 説明変数を身長と胸囲にして 重回帰分析を行ったところ 以下の回帰式を得た 体重 = 0.3861* 身長 +0.8575* 胸囲 -80.747 予測体重と実測体重の相関である重相関係数は 0.84055 で 回帰式の寄与率は 0.7065 となった これから体重変動の約 71% が説明できることが分かる 各変数の予測における重要性を示す標準化偏回帰係数は 身長が 0.4333 胸囲が 0.6401 と胸囲が少し上回っている 回帰式の妥当性の検定を行ったところ p=0.00003 となり 妥当性が有意に示された また 各偏回帰係数が 0 と異なることを示す検定では 身長が p=0.00488 胸囲が p=0.00018 切片は p=0.0033 となり 各係数とも有意に 0 と異なっている 以上のことからこの回帰式は予測モデルとして かなり良いモデルになっている ここで利用した理論の公式は以下の通りです 理論 標本番号目的変数説明変数 1 説明変数 p 1 y 1 x 11 x k1 y x 1 x k : : : 6

n y n x 1n x kn 目的目的変数を最もよく説明する説明変数の線形モデルを与える Y b b x b x b x 0 1 1 k k 偏回帰係数目的変数のゆらぎ D を最も良く説明する偏回帰係数 b 0, b を求める Y b b x b x b x k D n 0 1 1 1 k ( y Y ) 最小化 標準化偏回帰係数 y y x y* x, x* として y * を説明する回帰式を求める u Y u y * b1 * x1 * b * x * b k * xk 寄与率と重相関係数 SV n n n ( y y) ( y Y ) 1 1 1 * ( Y 全変動 SV, 回帰変動 RV, 残差変動 EV 寄与率 R RV SV 重相関係数 自由度調整済み重相関係数 回帰式の有効性の検定 F EV RV k ~ ( n k 1) Y ) u b * b u y EV RV R RV SV 観測値と予測値の相関係数でもある F p, n p1 分布 R 偏回帰係数の検定 b 0 の検定自由度 n k 1の t 検定 b0 0 の検定自由度 n k 1の t 検定偏相関係数 ry 1 1 1 k X : 他の説明変数で作った x の予測回帰式 Y : 他の説明変数で作った y の予測回帰式 x x X, y y Y とした場合の EV ( n k 1) 1 SV ( n 1) 7

x と y の相関係数 ( 他の変数の影響を除いた相関係数 ) 残差 z y Y 問題 1 Samples 重回帰分析.txt はある大学の学生について調べた 卒業試験の成績 入試点数 内申点数 ある5 日間の勉強時間 授業への出席率のデータである 卒業試験の成績を他の変数で予測する重回帰分析を行い 結果をまとめにならって記述せよ 問題 Samples 重回帰分析.txt について 重回帰分析を行い 以下の問いに答えよ 1) 回帰式を求めよ 卒業試験 = [ ] 入試点数 +[ ] 内申点数 +[ ] 勉強時間 +[ ] 出席率 +[ ] ) この回帰式の寄与率を求めよ [ ] 3) この場合残差の分布は正規分布といえるか [ 正規分布 正規分布でない ] 4) 回帰式の係数のt 検定 ( 偏回帰係数が 0 と異なるかどうかの検定 ) の確率値が 0.05 を超えるものの中で最大となる変数 ( 最も不要な変数 ) を順次削除していくと 最 終的に残るものは何か 各段階の検定確率値を記入せよ 但し 削除した変数のと ころは以後空欄にし すべての確率が 0.05 未満になった場合は確定とする 入試点数内申点数勉強時間出席率 4 変数 3 変数 変数 1 変数 5) 最終的な回帰式はどのようになるか 不要な変数の係数欄は空欄のままでよい 卒業試験 = [ ] 入試点数 +[ ] 内申点数 +[ ] 勉強時間 +[ ] 出席率 +[ ] 6) 上の回帰式の寄与率を求めよ [ ] 7) 上の回帰式の寄与率はすべての変数を使った場合に比べ大きく下がっているか [ 大きく下がっている あまり下がっていない ] 8

8) この式を新しい予測モデルとして採用するか [ 採用する 採用しない ] 9) 新しい予測モデルで データ中の最初 (1 番 ) の学生について卒業試験の実測値, その予測値, 残差 ( 実測値と予測値の差 ) はいくらか 実測値 [ ] 予測値 [ ] 残差 [ ] 10) 上と同様のモデルで 質問項目の値が入試点数 70 内申点数 3.5 勉強時間 5 出席率 70% の学生の卒業試験はいくらに予測されるか [ ] 問題 3 Samples 重回帰分析 3.txt について 重回帰分析を行い 以下の問いに答えよ 1) 売上を従業員と資産で推測する回帰式を求めよ 売上 = [ ] 従業員 +[ ] 資産 +[ ] ) 上の回帰式の寄与率を求めよ [ ] 3)log 売上を log 従業員と log 資産で推測する回帰式を求めよ 但し この対数は底 が 10 の常用対数である log 売上 = [ ]log 従業員 +[ ]log 資産 +[ ] 4) 上の回帰式の寄与率を求めよ [ ] 5) z cx a y b の常用対数をとると以下のようになる log10 z a log10 x b log10 y log10 c d ここに d log10 c とすると c 10 (Excel で計算可能 ) これを用いて3) の回帰式を以下の形に書き換えよ [ 売上 =[ ] 従業員 ] [ ] 資産 6)1) の回帰式と3) の回帰式はどちらがより優れていると思われるか どちらも良いモデルであるが どちらかといえば [1 3] が優れている 9