回帰分析の重要な手続きは 次の 3 点にまとめられる 順に説明しよう ( 1) もっともよい線を引く ( 2) その線はどのくらいよい線であるかを評価する ( 3) 母集団についても同様の線を引く価値があるかどうかを判断する 概要をスライドで確認 テキスト p.99 の図が回帰分析の本質 実際のデー

Similar documents
多変量解析 ~ 重回帰分析 ~ 2006 年 4 月 21 日 ( 金 ) 南慶典

スライド 1

Microsoft PowerPoint - e-stat(OLS).pptx

スライド 1

13章 回帰分析

Microsoft Word - mstattext02.docx

Microsoft PowerPoint - 資料04 重回帰分析.ppt

切片 ( 定数項 ) ダミー 以下の単回帰モデルを考えよう これは賃金と就業年数の関係を分析している : ( 賃金関数 ) ここで Y i = α + β X i + u i, i =1,, n, u i ~ i.i.d. N(0, σ 2 ) Y i : 賃金の対数値, X i : 就業年数. (

1.民営化

第1回

Microsoft Word - SPSS2007s5.doc

Microsoft PowerPoint - 統計科学研究所_R_重回帰分析_変数選択_2.ppt

講義ノート p.2 データの視覚化ヒストグラムの作成直感的な把握のために重要入力間違いがないか確認するデータの分布を把握する fig. ヒストグラムの作成 fig. ヒストグラムの出力例 度数分布表の作成 データの度数を把握する 入力間違いが無いかの確認にも便利 fig. 度数分布表の作成

ビジネス統計 統計基礎とエクセル分析 正誤表

<4D F736F F F696E74202D B835E89F090CD89898F4B81408F6489F18B4195AA90CD A E707074>

Microsoft PowerPoint - R-stat-intro_04.ppt [互換モード]

Microsoft PowerPoint - データ解析基礎4.ppt [互換モード]

Microsoft PowerPoint - R-stat-intro_12.ppt [互換モード]

統計的データ解析

memo

第1回

発表の流れ 1. 回帰分析とは? 2. 単回帰分析単回帰分析とは? / 単回帰式の算出 / 単回帰式の予測精度 <R による演習 1> 3. 重回帰分析重回帰分析とは? / 重回帰式の算出 / 重回帰式の予測精度 質的変数を含む場合の回帰分析 / 多重共線性の問題 変数選択の基準と方法 <R による

<4D F736F F D208EC08CB18C7689E68A E F AA957A82C682948C9F92E82E646F63>

EBNと疫学

0 部分的最小二乗回帰 Partial Least Squares Regression PLS 明治大学理 学部応用化学科 データ化学 学研究室 弘昌

簿記教育における習熟度別クラス編成 簿記教育における習熟度別クラス編成 濱田峰子 要旨 近年 学生の多様化に伴い きめ細やかな個別対応や対話型授業が可能な少人数の習熟度別クラス編成の重要性が増している そのため 本学では入学時にプレイスメントテストを実施し 国語 数学 英語の 3 教科については習熟

Microsoft PowerPoint - ch04j

タイトルを修正 軸ラベルを挿入グラフツール デザイン グラフ要素を追加 軸ラベル 第 1 横 ( 縦 ) 軸 凡例は削除 横軸は, 軸の目盛範囲の最小値 最 大値を手動で設定して調整 図 2 散布図の仕上げ見本 相関係数の計算 散布図を見ると, 因果関係はともかく, 人口と輸送量の間には相関関係があ

経済統計分析1 イントロダクション

Chapter 1 Epidemiological Terminology

Microsoft PowerPoint - sc7.ppt [互換モード]

スライド タイトルなし

目次 1 章 SPSS の基礎 基本 はじめに 基本操作方法 章データの編集 はじめに 値ラベルの利用 計算結果に基づく新変数の作成 値のグループ化 値の昇順

Microsoft Word - Stattext12.doc

Excelを用いた行列演算

情報工学概論

Dependent Variable: LOG(GDP00/(E*HOUR)) Date: 02/27/06 Time: 16:39 Sample (adjusted): 1994Q1 2005Q3 Included observations: 47 after adjustments C -1.5

MedicalStatisticsForAll.indd

データ解析

経営統計学

ANOVA

13章 回帰分析

様々なミクロ計量モデル†

Microsoft Word - apstattext04.docx

RSS Higher Certificate in Statistics, Specimen A Module 3: Basic Statistical Methods Solutions Question 1 (i) 帰無仮説 : 200C と 250C において鉄鋼の破壊応力の母平均には違いはな

計量経済学の第一歩 田中隆一 ( 著 ) gretl で例題と実証分析問題を 再現する方法 発行所株式会社有斐閣 2015 年 12 月 20 日初版第 1 刷発行 ISBN , Ryuichi Tanaka, Printed in Japan

ダンゴムシの 交替性転向反応に 関する研究 3A15 今野直輝

当し 図 6. のように 2 分類 ( 疾患の有無 ) のデータを直線の代わりにシグモイド曲線 (S 字状曲線 ) で回帰する手法である ちなみに 直線で回帰する手法はコクラン アーミテージの傾向検定 疾患の確率 x : リスクファクター 図 6. ロジスティック曲線と回帰直線 疾患が発

第 3 回講義の項目と概要 統計的手法入門 : 品質のばらつきを解析する 平均と標準偏差 (P30) a) データは平均を見ただけではわからない 平均が同じだからといって 同一視してはいけない b) データのばらつきを示す 標準偏差 にも注目しよう c) 平均

Excelによる統計分析検定_知識編_小塚明_5_9章.indd

8 A B B B B B B B B B 175

Microsoft Word - å“Ÿåłžå¸°173.docx

PowerPoint プレゼンテーション

Medical3

Microsoft Word - SDA2012kadai07.doc

Excelにおける回帰分析(最小二乗法)の手順と出力

0 スペクトル 時系列データの前処理 法 平滑化 ( スムージング ) と微分 明治大学理 学部応用化学科 データ化学 学研究室 弘昌

因子分析

相関分析・偏相関分析

1. 多変量解析の基本的な概念 1. 多変量解析の基本的な概念 1.1 多変量解析の目的 人間のデータは多変量データが多いので多変量解析が有用 特性概括評価特性概括評価 症 例 主 治 医 の 主 観 症 例 主 治 医 の 主 観 単変量解析 客観的規準のある要約多変量解析 要約値 客観的規準のな

モジュール1のまとめ

Medical3

Microsoft Word - Stattext13.doc

Python-statistics5 Python で統計学を学ぶ (5) この内容は山田 杉澤 村井 (2008) R によるやさしい統計学 (

DVIOUT

Microsoft Word - 11 進化ゲーム

Microsoft PowerPoint - データ解析基礎2.ppt

横浜市環境科学研究所

Excelによるデータ分析

回帰分析 単回帰

PowerPoint プレゼンテーション

PowerPoint プレゼンテーション

パソコンシミュレータの現状

Microsoft Word - reg2.doc

> usdata01 と打ち込んでエンター キーを押すと V1 V2 V : : : : のように表示され 読み込まれていることがわかる ここで V1, V2, V3 は R が列のデータに自 動的につけた変数名である ( variable

DVIOUT-SS_Ma

Microsoft Word - 微分入門.doc

Microsoft PowerPoint - GLMMexample_ver pptx

不偏推定量

消費 統計学基礎実習資料 2017/11/27 < 回帰分析 > 1. 準備 今回の実習では あらかじめ河田が作成した所得と消費のファイルを用いる 課題 19 統計学基礎の講義用 HP から 所得と消費のファイルをダウンロードしてみよう 手順 1 検索エンジンで 河田研究室 と入力し検索すると 河田

回帰分析 重回帰(1)

(3) 検定統計量の有意確率にもとづく仮説の採否データから有意確率 (significant probability, p 値 ) を求め 有意水準と照合する 有意確率とは データの分析によって得られた統計値が偶然おこる確率のこと あらかじめ設定した有意確率より低い場合は 帰無仮説を棄却して対立仮説

14 化学実験法 II( 吉村 ( 洋 mmol/l の半分だったから さんの測定値は くんの測定値の 4 倍の重みがあり 推定値 としては 0.68 mmol/l その標準偏差は mmol/l 程度ということになる 測定値を 特徴づけるパラメータ t を推定するこの手

講義「○○○○」

分析のステップ Step 1: Y( 目的変数 ) に対する値の順序を確認 Step 2: モデルのあてはめ を実行 適切なモデルの指定 Step 3: オプションを指定し オッズ比とその信頼区間を表示 以下 このステップに沿って JMP の操作をご説明します Step 1: Y( 目的変数 ) の

Kumamoto University Center for Multimedia and Information Technologies Lab. 熊本大学アプリケーション実験 ~ 実環境における無線 LAN 受信電波強度を用いた位置推定手法の検討 ~ InKIAI 宮崎県美郷

Microsoft PowerPoint - mp11-02.pptx

カイ二乗フィット検定、パラメータの誤差

lee1

Excelによる統計分析検定_知識編_小塚明_1_4章.indd

解答のポイント 第 1 章問 1 ポイント仮に1 年生全員の数が 100 人であったとする.100 人全員に数学の試験を課して, それらの 100 人の個人個人の点数が母集団となる. 問 2 ポイント仮に10 人を抽出するとする. 学生に1から 100 までの番号を割り当てたとする. 箱の中に番号札

Microsoft PowerPoint - statistics pptx

やすだ社会学研究法 a( 2012 年度秋学期担当 : 保田 ) クラスター分析 ( 1): 考え方 クラスター分析の目的と魅力クラスター分析 ( cluster analysis) は いくつかの変数から構成される多数のケースを類似性の高いグループ ( クラスター ) にまとめる 分類 のための技

Probit , Mixed logit

<4D F736F F D208EC08CB18C7689E68A E F1939D8C E82E646F63>

異文化言語教育評価論 ⅠA 第 4 章分散分析 (3 グループ以上の平均を比較する ) 平成 26 年 5 月 14 日 報告者 :D.M. K.S. 4-1 分散分析とは 検定の多重性 t 検定 2 群の平均値を比較する場合の手法分散分析 3 群以上の平均を比較する場合の手法 t 検定

重回帰式 y= x x 2 重症度 5 TC TC 重症度

CAEシミュレーションツールを用いた統計の基礎教育 | (株)日科技研

と 測定を繰り返した時のばらつき の和が 全体のばらつき () に対して どれくらいの割合となるかがわかり 測定システムを評価することができる MSA 第 4 版スタディガイド ジャパン プレクサス (010)p.104 では % GRR の値が10% 未満であれば 一般に受容れられる測定システムと

<4D F736F F D208CF68BA48C6F8DCF8A C30342C CFA90B68C6F8DCF8A7782CC8AEE967B92E8979D32288F4390B394C529332E646F63>

Transcription:

遅刻回数 やすだ社会学研究法 a( 2013 年度秋学期担当 : 保田 ) 回帰分析 ( 1): 考え方 回帰分析の目的と魅力今回からは 回帰分析 ( regression analysis) について解説する 回帰分析は ある 1 つの変数 ( 従属変数 ) の値を 他の変数 ( 独立変数 ) の値で説明しようとするときに もっとも頻繁に利用される分析技法である たとえば ある大学の先生が学生の遅刻に頭を悩ませているとする 遅刻の原因として アルバイトのやりすぎによる疲れがあるのではないかと考え 15 人の学生に調査をしたとする 1 ヶ月のアルバイト時間を X 軸に 遅刻回数を Y 軸にして図 1 のような散布図を描くと その関係性がわかる このとき 散布図の上に直線を引いてみたくなることがある 35 30 25 20 15 10 5 0 0 50 100 150 200 アルバイト時間 図 1 アルバイト時間と遅刻回数の関係 ( 仮想データ ) このような直線を引きたくなるのは 次のように考えているからである X と Y の関係は 本来この直線のような関数で表せるのではないだろうか 実際のデータがこの直線からいくらかずれているのは 何らかの誤差によるものだろう と より定式的に書けば 本来の Y の値は X の値から Yˆ X という直線の関数で表せる ( Yˆ は実際の Y の値ではなく 予測値としての Y の値を表す ) と考えていることになる α は直線と Y 軸が交わる切片を表し β は直線の傾きを表す α や β は定数なので 具体的には Yˆ 4.5 0. 1 X といった形で Y の予測式は表される 上のような予測式のことを回帰式 ( regression equation) と呼び 回帰式によって表される線のことを回帰線 ( regression line) と呼ぶ また 回帰式のαを定数項 β を回帰係数 ( regression coefficient) と呼ぶ 回帰分析の目的は 回帰線を最適に調整することを通して ある変数 ( 従属変数 ) の値が その原因と考えられる変数 ( 独立変数 ) によってどのように説明できるのかを統計的に明らかにすることである 何らかの因果関係を想定して その関係性の有無や方向 強さに関心を持つことは極めて一般的な問題意識であり その疑問に正面から答えを出してくれることが回帰分析の魅力である 回帰分析 - 1 -

回帰分析の重要な手続きは 次の 3 点にまとめられる 順に説明しよう ( 1) もっともよい線を引く ( 2) その線はどのくらいよい線であるかを評価する ( 3) 母集団についても同様の線を引く価値があるかどうかを判断する 概要をスライドで確認 テキスト p.99 の図が回帰分析の本質 実際のデータで最適な回帰式を求めると p.100 のようになる 分析の結果を図に戻すと 最適な回帰式を推定する回帰分析の最初の手続きとして 散布図の中にもっともよい回帰線を引かなければならない もっともよい回帰線とは 実際のデータと予測値との差 つまり Y Yˆ ( 残差と呼ぶ ) の合計がもっとも小さくなる線である ただし 残差がプラス側かマイナス側であるかは 問題ではないので 残差を 2 乗した値を用いて その合計値が最も小さくなるようにする この合計値を残差平方和 ( residual sum of squares) と呼ぶ 残差平方和が小さいほど その回帰線はよい回帰線と考える 回帰分析 - 2 -

遅刻回数 ( 練習 ) 次ページをみないように! 1. 自分が最適だと思う直線を散布図の上に引いてみよう 2. その直線の切片と傾きを読み取って 式に表わしてみよう 35 30 25 20 15 10 5 Yˆ X Yˆ X 0-5 0 50 100 150 200-10 アルバイト時間 3. 自分が引いた直線について 残差平方和を求め 周りの人と比較してみよう ( 残差平 方和が小さいほどよい回帰線ということになる ) アルバイト時間 X 遅刻回数 ( 観測値 ) Y 1 人目 55 0 2 人目 35 4 3 人目 180 29 4 人目 172 12 5 人目 150 26 6 人目 8 15 7 人目 80 3 8 人目 95 10 9 人目 0 3 10 人目 15 7 11 人目 16 0 12 人目 120 5 13 人目 105 19 14 人目 70 12 15 人目 0 5 予測値 Yˆ 自分が引いた直線 残差 Y Yˆ 残差平方 2 ( Y Yˆ) ( 合計 ) 残差平方和 = 回帰分析 - 3 -

遅刻回数 目分量で適当に引いても そこそこよい回帰線が引けると思われるが 数学的には微分方程式を解くことで最適な線を導くことができる このように数学的に最適な回帰線を求めることを最小二乗法 ( method of least squares) と呼ぶ 数学的な詳細は省略するが 方程式を解くと 具体的にいまのデータの場合には β = 0.095 α=3.01 が最適である つまり Yˆ 3.01 0. 095 X という回帰式最適である このとき 残差平方和は 632.13 になり 他にどんな回帰線を考えても これよりも小さな残差平方和をとることはない この回帰線から 次のように具体的な意味を読み取れる アルバイトをしていない場合 ( X が 0 の場合 ) は遅刻の回数が 3.01 回と予測され アルバイト時間が 1 時間増えるごとに 0.095 回ずつ遅刻の予測回数が増える 回帰線の説明力を評価する最小二乗法によって 最適な回帰線は求まる しかし 最適な回帰線であったとしても 従属変数の予測に十分な説明力 ( 予測力 ) を持つとは限らない もともと独立変数に従属変数を説明する力がない場合には 最善を尽くしても十分な説明ができるはずはないからである そこで 2 つ目の手続きとして その回帰線はどのくらいよい線であるか 説明力の強さを評価する 回帰線が持つ説明力の評価は 一般に決定係数 ( coefficient of determination) によってなされる 決定係数は 0~ 1( 0%~100% ) の値を取り 独立変数で従属変数の値をどれだけ説明できるか その割合を表す 決定係数は次のような考え方に基づいている いま 従属変数 ( Y) の予測のために独立変数 ( X) の情報を用いることができないとしよう つまり 1 人 1 人のアルバイト時間が分からない中で 遅刻回数をなるべくずれが少ないように予測することを考える このとき 最適な予測方法は 常に Y の平均値を予測値として用いることである ( 図 2) 35 30 25 20 15 10 5 0 0 50 100 150 200 アルバイト時間 図 2 独立変数を利用しない最善の予測 このときの残差平方和を出発点として 最適な回帰線を用いると残差平方和が何 % 減少するかを算出したものが決定係数である 今回のデータの場合 遅刻回数をすべて平均値で予測すると 残差平方和が 1124.00 になる 最適な回帰線による残差平方和は 632.13 だったわけなので この回帰線によって残差平方和は 491.87 だけ改善した これは もともとの残差平方和の 43.8% にあたる ( 491.87/1124.00=0.438) つまり 決定係数 R 2 = 0.438 回帰分析 - 4 -

で 遅刻回数の 43.8% がアルバイト時間によるこの回帰式で説明できることがわかる ただし 実際のデータ分析では さらに調整を加えた調整済み決定係数 ( adjusted R 2 ) を用いることが多い 決定係数は 母集団における実際の説明力よりもわずかに大きくなる偏りを持つ この偏りは 標本の回答者数が少ないときなどに 無視できないほど大きくなるので 決定係数をやや小さく調整し直すわけである 今回の回帰分析の場合 決定係数は 0.438 だが 調整済み決定係数は 0.395 となる 結局 遅刻回数の 39.5% がアルバイト時間を原因と考えることで説明できることが分かる 決定係数と調整済み決定係数の値がやや大きくかけ離れているのは 標本の人数が 15 人と非常に少ないためである 通常の調査データでは それほど大きな違いは現れない 決定係数がどのくらい大きければ十分なのか 明確な基準はない 学問分野や分析対象 分析目的によって必要な説明力は異なるからである 一般的には 社会調査のデータ分析で求められる説明力 ( 決定係数 ) の水準は あまり高くないことが多い 10% を切っていても有意義な分析とみなされることも珍しくはない 説明力を統計的に検定する最後に残された手続きは この最適な回帰線で 母集団についても説明すべきかどうか判断することである つまり 回帰線の説明力が統計的に有意かどうかを検定する 最適な線を求め それがある程度の説明力を持っているとしても 回答者の数が少なすぎるなどの理由で 母集団の推測にとっては有意でないことがある ここで行う検定は 説明力が少なくとも 0 ではない ( 決定係数 R 2 0) といってよいかどうかの検定であり 下の計算式で算出される F 値を検定統計量として利用する F 値は ランダムな誤差に対して独立変数による説明が何倍の予測力を持っているか という分散比を表すことになる R F 2 (1 R ) /( n 2) 2 したがって F 値が十分に大きく ランダム誤差の何倍もの説明力が認められるならば 回帰線は母集団についても説明力を持つとみなされる ( R 2 0) 計算式から分かるように F 値が大きくなるのは 決定係数 R 2 が大きいときと 標本の回答者数 n が大きいときである 遅刻回数の例では 決定係数 R 2 が 0.438 で 回答者数 n が 15 であったので F 値は次のような値をとり アルバイト時間はランダム誤差に比べて 10 倍程度の説明力をもつ 0.438 F 10.13 (1 0.438) /(15 2) 確率表にあてはめると このような F 値がまったくの偶然に出現する確率 ( 有意確率 ) は わずかに 0.7% 程度しかない ( p= 0.007) したがって 標準的に 5% を有意水準とするならば この回帰線は十分に統計的に有意であり 母集団についてもこの回帰線で物事を考えることに統計的な意味があると認められる 回帰分析 - 5 -

( 練習 ) 回帰分析の結果が以下のとおりであった場合 具体的にどういう意味が読み取れるか 穴埋めしてみよう 飲食店のアルバイト店員 50 名に対するアンケートデータを用いた回帰分析 従属変数は アルバイトへの満足度 ( 100 点満点 ) 独立変数は アルバイトの時給 回帰分析の結果 定数項 α = -55.8 回帰係数 β = 0.13 調整済み決定係数 R 2 = 0.113 F 値を検定統計量とした検定の結果 有意確率 p= 0.0098 回帰分析で求められた最適な回帰式は Ŷ = で 回帰線をおよそのグラフで図示すると 下のようになる 具体的には たとえば時給が 700 円のときの満足度は点と予測されるのに対して 時給が 900 円ならば 満足度点と予測される 満足度 100 90 80 70 60 50 40 30 20 10 0-10 -20-30 -40-50 -60-70 0 100 200 300 400 500 600 700 800 900 1000 1100 1200 時給 また この結果から アルバイトの満足度は時給の違いによっておよそ % 説明できることがわかる この 50 名のアンケート結果から アルバイトの満足度が時給である程度説明できる と一般化してよいかというと 偶然このような結果が得られる確率 ( 有意確率 ) が % なので 統計的に有意な結果と { いえる いえない} 回帰分析 - 6 -

やすだ社会学研究法 a( 2013 年度秋学期担当 : 保田 ) 回帰分析 ( 2): SPSS で実践 SPSS でやってみよう 前回は 回帰分析の考え方について学習した 今回は SPSS を操作して 実際に回帰分析 の結果を出力しながら 一通りの手続きを経験しよう 回帰分析の操作 1 メニューから 分析 回帰 線型 2 説明したい変数 ( Y) を [ 従属変数 ] 説明に使う変数 ( X) を [ 独立変数 ] 欄へ移動 (2 質的変数を独立変数にする場合は あらかじめダミー変数に変換すること ) 3 OK ボタン ❷ ❸ 読み取るポイント ❶ 最適な回帰式の α β ❷ 調整済み決定係数 ❸ 全体的な説明力の検定結果 ( 重回帰分析の場合 ) ❹ 各独立変数の影響力の検定結果 ❶ ❹ 回帰分析 - 7 -

独立変数が複数の場合の回帰分析ここまでは 独立変数が 1 つの回帰分析を扱ったが 一般的には複数の独立変数を用いた回帰分析がよく行われる 独立変数が複数の場合を重回帰分析 ( multiple regression analysis) と呼ぶこともあるが 回帰分析といえばふつうは重回帰分析のことである 独立変数が複数ある場合の回帰式は 次のようにどんどん独立変数の効果を足し合わせていく形で表現される Yˆ X 1 1 2X 2 3X 3... これはつまり 独立変数の値が 1 増加することは ( 他の要素とは関係なく ) 常に一定の影響力で従属変数の値に作用する つまり傾きが一定である という考え方を踏襲している 図形として視覚化することはできないが 多次元空間の散布図の中に 1 本の最適な線を通して 常に一定の法則が働いていることを主張しようとしていることを意味する 重回帰分析の回帰係数 ( β 1 β 2 β 3 ) は とくに偏回帰係数と呼ぶこともある 具体的には たとえば遅刻回数 Y を アルバイト時間 X 1 通学時間 ( 分 )X 2 睡眠時間 X 3 で説明しようとする重回帰分析では 次のような形で最適な回帰式が析出される Yˆ 10.21 0.22X 1 0.04X 2 1. 31 X 3 この場合 アルバイトが 1 時間増えるごとに遅刻が 0.22 回増え 同様に通学時間が 1 分長いごとに 0.04 回遅刻が増える 睡眠時間が 1 時間長いごとに遅刻は 1.31 回減る すべての独立変数が 0 ならば 遅刻は 10.21 回と予測される 独立変数が 1 つの場合と 読み方はまったく同じである 分析の手続きもほぼ同様であり 以下の 4 点にまとめられる ( 1) もっともよい回帰式を定める ( 最小二乗法で α β 1 β 2 β k の値を定める ) ( 2) その回帰式は どのくらいよい式であるかを評価する ([ 調整済み ] 決定係数によって 説明力を算出する ) ( 3) 母集団についても 同様の回帰式を定める価値があるかどうか判断する ( 全体的な説明力を F 値によって検定する ) ( 4) 母集団についても 各独立変数を説明に用いる価値があるか 個別に判断する ( それぞれの独立変数の影響を t 値によって検定する ) 4 つ目の手続だけが重回帰分析に独自のものである 回帰式全体の説明力について検定するだけではなく 1 つ 1 つの独立変数が従属変数を説明するために有効に働いているかどうか それぞれの影響について検定する つまり それぞれの回帰係数 β 1 β 2 について 母集団でも一定の影響力がある ( β 0) といってよいかどうかを検定する この検定は t 値と呼ばれる検定統計量を用い 統計分析ソフトでは対応する有意確率が同時に示される ここでの有意確率は つまり 回帰分析で示されている回帰係数がまったくの偶然の産物である確率なので この確率が一定の値 ( ふつう.05 つまり 5%) よりも低ければ 偶然ではなく母集団でもその独立変数に一定の影響力があるとみなしてよいことになる 回帰分析 - 8 -

( 練習 ) 1. 実際の全国調査 ( JGSS-2000) から抽出した 30 代男性のデータを用いて 月給を従属変 数 年齢を独立変数とする ( 月給の違いを年齢で説明する ) 回帰分析を実行してみよう 読み取るポイント 1 最適な回帰式 2 調整済み決定係数 3 全体的な説明力の検定結果 2. 独立変数を 年齢 勤続年数 中 3 の頃の成績 の 3 つとして 月給を説明する重 回帰分析を実行してみよう 読み取るポイント 1 最適な回帰式 2 調整済み決定係数 3 全体的な説明力の検定結果 4 各独立変数の影響力の検定結果 実習用データ ( PW 付 ) http://www2.itc.kansai-u.ac.jp/~tyasuda/ 回帰分析 - 9 -

やすだ社会学研究法 a( 2013 年度秋学期担当 : 保田 ) 回帰分析 ( 3): 発展 質的変数を独立変数にする場合 : ダミー変数回帰分析の独立変数は量的変数であることが基本である しかし 質的変数も工夫をすれば独立変数として分析に用いることができる 社会調査データには質的変数が多いので この応用は重要である 回帰分析で質的変数を用いる場合には ダミー変数に変換した上で用いる ダミー変数とは 0 か 1 のどちらかの値しか取らない変数のことである たとえば 性別という変数を独立変数に用いたいときには 図 1 のように男性を 1 とするダミー変数 ( 男性ダミー ) か 女性を 1 とするダミー変数 ( 女性ダミー ) のいずれかにリコーディングし そのダミー変数を回帰分析に用いる 元の変数男性ダミー女性ダミー男性 1 1 0 または女性 2 0 1 図 1 性別のダミー変数 ダミー変数を用いた回帰式の読み取りは簡単である たとえば Y が遅刻回数 X 1 が学年 X 2 が男性ダミーの重回帰分析で次のような回帰式が求められたとする Yˆ 2.0 3.9X 1 2. 2 X 2 この場合 男子学生は女子学生に比べて 2.2 回多く遅刻することが読み取れる 性別は 2 つのグループしかない質的変数であったが 3 つ以上のグループ ( カテゴリー ) がある質的変数の場合はどうすればよいのだろうか たとえば 学生が所属する学部を独立変数に用いたいが 学部は文学部 法学部 工学部 医学部と 4 種類あるとする この... 場合 図 2 のように 3 つのダミー変数を作成し これらすべてを独立変数に用いた回帰分析を行えばよい 元の変数 文学部ダミー 法学部ダミー 工学部ダミー 文学部 1 1 0 0 法学部 2 0 1 0 工学部 3 0 0 1 医学部 4 0 0 0 図 2 学部のダミー変数 もう 1 つ医学部ダミーが必要ではないかと思うかもしれないが 4 つ目のダミー変数は 回帰分析 - 10 -

不要である なぜならば 文学部ダミー 法学部ダミー 工学部ダミーの値がいずれも 0 である回答者は 自動的に医学部なので 3 つのダミー変数さえあれば 4 つの学部のどれに所属しているか区別できるからである 一般に k 個のグループ ( カテゴリー ) の質的変数の内容は 1 つ少ない k- 1 個のダミー変数で表すことができる ここでは 医学部ダミーを除いているが 医学部ダミーを分析に加えて他の 3 つのダミー変数のうち 1 つを分析から除いてもかまわない...................... このようなダミー変数の回帰係数は 省略したカテゴリー ( ここでは医学部 ) と比べて 当該のカテゴリーであることがもたらす影響力を表すことになる たとえば 文学部ダミーの回帰係数が 1.2 であれば それは 医学部と比べて 文学部の方が 1.2 回だけ遅刻が多いと予測されることを意味する 文学部以外と比べて という意味にはならないので注意しよう したがって ダミー変数を省略したカテゴリーは 比較の基準になるという意味で意外と重要な意味を持つ このようなカテゴリーを参照カテゴリー [ 基準カテゴリー ] ( reference category) と呼ぶ いまの例の場合には 医学部が参照カテゴリーである 参照カテゴリーは 分析者が結果の読み取りやすさを考えて選ぶもので 決まった選び方はない しかし 次の 2 点に注意する必要がある 1 つは 参照カテゴリーは内容のはっきりとしたグループでなければならない たとえば その他 というグループを参照カテゴリーにすると 何と比べているのか分からなくなるので避ける もう 1 つの注意点として 参照カテゴリーのグループに属する回答者は ある程度人数が多いことが望ましい あまりに人数が少ないグループを基準にして比較をすると 分析結果が不安定なものになってしまう SPSS では 他の変数への値の再割り当て という機能を使って ダミー変数を作成することができる ややめんどうであるが 質的変数を回帰分析に活用するためには必要な作業である 標準化回帰係数重回帰分析では いったいどの独立変数が一番影響力をもつのか といったことに関心が向くことがある 単純に回帰係数を比べるだけでは この疑問に答えることはできない ( 独立変数の単位が違うため ) たとえば 1 日の歩行量が 1 歩増えるごとに 体重が 1.5g 減り ( β 1 =-1.5) 1 ヶ月にジムに通う回数が 1 回増えるごとに 体重が 500g 減る (β 2 =-500) としても ジムに通う回数の方が体重に強く影響するということにはならない このような比較をおこなうときに有効なのが 標準化回帰係数 ( standardized regression coefficient) である 標準化回帰係数は 通常の回帰係数に独立変数と従属変数の標準偏差の比を掛け合わせたもので すべての変数を標準得点にしたとき ( 標準偏差を 1 に調整したとき ) 独立変数が 1 点増えることが従属変数を何点増やすことになるのかを表す つまり すべての変数の単位 ( ばらつきの程度 ) をそろえることで 各独立変数の効果を比較できるようにしている たとえば 体重の標準偏差が 10,000g( 10kg) 歩行量の標準偏差が 2,000 歩 ジムに通う回数の標準偏差が 3 回だったとすると それぞれの独立変数の標準化回帰係数は 次のようになるので 歩行量の方が影響の規模が大きいことが分かる 回帰分析 - 11 -

* 2000 * 3 β 1 1.5 0.3, β 2 500 0. 15 10000 10000 SPSS では 標準化係数ベータ という列に 自動的に各独立変数の標準化回帰係数が表示されるので とくに苦労なくこの値を用いることができる 独立変数の出し入れ重回帰分析では 同じ独立変数でも 他にどのような独立変数を投入したのかによって 回帰係数が変わってくる たとえば 性別 ( 男性ダミー ) と年齢で月給の額を説明しようとしたとき 男性ダミーの回帰係数が 10 万だったとする ( 男性の方が月給が 10 万円高い ) しかし これに加えて 正規雇用ダミーを独立変数に加えると 男性ダミーの回帰係数が 5 万に減少したりすることがある これは 重回帰分析が ワンセットの独立変数で 従属変数を説明する回帰線を求めるからである つまり 性別と年齢だけで説明しなさい と言われれば 性別の効果が大きいという説明をせざるをえないが 正規雇用という原因で説明してもいいよ と言われれば 性別が男性だからという理由で説明するよりも 正規雇用のおかげで月給が高いと説明する方が適切だ という解答を回帰分析は示してくれる このようなことが起こるのは そもそも性別と正規雇用の間に強い関連性があるからである ( 男性の方が正規雇用が多い ) 独立変数群の中に関連性の強い変数の組み合わせがあるときには その回帰係数に注意して 一方の変数を出し入れしてみると 回帰分析の結果がどう変わるかを観察してみよう 扱っている現象に対する理解が深まるはずである ( 見せかけの関係や媒介関係といった統計的な現象を熟知していれば 理解はより深まる ) また このことからもわかるように 回帰分析はあくまで分析者が提示したモデル ( 変数間の因果関係の枠組み ) の中で最適な答えを出しているにすぎないことを 忘れないようにしなければならない 回帰分析が 正しい因果関係 を示してくれるわけではない 分析者が想定した因果関係の枠組みの中で 各独立変数の具体的な影響力の大きさ ( 回帰係数 ) について最適解を知らせてくれるだけである したがって 回帰分析はある程度そのメカニズムが理解できている社会現象について より詳細な情報を得るために用いるべきである 分散分析と一般線型モデルテキストでは回帰分析といっしょに 分散分析 一般線型モデルといった分析技法が紹介されている これらは 非常に関連の深い技法なので 簡単にその意味を解説しておこう 分散分析 ( analysis of variance; ANOVA) は ふつう 質的変数を独立変数として そのグループの間で従属変数の平均値に差があるといってよいかどうかを検定するための技法として用いられる たとえば 文学部と法学部と社会学部の間で 大学満足度の平均値に差があるかどうかを検定したりする これがなぜ回帰分析と関係するのかといえば 独立変数のグループによって従属変数の平均値が違うかどうかを調べるとことと 独立変数が従属変数の値にどのように影響する 回帰分析 - 12 -

か ( 回帰係数の規模はどうか ) を調べることは 結局同じことだからである 独立変数が質的変数だったり量的変数だったりの違いがあるように見えるが 回帰分析で質的変数をダミー変数に変換して扱えることからもかわるように この違いは数学的には問題にならない そのため 回帰分析と分散分析を区別せずに 1 つの同じものとして 一般線型モ.. デル ( general linear model; 一般線形モデルとも書く ) と呼ぶことがある それぞれの独立変数の影響の有無に関心を集中させるなら分散分析になり 独立変数の影響の程度に関心を向けるならば回帰分析になる 実際に SPSS による回帰分析の出力の中には 分散分析表 と名前が付いている部分があり F 値による全体的な説明力の検定がおこなわれている 分散分析は この F 値の算出にもっとこだわりを見せる つまり 全体的な説明力だけでなく 各独立変数を加えることが説明力に与える影響や 独立変数の組み合わせを考えることが説明力を上げるかどうか ( たとえば 性別と年齢それぞれの影響だけでなく 20 代男性といった組み合わせに意味があるかどうかなど ) を調べたりする このようなこだわりを見せる際には 回帰分析のようにそれぞれの独立変数の影響力についてその規模 ( 回帰係数 ) まで見ようとするよりも それぞれの影響力の有無に絞って検定結果 ( F 値 ) に注視する方がよい それが分散分析である < 参考文献 > 岩井紀子 保田時男, 2007, 調査データ分析の基礎 有斐閣. 村瀬洋一 高田洋 廣瀬毅士, 2007, SPSS による多変量解析 オーム社. 小田利勝, 2007, ウルトラ ビギナーのための SPSS による統計解析入門 プレアデス出版. ( 参考 ) 関連する SPSS の操作 リコーディング ( 値の再割り当て ) リコーディングは 既存の変数の数値 ( コード ) を新しいルールで置き換えて 新しい 変数を作る作業である 一般に 調査データの分析を実践するためには 極めて頻繁にリ コーディングが必要になる リコーディングは 主に 2 つの場面で用いられる 回帰分析 - 13 -

場面 A: 既存のコードを数量として扱いやすいコードに置き換える ( とくに大小の逆転 ) 例 ) 1 満足 2 やや満足 3 やや不満 4 不満 4 満足 3 やや満足 2 やや不満 1 不満 ( この方が結果が読みやすい ) ---------- 場面 B: 既存の細かいコードを 必要十分な大まかな分類でくくり直す 例 )1 フルタイム雇用 2 自営 3 パート アルバイト 4 派遣 5 内職 1 正規労働 0 非正規労働 ---------- いずれの場合も SPSS の操作は以下のとおりである 1 メニューから 変換 他の変数へ値の再割り当て 2 リコーディングをしたい変数を左から選択して ボタン ( 複数の変数を同じルールでリコーディングする場合は 複数選択 ) 3 リコーディング後の新変数の [ 名前 ] と [ ラベル ] を入力して 変更ボタン ( 名前はアルファベットの形式変数名 ラベルは変数の内容がわかる日本語 ) 4 今までの値と新しい値ボタンで変換ルールの窓を開く 5 1 つ 1 つの変換ルールについて [ 今までの値 ] と [ 新しい値 ] を入力して追加ボタン ( ルールの数だけ これを繰り返す ) 6 すべてのルールがそろったら続行ボタン ( 値を変更しない場合でも ルールを入れないと空データになるので 必ず全部指定 ) 7 元の窓で OKボタン 8 リコーディングで作成された新しい変数を使って やりたかった分析を行なう 回帰分析 - 14 -