Microsoft Word - mstattext01.docx

基礎から学ぶシリーズ 4 College Analyss で学ぶ多変量解析福井正康福山平成大学経営学部経営学科

はじめにこのシリーズ基礎からの統計学ではデータの集計方法と検定推定について少し理論に踏み込んで勉強しましたその際処理はすべて Excel を使い何を計算しているのか分かるようにしましたただこの本は経済経営系の大学院に進もうとする人に基礎を学んでもらう目的で作ったもので実用を目的とした人向きではありませんそこで我々は徹底した実用を目的に本を作ることにしました計算はすべて統計処理のソフトを使い解説はできるだけやさしく初心者に応用力をつけることが目的です数式も定義をはっきりさせるために出てきますがもちろん飛ばしてもらっても結構ですとにかく習うより慣れろでやってみて下さい最後には統計処理を見渡せる力がつくことと思いますさて統計ソフトにはいろいろなものがあります SPSS, SAS, S-PLUS, R のように世界的に評価されているものや比較的使い易い STATISTICA, R-Commander 等数多くのものが開発されていますこれらの単独ソフトの他にも Excel の機能を利用するために VBA で記述されたマクロ的なソフトもありますどれを利用するかは個人の好みでしょうが一般に上中級者用のものは非常に高価で初心者用のものでもある程度費用がかかりますまたフリーのものでも R は文系の学生にはちょっと難しいという感じがしますそこで我々は学生に自由に使ってもらうために分かりやすい初心者向けの統計ソフトを開発することにしましたせっかくですからその当時開発中だった OR 関係の分析ソフトに統合させできたものが College Analyss です分析という大げさな名前ですので今後より多くの分析手法を加えて充実させていかなければなりませんこれはインターネット上で公開していますのでいつでも最新のものを自由に利用することができますこの教科書では我々の開発した分析ソフト College Analyss を使って多変量解析を実行する方法を学びます章建ては基本的に分析章としますが多変量解析に含まれる分析手法はほぼ独立なので章ごとにどこからでも読めるようにします理論は定義をまとめる程度で使い方と意味を集中して学びます福山平成大学福井正康

多変量解析とは多変量解析とは複数のデータ間の関係を調べる分析手法の総称です例えば模擬試験と入試を例に考えてみましょうまず考えるのが何回かの模擬試験で入試の点数を予測できないかということですこのように複数の変数 ( この場合は何回かの模擬試験の結果 ) でつの変数 ( 入試の点数 ) を予測するような手法を重回帰分析といいます集計と検定のところで述べた回帰分析はつの説明変数で目的変数を予測する手法でしたがこの説明変数が複数個になったと考えればよいでしょう重回帰分析はこの予測式を与える分析手法です次に入試の点数までは予測できないでも合否は予測できないものかと考えたとしますこの合否予測をする式を与えるのが判別分析です判別分析は複数の変数を利用して個体を分類することに利用されます模試を受験すると人によって得点に特徴が見られます成績の良い人良くない人理系科目の得意な人文系科目の得意な人など様々な特徴がありますこれらの特徴を見出す手法が主成分分析や因子分析です主成分分析は複数の変数でこの特徴を表す変数 ( 主成分 ) を作りだす式を与えますまた因子分析は逆にそれぞれの変数はいくつかの特徴的な変数 ( 因子 ) から影響を受けると考えてその式を作りだします主成分や因子は通常変数の数より少なくして利用者がその意味を考えます受験する人を似た者同士分類したり受験科目を分類したりするにはクラスター分析が用いられますしかしこれは何を持って似ているというのかということの基準が利用者それぞれなので結果が結構主観的なように思えます複数の変数同士の類似性は正準相関分析によって与えられますこれまでは量的データについての解析でしたが質的なでーたについて重回帰分析に相当するものが数量化 Ⅰ 類ですまた判別分析に相当するものは数量化 Ⅱ 類です質的データについて主成分分析のように分類に使われるものは数量化 Ⅲ 類とコレスポンデンス分析です 000 年以降非常によく利用され始めたのが共分散構造分析ですこれは変数間の因果関係をモデルとして表す分析手法でこれにより複雑なモデルの解釈ができるようになりました多変量解析は複数の変数の関係を与える分析手法の集まりなのでここで述べるのは適切かどうか分りませんがこの本では実験計画法と時系列分析についても解説しようと思います実験計画法には元比較 ( 元配置 ) 実験計画法や元比較 ( 元配置 ) 実験計画法 ( 原理的には一般の n 元配置もありますが現実的には元配置ま

でが良く利用されます ) があります元配置は群間の差の検定を複数群間に拡張したものと解釈してもらえればよいと思います元配置は群分けを種類としたようなもので成績を見るのに性別と勉強量 ( 分類 ) で分けて比べるようなものです元配置と違うところは単純につの群分けを重ねるのではなく性別と勉強量の交互作用というものも考えられるようになります時系列分析は時間の経過とともに並んだデータから特徴を見出し未来を予測する手法です特にデータの変動を特徴的な変動の合成とみて変動を分解して行く方法がよく利用されますこの本ではこの変動の分解モデルと呼ばれる方法について説明します以上たくさんの分析がありますが最初に集計と検定の続きとして実験計画法から始めましょう章実験計画法 College Analyss のメニュー [ 分析 - 基本統計 - 量的データの検定 - 量的データの検定メニュー ] と [- 質的データの検定 - 質的データ検定メニュー ] を選んで表示される図. 画面の中で赤枠で示された部分の違いを見て下さい図. 量的データと質的データの比較質的データについては多群間となっていますが量的データについては群間になっていますここでの検定手法は質的データについては一般に複数の群の間で利用できますが量的データについては群間に限定されていたのですでは量的データで多群間の比較を行うにはどうすればよいのでしょうかこの答えがここで述べる実験

計画法です. 元配置実験計画法多群間の平均や中間値に差があるかどうか検討する手法であり変数を比較する属性の数によって元配置 ( 元比較ともいう ) 元配置 ( 元比較ともいう ) などと分かれています特に元配置以上では属性間の交互作用による影響も考察しますがここでは理解し易い元配置についてのみ解説するに留めます検定は群間の比較と同じように正規性や等分散性の有無によってつの手法に分れますそれを表したものが図. です正規性の検定 Bartlett の検定検定手法多重比較元比較実験計画法差あり正規性あり等分散元配置分散分析異分散差なし正規性なし Krusal-Walls 検定差あり図.. 元比較実験計画法の構造 pooled t 検定検定終了 pooled Wlcoxon 検定まず最初に各群のデータが正規性をするかどうか検定します次にすべての群で正規性が認められたとき等分散性の検定に移ります等分散性の検定ではこれまでの群間比較の F 検定ではなく多群間で分散を比較する Bartlett の検定という手法が利用されますこれで等分散であると認められた場合 ( 実際には異分散といえないと判定された場合 ) には元配置分散分析と呼ばれる手法が利用されます正規性が認められなかったり認められた場合でも異分散であると判定された場合はデータの順位を利用したノンパラメトリックな手法である Krusal-Walls の検定を行います実際の College Analyss の画面は図.. になりますまず最初に取り組むのは赤枠で囲まれた部分です 3

図.. 実験計画法分析メニュー元配置分散分析や Krusal-Walls 検定で有意差が出た場合どの要素間に差があるのか興味が湧きますしかしこれには少し難しい問題があり後の多重比較の節までお待ち下さいここではまず元配置分散分析から見て行くことにしましょう. 元配置分散分析ここではまず元配置分散分析について見てみましょうこれは各群のデータに正規性があり等分散である場合にのみ利用できる最も差を見つけ易い検定手法です以下の例を見てみましょう例 3つの条件である商品の売上を調査したところ以下の結果を得た (Samples 分散分析 ex.txt) これらの分布が正規分布で条件間で等分散であることを仮定して条件間に差があるといえるか有意水準 5% で判定せよ条件 5, 0, 08, 4, 0, 6, 08,, 5, 条件, 8, 4, 7, 9, 30,, 5, 8, 9 条件 3 6,, 0,,, 08, 4, 9, 04, 3 解答データを読込み群別データからのラジオボタンをチェックし変数選択ですべ 4

て選択して元配置分散分析ボタンをクリックすると図.. のような結果が表示されます図.. 元配置分散分析結果これは 3 群間に差があるかどうかを示すもので赤枠の部分に注目しますこれと同時にテキスト出力の下にグリッドで図.. のような結果も出力されます図.. 分散分析表これは分散分析表と呼ばれるもので結果はテキスト出力のものと同じですここでは以下のような理論を使っています 5

理論水準間に差があるかどうか有意水準で検定する水準水準水準 x x x x x x : : : : x n x は水準に固有な値 x x n x n と誤差 ~ N (0, ) 全変動は以下のように分解される S とからなると仮定する分布 n n ( x x) ( x x ) n ( x x) 全変動水準内変動水準間変動そのとき各変動の分布は以下となる S ~ N 分布, 帰無仮説 H 0 : SE 対立仮説 H :H 0 でない帰無仮説のもとで SP ( ) F ~ F S ( N ) 分布, S ~ N ( 水準間に差がない ), N E, N ( p) p 分布 P S E S ~ 分布, ここに N n F F としてならば水準間に差があると判定する P.3 Krusal-Walls 検定次は正規性がなかった場合や正規性があっても等分散でなかった場合に利用する Krusal-Walls 検定ですこの検定は分布形によらない検定ですので正規性と等分散性が成り立つ場合に使用しても問題はありませんただ結果は元配置分散分析の方が良いというだけですここでは. 節と同じデータを使います例 3つの条件である商品の売上を調査したところ以下の結果を得た (. 節参照 ) 分布が正規分布に従わないとしてこれらの条件間に差があるかどうか有意水準 5% で 6

判定せよ解答図.. の分析メニューで Krusal-Walls 検定ボタンをクリックすると図.3. のような結果が表示されます図.3. Krusal-Walls 検定結果この分析で使う理論は以下の通りです理論種類の水準の中間値に差があるかどうか有意水準 00% で判定する全データの小さい順に順位を付ける水準水準水準 r R r r R r : : : r r r n n n w w w 7

水準毎のデータ数 n, N n, 水準毎の合計 w H w ~ ( ) N n N N n 分布 ( p) として p ならば水準間に差があると判定する.4 等分散性の検定 (Bartlett 検定 ) 前節までは分布を仮定して検定を行いましたがここでは分布を決めることを考えますまず正規性の検定ボタンをクリックして量的データの検定メニューを表示し正規性の検定を行います群分けするデータか元々群別のデータかを十分確認して下さいすべての群で正規性が認められたら ( 正確には非正規でなかったら ) 正規性があると判断しますつでも正規分布といえないと判断されたら正規分布でないと判断します正規性の検定は正規分布であると積極的に言えませんのでヒストグラムや正規確率紙 (Q-Q プロット ) の方法も併用します正規性が認められた場合は次に等分散性の検定を行います等分散性の検定ボタンをクリックすると結果が表示されますそれでは以下の例をやってみましょう例 3つの条件である商品の売上を調査したところ. 節の結果を得た元配置分散分析と Krusal-Walls 検定のどちらを利用するか判断せよ解答まずこのデータについて正規性の検定をしてみましょう群別データであることを確認して実施すると3つの群で正規性ありとみなすの判定ですそこで等分散性の検定 (Bartlett の検定 ) を行うと以下の結果になります 8

9 図.4. Bartlett の検定結果この結果から等分散性があると判断します検定は等分散であると断言しているわけではないので注意して下さいここで使った Bartlett の検定の理論は以下になります理論帰無仮説 H 0 : 対立仮説 H :H 0 でない n E E x x n n S V ) (, n x x n S ) ( j j n n C ) 3( とすると ~ )log ( )log ( E S r V N C 分布 ) ( p として p ならば水準間に差があると判定する問題 Samples 分散分析.txt は 3 つの工場群の不良品率を与えたものである各群に差があるといえるか実験計画法を用いて有意水準 5% で検討せよ正規性の検定正規分布と [ みなすいえない ] 等分散性の検定検定確率 [ ] 等分散と [ みなすいえない ]

検定名 [ ] 検定確率 [ ] 判定工場群間の不良品率に差があると [ いえるいえない ] 問題 Samples 分散分析.txt は4つの群のデータであるが各群に差があるといえるか実験計画法を用いて有意水準 5% で検討せよ正規性の検定正規分布と [ みなすいえない ] 等分散性の検定検定確率 [ ] 等分散と [ みなすいえない ] 検定名 [ ] 検定確率 [ ] 判定群間に差があると [ いえるいえない ].5 多重比較複数の群の間のどこに差があるかを調べるには群間の検定を複数回行えばよいと思われますが問題がありますそれは複数回の実行で偶然に有意水準よりも小さな確率が得られてしまうことがあるということです一般に n 種の水準間の比較回数はで与えられますから 5 種類の水準では 0 回の比較を行うことになります有意水準 5% として 0 回も比較したら偶然だけで有意な結果が出る場合もあるでしょうこのような問題を多重比較といいます多重比較の解決法として最も簡単なものは Bonferon の方法と呼ばれるもので有意水準を比較回数で割ったものに変える方法ですしかしこれでは条件がきつすぎるということもあり Scheffe の方法 Fsher の LSD 法 Dunnet の方法, Tuey の方法等いろいろな方法が提案されていますここではこの中で Fsher の LSD 法 (Least Sgnfcant Dfference procedure) を取り上げますこれは ) まず元配置分散分析または Krusal-Walls 検定を行う ) 有意差がない場合はそれで終了する 3) 有意差がある場合のみ pooled 推定値を用いた t 検定または結合順位を用いた Wlcoxon の順位和検定を行なうというものです図.. のメニュー画面では赤枠の部分になります 0

図.5. 多重比較部分.5. 正規性等分散性のある場合の多重比較例 3つの条件である商品の売上を調査したところ. 節の結果を得た (Samples 分散分析 ex.txt) これらの分布が等分散の正規分布であるとして分散分析によって条件間に差があると判定されたではどの条件間に差が見られるのだろうか有意水準 5% で判定せよ解答正規性等分散性が認められる場合ですから pooled 推定値を用いたt 検定を利用しますこれは通常の群比較を行う分散をすべての群から見積もられた分散 (pooled 推定値 ) に置き換える手法です図.. の pooledt 検定ボタンをクリックすると以下の結果が表示されます

図.5. pooled 推定値を用いた t 検定結果下の赤枠の部分が検定確率で左と上の変数名の部分で読みます例えば条件と条件の差の検定確率は 0.00538 になっていますこの結果から条件と条件条件と条件 3 の間に有意差があると判断しますここで用いた理論は以下の通りです理論 (pooled 推定値を用いた t 検定 ) 種類の水準を考え各水準の平均の間に差があるか有意水準 00% で判定する水準のデータ数を n 平均を x 不偏分散をu として水準, j について考える N n n n ( n ) u ( n ) u ( n ) u u pooled 不偏分散 N x x j tj ~ tn 分布 (t 検定統計量の不偏分散についての拡張 ) u n n t j j t ( p / ) として pならば水準間に差があると判定する N.5. 正規性のない場合の多重比較次は正規性がない場合と正規性があっても等分散でない場合の多重比較法である結合順位を用いた Wlcoxon 順位和検定 (College Analyss の中では pooled Wlcoxon と表されています ) について説明します以下の例を見て下さい

例 3つの条件である商品の売上を調査したところ. 節の結果を得た (Samples 分散分析 ex.txt) これらの分布は正規分布でないとして Krusal-Walls 検定によって条件間に差があると判定されたではどの条件間に差が見られるのだろうか有意水準 5% で判定せよ解答図.. の分析メニューで pooled Wlcoxon ボタンをクリックすると以下の結果が表示されます図.5. 結合順位を用いた Wlcoxon の順位和検定下の赤枠の部分が検定確率ですこれによると条件と条件条件と条件 3 の間に有意差が見られますここで用いた理論は以下の通りです理論 ( 結合順位による Wlcoxon の順位和検定 ) 種類の水準のどの中間値に差があるか有意水準 00% で判定する全データの小さい順に順位を付ける水準水準水準 r r r r r r : : : r r r n n n 3

水準毎のデータ数 w w w n, N n, 水準毎の合計 w データ数は十分多いとする w w j n n n n j j Zj ~ N(0,) 分布 N( N ) n n j Z j Z( p / ) として p ならば水準間に差があると判定する問題 3 Samples 分散分析.txt は3つの工場群の不良品率を与えたものである各群に差があるといえるか実験計画法を用いて有意水準 5% で検討せよ正規性の検定正規分布と [ みなすいえない ] 等分散性の検定検定確率 [ ] 等分散と [ みなすいえない ] 検定名 [ ] 検定確率 [ ] 判定工場群間の不良品率に差があると [ いえるいえない ] 差があるとするとどの条件間に差があるか差がある条件同士を工場 < 工場 3( これは実際の結果とは関係ない ) のように不等号で表せ検定名 [ ] 結果 [ ] 問題 4 Samples 分散分析.txt は4つの群のデータであるが各群に差があるといえるか実験計画法を用いて有意水準 5% で検討せよ正規性の検定正規分布と [ みなすいえない ] 等分散性の検定検定確率 [ ] 等分散と [ みなすいえない ] 検定名 [ ] 検定確率 [ ] 判定群間に差があると [ いえるいえない ] 差があるとするとどの群間に差があるか差がある群同士を群 < 群 3( これは実際の結果とは関係ない ) のように不等号で表せ検定名 [ ] 結果 [ ] 4

問題 5 Samples 分散分析 3.txt は3 群のデータであるが各群に差があるといえるか実験計画法を用いて有意水準 5% で検討せよ正規性の検定正規分布と [ みなすいえない ] 等分散性の検定検定確率 [ ] 等分散と [ みなすいえない ] 検定名 [ ] 検定確率 [ ] 判定群間に差があると [ いえるいえない ] 差があるとするとどの群間に差があるか差がある群同士を群 < 群 3( これは実際の結果とは関係ない ) のように不等号で表せ検定名 [ ] 結果 [ ].6 対応がある場合の元配置問題群間のデータに対応がある場合の比較は図.6. の赤枠で囲まれた処理を行います図.6. 対応のある元配置問題この処理ではまず最初に正規性の検定を行い正規性が認められた場合は繰り返しのない元配置分散分析認められなかった場合は Fredman 検定を行いますこれら 5

はそれぞれ repeated measured 元配置分散分析 repeated measured Krusal-Walls 検定とも呼ばれています実際に例を見てみましょう例 3つの条件である商品の売上を調査したところ. 節の結果を得た各データに対応があるとして差があるか検定せよ ( 再掲 ) 条件 5, 0, 08, 4, 0, 6, 08,, 5, 条件, 8, 4, 7, 9, 30,, 5, 8, 9 条件 3 6,, 0,,, 08, 4, 9, 04, 3 解答ファイル Samples 分散分析 ex.txt を読み込んだ後変数選択をして正規性の有無を調べるために正規性検定ボタンをクリックします表示された量的データの集計メニューで対応のあるデータからラジオボタンを選択し S-W 検定 * のボタンをクリックすると図.6. の結果が表示されます図.6. 正規性の検定結果ここでは各変数から行の平均を引くという処理を行って正規性の判定をしています変数の場合は差を取る処理に相当します正規性ありとみなすという判定なの 6

で繰り返しのない次元配置分散分析ボタンをクリックします結果は図.6.3 のようになります図.6.3 繰り返しのない元配置分散分析結果赤枠で囲まれた部分に注目して下さいこれより条件間に差があるといえるという判定になりますもし正規性の検定で正規分布と言えないと判定されたら Fredman 検定ボタンをクリックしますすると図.6.4 のように表示されます図.6.4 Fredman 検定結果 7