Microsoft Word - mstattext03.docx

Similar documents
Microsoft Word - mstattext02.docx

Microsoft Word - apstattext05.docx

Microsoft Word - Stattext13.doc

Microsoft Word - apstattext04.docx

多変量解析 ~ 重回帰分析 ~ 2006 年 4 月 21 日 ( 金 ) 南慶典

PowerPoint プレゼンテーション

Microsoft PowerPoint - e-stat(OLS).pptx

ビジネス統計 統計基礎とエクセル分析 正誤表

Microsoft Word - Stattext12.doc

Microsoft Word - apstattext03.docx

Microsoft Word - mstattext01.docx

Probit , Mixed logit

Microsoft Word - apstattext01b.docx

第 3 回講義の項目と概要 統計的手法入門 : 品質のばらつきを解析する 平均と標準偏差 (P30) a) データは平均を見ただけではわからない 平均が同じだからといって 同一視してはいけない b) データのばらつきを示す 標準偏差 にも注目しよう c) 平均

Microsoft Word - Stattext07.doc

統計的データ解析

Excelによる統計分析検定_知識編_小塚明_5_9章.indd

EBNと疫学

切片 ( 定数項 ) ダミー 以下の単回帰モデルを考えよう これは賃金と就業年数の関係を分析している : ( 賃金関数 ) ここで Y i = α + β X i + u i, i =1,, n, u i ~ i.i.d. N(0, σ 2 ) Y i : 賃金の対数値, X i : 就業年数. (

Microsoft PowerPoint - 統計科学研究所_R_重回帰分析_変数選択_2.ppt

学習指導要領

1. 多変量解析の基本的な概念 1. 多変量解析の基本的な概念 1.1 多変量解析の目的 人間のデータは多変量データが多いので多変量解析が有用 特性概括評価特性概括評価 症 例 主 治 医 の 主 観 症 例 主 治 医 の 主 観 単変量解析 客観的規準のある要約多変量解析 要約値 客観的規準のな

基礎統計

ANOVA

Microsoft Word - Stattext11.doc

スライド 1

Microsoft PowerPoint - H17-5時限(パターン認識).ppt

経営統計学

JMP による 2 群間の比較 SAS Institute Japan 株式会社 JMP ジャパン事業部 2008 年 3 月 JMP で t 検定や Wilcoxon 検定はどのメニューで実行できるのか または検定を行う際の前提条件の評価 ( 正規性 等分散性 ) はどのメニューで実行できるのかと

スライド 1

Microsoft Word - å“Ÿåłžå¸°173.docx

データ解析

DVIOUT

Microsoft Word - appendix_b

<4D F736F F D204B208C5182CC94E497A682CC8DB782CC8C9F92E BD8F6494E48A722E646F6378>

情報工学概論

講義「○○○○」

Microsoft Word - 補論3.2

Microsoft PowerPoint - R-stat-intro_12.ppt [互換モード]

初めてのプログラミング

memo

Python-statistics5 Python で統計学を学ぶ (5) この内容は山田 杉澤 村井 (2008) R によるやさしい統計学 (

Microsoft PowerPoint - mp11-02.pptx

Microsoft PowerPoint - 資料04 重回帰分析.ppt

Microsoft PowerPoint - Econometrics pptx

情報量と符号化

<4D F736F F D204A4D5082C982E682E991CE B A F2E646F63>

狭山デポ様IBM移設予定機器 _ppt [Compatibility Mode]

Kumamoto University Center for Multimedia and Information Technologies Lab. 熊本大学アプリケーション実験 ~ 実環境における無線 LAN 受信電波強度を用いた位置推定手法の検討 ~ InKIAI 宮崎県美郷

. 角の二等分線と調和平均 平面上に点 を端点とする線分 と を重ならないようにとる, とし とする の二等分線が線分 と交わる点を とし 点 から に垂直に引いた直線が線分 と交わる点 とする 線分 の長さを求めてみよう 点 から に垂直な直線と および との交点をそれぞれ, Dとする つの直角三

平均値 () 次のデータは, ある高校生 7 人が ヵ月にカレーライスを食べた回数 x を調べたものである 0,8,4,6,9,5,7 ( 回 ) このデータの平均値 x を求めよ () 右の表から, テレビをみた時間 x の平均値を求めよ 階級 ( 分 ) 階級値度数 x( 分 ) f( 人 )

(3) 検定統計量の有意確率にもとづく仮説の採否データから有意確率 (significant probability, p 値 ) を求め 有意水準と照合する 有意確率とは データの分析によって得られた統計値が偶然おこる確率のこと あらかじめ設定した有意確率より低い場合は 帰無仮説を棄却して対立仮説

Medical3

学習指導要領

ベイズ統計入門

Microsoft PowerPoint - KanriManual.ppt

<4D F736F F D2090B695A8939D8C768A E F AA957A82C682948C9F92E8>

2011年度 大阪大・理系数学

Microsoft Word - 19-d代 試é¨fi 解ç�fl.docx

0 部分的最小二乗回帰 Partial Least Squares Regression PLS 明治大学理 学部応用化学科 データ化学 学研究室 弘昌

都道府県名

Microsoft PowerPoint - 測量学.ppt [互換モード]

Microsoft PowerPoint ppt

Microsoft PowerPoint - ch04j

Microsoft PowerPoint - R-stat-intro_04.ppt [互換モード]

<4D F736F F D208EC08CB18C7689E68A E F AA957A82C682948C9F92E82E646F63>

Microsoft PowerPoint 統計教育.pptx

数学 Ⅲ 微分法の応用 大学入試問題 ( 教科書程度 ) 1 問 1 (1) 次の各問に答えよ (ⅰ) 極限 を求めよ 年会津大学 ( 前期 ) (ⅱ) 極限値 を求めよ 年愛媛大学 ( 前期 ) (ⅲ) 無限等比級数 が収束するような実数 の範囲と そのときの和を求めよ 年広島市立大学 ( 前期

都道府県名

Microsoft PowerPoint - 三次元座標測定 ppt

計算機シミュレーション

Microsoft PowerPoint - statistics pptx

Microsoft PowerPoint - Statistics[B]

1.民営化

Microsoft Word - t30_西_修正__ doc

以下 変数の上のドットは時間に関する微分を表わしている (ex. 2 dx d x x, x 2 dt dt ) 付録 E 非線形微分方程式の平衡点の安定性解析 E-1) 非線形方程式の線形近似特に言及してこなかったが これまでは線形微分方程式 ( x や x, x などがすべて 1 次で なおかつ

平成 30 年度 前期選抜学力検査問題 数学 ( 2 時間目 45 分 ) 受検番号氏名 注 意 1 問題は, 表と裏にあります 2 答えは, すべて解答欄に記入しなさい 1 次の (1)~(7) の問いに答えなさい (1) -3 (-6+4) を計算しなさい 表合計 2 次の (1)~(6) の問

Microsoft Word - reg2.doc

Microsoft PowerPoint - 静定力学講義(6)

測量士補 重要事項「標準偏差」

ダンゴムシの 交替性転向反応に 関する研究 3A15 今野直輝

カイ二乗フィット検定、パラメータの誤差

横浜市環境科学研究所

問 題

不偏推定量

スライド 1

次の病院 薬局欄は 氏名 欄に入力された値によって入力すべき値が変わります 太郎の行く病院と花子の行く病院が必ずしも同じではないからです このような違いを 設定 シートで定義しておきましょう 太郎の行く病院のリストを 太郎 花子の行く病院のリストを 花子 として 2 つのリストが定義されています こ

<4D F736F F D F4390B394C5816A8C B835E C835A AA90CD82A982E78CA982E990B68A888F4B8AB595618AC7979D312D332E646F63>

数値計算で学ぶ物理学 4 放物運動と惑星運動 地上のように下向きに重力がはたらいているような場においては 物体を投げると放物運動をする 一方 中心星のまわりの重力場中では 惑星は 円 だ円 放物線または双曲線を描きながら運動する ここでは 放物運動と惑星運動を 運動方程式を導出したうえで 数値シミュ

Microsoft PowerPoint - 基礎・経済統計6.ppt

Medical3

13章 回帰分析

Microsoft Word - NumericalComputation.docx

喨微勃挹稉弑

Microsoft Word - mathtext8.doc

解答のポイント 第 1 章問 1 ポイント仮に1 年生全員の数が 100 人であったとする.100 人全員に数学の試験を課して, それらの 100 人の個人個人の点数が母集団となる. 問 2 ポイント仮に10 人を抽出するとする. 学生に1から 100 までの番号を割り当てたとする. 箱の中に番号札

<4D F736F F D2094F795AA95FB92F68EAE82CC89F082AB95FB E646F63>

<4D F736F F D208EC08CB18C7689E68A E F193F18D8095AA957A C C839395AA957A814590B38B4B95AA957A2E646F63>

日本版WISC-IVテクニカルレポート #6

経済統計分析1 イントロダクション

Transcription:

3 章判別分析 複数の変数によって 分類の変数を予想する手法を判別分析と言います 例えばいくつかの模擬試験の点数によって入試の合否を予想するなどは典型的な例です 以下の例を見てみましょう 例入学試験の合否と勉強時間 模擬試験の平均点のデータを求めたところ以下のような結果を得た (Samples 判別分析.txt) 合否を判定するための勉強時間と平均点の 次関数を求めよ またこの関数によってこのデータを判別し 誤判別の確率を求めよ 合否 勉強時間 平均点 合否 勉強時間 平均点 5.6 70. 3.8 67.4 5.9 74. 3.8 6.3 4. 7.7.7 60.6 5. 84.9.7 77. 5.0 93.0 4.3 65.9 3. 80.5 3.3 74.4 4.3 6.7 3.5 7. 4.8 85.4. 69.7 3.3 84.3 4.3 68.7 5.3 64.8.0 70.5 5.3 60.7 3.6 45.9 5.4 74.4.8 54.6 3.6 85.5.5 64.4 3.8 47.9 5. 50.7 3.9 70.8. 65.7 勉強時間と平均点で散布図を描いてみましょう そのとき合格者を白丸 不合格者を黒丸で描いたとします そうすると図 3. のような点が描かれたとしましょう ( 現実には勉強時間はあまり関係ないらしいですが ) 群 は合格群で 平均点が高く 勉強時間も長い群です 群 は不合格群で平均点は低く 勉強時間も短い群です これらの群を合格と不合格でつに分けることを考えます 群分けには直線を使うものと仮定し できるだけ誤判別がないようにと考えると 図 3. に描かれたような直線を引くことになります

勉強時間 群 R 群 R 平均点 図 3. 判別分析の概念図 次元平面上で直線は 以下のように表されます 勉強時間 平均点 0 ( はこの変形です ) 特に 0 とすると この式の符号で領域が決まります 勉強時間 平均点 0 ( 領域 ) 勉強時間 平均点 0 ( 領域 ) このように直線 ( 一般には平面 ) の式の符号を判別することで つの領域の判別ができることになります この式を判別関数といいます 実際に判別分析を見て行きましょう メニュー [ 分析 - 多変量解析 - 判別分析 ] を選択すると図 3. のような分析メニューが表示されます 図 3. 判別分析メニュー画面

変数は最初に群を分ける変数を選び その後それを判別するのに利用する変数を選択します 最初は分析名のボタンから なので 判別分析 ボタンをクリックすると 図 3.3 のような結果が表示されます 図 3.3 判別分析結果ここで判別関数の係数は一番上に表示されています また 各変数を標準化して計算を実行した結果が 次の標準化係数です これは判別関数における各変数の重要性を考える際に役立ちます F 検定値 自由度 確率は判別関数の係数が 0 か否かの検定結果です 確率の値が有意水準以下なら 0 と異なるといえると判定します 判別については データを判別関数に代入して 0 以上なら 群 ( 辞書順で前の群 ) 0 未満なら 群 ( 辞書順で後の群 ) とします マハラノビスの距離以下は誤判別についての表示です 誤判別確率には 群の分布を多変量正規分布と仮定した場合の理論的な誤判別確率と実測データを分析にかけて求められた誤判別確率の 通りがあります それぞれ 理論から と 実測から となっています またその上にある 群を 群と とは 本来 群であるデータを 群と誤判別する確率と解釈します 群を 群と はその逆です マハラノビスの距離は各群のデータが多変量正規分布すると仮定した場合のつの群の中心の距離の 乗で どの程度 群が離れているかを表わす指標と考えればよいでしょう 表 3. にマハラノビスの距離と誤判別確率の値との関係を示します 3

表 3. マハラノビスの距離と誤判別確率 マハラノビス距離 4 9 6 5 誤判別確率 0.309 0.59 0.067 0.03 0.006 次の誤判別の部分は左が実測の群 上が予測の群で それぞれのデータがどこに判別されるか そのデータ数を表示しています その下は分類されたデータ出現の確率 ( 割合 ) です 実測と異なった部分の確率に注意して下さい 具体的な判別結果を見るには 判別得点 ボタンをクリックします 実際の所属群と判別得点 それから予想した判別群が図 3.4 のように表示されます 図 3.4 判別得点結果 次に 図 3. 左側の生起確率と誤判別損失についてです 判別分析は元々 つの群の出現確率は等しいと仮定されています しかしこの確率が大きく異なる場合は 生起確率を指定することができます 記述法は 群 から確率をカンマ区切りで書いて行きます しかし実用にはデータをランダムに抽出して 生起確率がデータ数に比例するようにして データ数 からのラジオボタンを選択することです デフォルトではそのような設定になっています 誤判別損失については 以下の例を考えてみましょう 受験生に あなたは不合格でしょう と予測して合格になった場合と あなたは合格でしょう と予測して不合格になった場合とを比べてどちらが問題でしょうか おそらく合格と言われて不合格になった方がダメージは大きいはずです このように同じ誤判別でも損失の大きさが異なる場合に誤判別損失を指定します 例えば上の例では 合格群 ( 不合格と判定 ) 4

と不合格群 ( 合格と判定 ) に対して, などと指定します 生起確率と誤判別損失は群の境界の平行移動を引き起こしますので 変化するのは判別関数の定数項の部分です 合格と不合格に対して誤判別損失を指定して判別分析を実行してみましょう 図 3.5 にその結果を示します 図 3.5 誤判別損失を指定した判別分析結果この結果を図 3.3 と比較してみると まず判別関数の定数項が-3.869 から-3.980 に減っています これにより 群 ( 合格 判別関数が非負 ) と判別しにくくなります それに伴い 誤判別確率も変わってきます 誤判別損失を考えると 実測からの 群 ( 不合格 ) を 群 ( 合格 ) と誤判別する確率は 0 になっていますし 理論の値も 0.09605 から 0.06533 と小さくなっています 但し 誤判別損失の大きさの比較は非常に人為的なので 個人的には各群 としておいても良いように思います 以上 つの群に分ける場合を考えてきましたが 3 群以上に分ける場合も考えられます 以下の問題にもありますが Samples 判別分析 3.txt を開いて 変数すべてを読込み 分析メニューの 3 群以上のグループボックスで 判別分析 ボタンをクリックすると図 3.5 のような結果が表示されます 5

図 3.5 3 群以上の判別分析結果これはフィッシャーが利用した有名な3 種類のあやめのデータで いろいろな教科書でもよく利用されています 群に分ける場合と比べて 判別関数が3つになっています 判別はデータの変数値を代入したとき これらの関数の中で最大となる群に所属すると判定します 方式がこれまでと全く違うように見えるので戸惑われるかも知れませんが 実は 群の判別の場合でも つの判別関数で判別する方法もあります この教科書で使った方法は これら つの判別関数の差を取って正と負の値で分けただけで つの判別関数の大きい方と判定しても全く同じです 基本的な教科書には差を取る方法で紹介されている場合が多いので 両方の形を出力するようにしています 後で問題にもありますので見て下さい 最後になりましたが 判別分析は分けた群がそれぞれ多変量正規分布し それぞれが等共分散であることが仮定されています ちなみに判別分析.txt のデータはこれらの条件を満たしています 但し正規性に関しては College Analysis に多変量正規分布を検定する手法が含まれていないため それぞれの変数についての正規性で代用しています 等共分散性については 等共分散の検定 ボタンで調べることができます その結果を図 3.6 にその結果を示します 6

図 3.6 等共分散性の検定結果これで係数が 0 かどうかの検定と理論的な誤判別損失の値とが安心して利用できます しかし これらの条件を満たしていなければ判別分析は使えないかというと そうではなさそうです 上で述べたあやめのデータは 正規性も等共分散性も満たしていませんが 判別の精度は抜群です 判別分析の利用可能性は誤判別確率がカギになるようです ただその際の係数の検定や理論的な誤判別確率の値はあまり信用できないと思わなければならないでしょう 以下に判別分析の利用法をまとめておきましたので 参考にして下さい 判別分析の目的 群 ( 多群 ) を判別する最適な 次式を求める 群の場合 判別得点 =b 勉強時間 +b 平均点 +b 0 判別関数 判別の分点 0 より大きいか小さいかで 群と 群を分ける 群以上の場合判別得点 =b 勉強時間 +b 平均点 +b 0 - 判別の分点 判別得点が最大となる群に属すると判定する 判別分析が有効に利用できる条件は? 正規性 等共分散性 ( 等共分散の検定 ) 判別関数の係数は? 判別関数の欄 判別関数で群を分けるのは? 判別の分点 0( 多群の場合値が最大の群 ) 判定に影響を与える変数は? 標準化係数の絶対値の大きい変数 各係数の有効性は?( 要正規性 等共分散性 ) 確率の欄 ( 係数が 0 と異なるかの検定 ) 誤判別の程度は? 誤判別確率 ( 実測と理論 )( 理論値は要正規性 等共分散性 ) マハラノビス距離とは どの程度 群が離れているかを表わす指標 マハラノビス距離 4 9 6 5 誤判別確率 0.309 0.59 0.067 0.03 0.006 7

データ毎の判別関数の値と判別状況 判別得点事象の生起確率とは? 合格 不合格の現れる確率が大きく異なっている場合の措置各群同じかデータ数からが実用的誤判別損失とは? 間違った判断をした場合の致命傷の程度大きな差がない限り 各群 とするのが実用的 最後に判別分析.txt のデータを使った上の例を簡単な文章にまとめておきましょう まとめ正規性の検定から 群とも正規性があるとみなされ 等共分散の検定でも共分散に差があるとは言えなかった 以上から判別分析が適用可能であると判断した 群の生起確率を同じとし 誤判別損失を等しいとすると 判別分析によって 以下の判別関数が得られた y=.46* 勉強時間 +0.007* 平均点 -3.087 データはこの判別関数の値をもとに 判別の分点を 0 として 群に分けられる 係数の有効性の検定では 勉強時間が p=0.0003 平均点が p=0.0006 のように 両方とも有意に 0 でないことが示された このことからつの変数とも有効であると思われる マハラノビス距離 5.683 から 理論的な誤判別確率として p=0.7 が予想される また 実際に判定を行うと 群を 群と間違える割合が 7.7% その逆が 5.9% となる これらの数値から 判別はかなりうまく行われたものと思われる ここで利用した理論は以下の通りです 理論 群 群 変数 変数 k 変数 変数 k x X k x x k x X k x x k : : : x n kn x x kn 判別分析の実行可能条件 分布が多変量正規分布 群の共分散が等しい x 8

判別式 t z xs b () () t () () () () ( m m ) ( m m ) S ( m m b b x b x 0 m n a ( a) a x na S n n 判別方法群 j を群 i と間違える損失 C ij P i 群 i の要素が出現する確率 群に属する : z log e h 0 群に属する : log h 0 k x k : 群 a の各変数の平均 n a a ( x a m ( a) t ) ( x a m ( a) z e h CP CP ) ) : 共分散行列 z の確率分布 x が群 に属する場合 N ( D, D ) x が群 に属する場合 N( D, D ) t () () () () D ( m m ) S ( m m ) : マハラノビスの距離 誤判別の理論確率 群 を群 と誤判別 群 を群 と誤判別 log e h D P Z 網掛け部分 D log e h D P Z D 群 群 log e h D 図誤判別確率問題 Samples 判別分析.txt は 適性の有無の判定 ( 有 :, 無 :) と適性検査の結果と SPI の結果を与えたデータである 判定を適性検査と SPI で予測する判別分析を行い 結果を上のまとめにならって記述せよ 9

問題 Samples 判別分析.txt は 適性の有無の判定 ( 有 :, 無 :) と適性検査の結果と SPIの結果を与えたデータである 判定を適性検査とSPIで予測する判別分析を行い 以下の問いに答えよ 但し 事象の生起確率はデータ数から 誤判別損失は 群ともとすること ) このデータに判別分析は利用可能か? 正規性の検定正規性があると [ みなす いえない ] 等共分散性検定確率 [ ], 等共分散と [ みなす いえない ] 判別分析は効率よく利用可能か [ 利用可能 要注意 ] ) 判別関数を求めよ 判別得点 =[ ] 適性検査 +[ ]SPI+[ ] 3) どちらの変数が判定に影響があると思われるか [ 適性検査 SPI] 4) 実測値から求めた誤判別の確率は? 適性有りを無しと [ ] 適性無しを有りと [ ] 5) 厳選して新入社員を取ろうとする場合 上の誤判別でどちらの場合の損失が大きいと思われるか [ 適性有りを無し 適正無しを有り ] と誤判別する場合 6) 上の方針に従って 大きな誤判別損失の値を 小さな誤判別損失の値を としたとき 実測値から見た誤判別の確率はどうなるか 適性有りを無しと [ ] 適性無しを有りと [ ] 7) 上の方針で見ると 結果は改善されたか [ 改善された 改善されていない ] 8) 誤判別損失を元に戻して 先頭 ( 番 ) の人の判別得点はいくらか [ ] 9) 適性検査 50 点,SPI 55 点の人の判別得点はいくらか またその人の適性の有無を判定せよ 判別得点 [ ] 適性 [ 有り 無し ] 問題 3 Samples 判別分析 3.txt はあやめの種類をがくの長さと幅 花弁の長さと幅で3 群に分類したデータである あやめの群を他の変数の 次式で判別する3 群以上の判別分析を行い 以下の問題に答えよ 0

)3つの判別得点の式を求めよ 判別得点 =[ ] がくの長さ+[ ] がくの幅 +[ ] 花弁の長さ+[ ] 花弁の幅 +[ ] 判別得点 =[ ] がくの長さ+[ ] がくの幅 +[ ] 花弁の長さ+[ ] 花弁の幅 +[ ] 判別得点 3=[ ] がくの長さ+[ ] がくの幅 +[ ] 花弁の長さ+[ ] 花弁の幅 +[ ] ) 実測値から求めた誤判別確率はいくらか 群 を他と [ ] 群 を他と [ ] 群 3を他と [ ] 3) 先頭のデータの3つの判別得点を求めよ 判別得点 [ ] 判別得点 [ ] 判別得点 3[ ] 4) がくの長さ 4.9 がくの幅 3.4 花弁の長さ. 花弁の幅 0.3 のデータはどれに判 定されるか またそのときの最大の判別得点はいくつか 判定 [ 群 群 群 3] 最大判別得点 [ ] 5) もう 度 Samples 判別分析.txt のデータを用いて 群の方法の判別関数と3 群 以上の方法の判別関数の関係を考えよ 群の方法の係数は3 群以上の方法の係数の [ ] になっている