0506

Similar documents
多変量解析 ~ 重回帰分析 ~ 2006 年 4 月 21 日 ( 金 ) 南慶典

Microsoft PowerPoint - 資料04 重回帰分析.ppt

スライド 1

Microsoft PowerPoint - e-stat(OLS).pptx

スライド 1

ビジネス統計 統計基礎とエクセル分析 正誤表

Microsoft Word - mstattext02.docx

0 部分的最小二乗回帰 Partial Least Squares Regression PLS 明治大学理 学部応用化学科 データ化学 学研究室 弘昌

Microsoft PowerPoint - H17-5時限(パターン認識).ppt

1. 多変量解析の基本的な概念 1. 多変量解析の基本的な概念 1.1 多変量解析の目的 人間のデータは多変量データが多いので多変量解析が有用 特性概括評価特性概括評価 症 例 主 治 医 の 主 観 症 例 主 治 医 の 主 観 単変量解析 客観的規準のある要約多変量解析 要約値 客観的規準のな

13章 回帰分析

カイ二乗フィット検定、パラメータの誤差

統計的データ解析

14 化学実験法 II( 吉村 ( 洋 mmol/l の半分だったから さんの測定値は くんの測定値の 4 倍の重みがあり 推定値 としては 0.68 mmol/l その標準偏差は mmol/l 程度ということになる 測定値を 特徴づけるパラメータ t を推定するこの手

Microsoft PowerPoint - 統計科学研究所_R_重回帰分析_変数選択_2.ppt

1.民営化

Probit , Mixed logit

EBNと疫学

PowerPoint プレゼンテーション

基礎統計

因子分析

8 A B B B B B B B B B 175

発表の流れ 1. 回帰分析とは? 2. 単回帰分析単回帰分析とは? / 単回帰式の算出 / 単回帰式の予測精度 <R による演習 1> 3. 重回帰分析重回帰分析とは? / 重回帰式の算出 / 重回帰式の予測精度 質的変数を含む場合の回帰分析 / 多重共線性の問題 変数選択の基準と方法 <R による

Microsoft Word - 補論3.2


Medical3

スライド 1

Kumamoto University Center for Multimedia and Information Technologies Lab. 熊本大学アプリケーション実験 ~ 実環境における無線 LAN 受信電波強度を用いた位置推定手法の検討 ~ InKIAI 宮崎県美郷

Microsoft Word - Stattext12.doc

情報工学概論

Microsoft Word - å“Ÿåłžå¸°173.docx

当し 図 6. のように 2 分類 ( 疾患の有無 ) のデータを直線の代わりにシグモイド曲線 (S 字状曲線 ) で回帰する手法である ちなみに 直線で回帰する手法はコクラン アーミテージの傾向検定 疾患の確率 x : リスクファクター 図 6. ロジスティック曲線と回帰直線 疾患が発

Microsoft PowerPoint - ch04j

回帰分析の用途・実験計画法の意義・グラフィカルモデリングの活用 | 永田 靖教授(早稲田大学)

PowerPoint プレゼンテーション

要旨 1. 始めに PCA 2. 不偏分散, 分散, 共分散 N N 49

統計学 - 社会統計の基礎 - 正規分布 標準正規分布累積分布関数の逆関数 t 分布正規分布に従うサンプルの平均の信頼区間 担当 : 岸 康人 資料ページ :

重回帰式 y= x x 2 重症度 5 TC TC 重症度

Microsoft Word - Stattext13.doc

Microsoft Word - reg2.doc

Microsoft Word - mstattext03.docx

0415

講義「○○○○」

タイトルを修正 軸ラベルを挿入グラフツール デザイン グラフ要素を追加 軸ラベル 第 1 横 ( 縦 ) 軸 凡例は削除 横軸は, 軸の目盛範囲の最小値 最 大値を手動で設定して調整 図 2 散布図の仕上げ見本 相関係数の計算 散布図を見ると, 因果関係はともかく, 人口と輸送量の間には相関関係があ

Microsoft PowerPoint - R-stat-intro_12.ppt [互換モード]

Microsoft PowerPoint - 測量学.ppt [互換モード]

横浜市環境科学研究所

データ解析

Microsoft PowerPoint - 三次元座標測定 ppt

2011年度 筑波大・理系数学

基礎統計

Microsoft Word - econome5.docx

Microsoft Word - econome4.docx

Microsoft Word - reg.doc

ベイズ統計入門

Excelにおける回帰分析(最小二乗法)の手順と出力

スライド タイトルなし

経済統計分析1 イントロダクション

はじめに Excel における計算式の入力方法の基礎 Excel では計算式を入力することで様々な計算を行うことができる 例えば はセルに =SQRT((4^2)/3+3*5-2) と入力することで算出される ( 答え ) どのような数式が使えるかは 数式

<4D F736F F D208EC08CB18C7689E68A E F AA957A82C682948C9F92E82E646F63>

Microsoft PowerPoint - Statistics[B]

Microsoft PowerPoint - S11_1 2010Econometrics [互換モード]

目次 1 章 SPSS の基礎 基本 はじめに 基本操作方法 章データの編集 はじめに 値ラベルの利用 計算結果に基づく新変数の作成 値のグループ化 値の昇順

<4D F736F F F696E74202D B835E89F090CD89898F4B81408F6489F18B4195AA90CD A E707074>

13章 回帰分析

主成分分析 -因子分析との比較-

PowerPoint プレゼンテーション

様々なミクロ計量モデル†

_KyoukaNaiyou_No.4

Microsoft Word - SPSS2007s5.doc

<4D F736F F F696E74202D BD95CF97CA89F090CD F6489F18B4195AA90CD816A>

切片 ( 定数項 ) ダミー 以下の単回帰モデルを考えよう これは賃金と就業年数の関係を分析している : ( 賃金関数 ) ここで Y i = α + β X i + u i, i =1,, n, u i ~ i.i.d. N(0, σ 2 ) Y i : 賃金の対数値, X i : 就業年数. (

構造方程式モデリング Structural Equation Modeling (SEM)

不偏推定量

学習指導要領

Excelによるデータ分析

スライド 1

Microsoft PowerPoint - 基礎・経済統計6.ppt

第7章

Microsoft PowerPoint - 統計科学研究所_R_主成分分析.ppt

Microsoft PowerPoint - Econometrics pptx

第 3 回講義の項目と概要 統計的手法入門 : 品質のばらつきを解析する 平均と標準偏差 (P30) a) データは平均を見ただけではわからない 平均が同じだからといって 同一視してはいけない b) データのばらつきを示す 標準偏差 にも注目しよう c) 平均

<4D F736F F D208D A778D5A8A778F4B8E7793B CC A7795D2816A2E646F6378>

モジュール1のまとめ

untitled

Microsoft PowerPoint - データ解析基礎4.ppt [互換モード]

Microsoft Word - SDA2012kadai07.doc

ファイナンスのための数学基礎 第1回 オリエンテーション、ベクトル

数値計算法

0.0 Excelファイルの読み取り専用での立ち上げ手順 1) 開示 Excelファイルの知的所有権について開示する数値解析の説明用の Excel ファイルには 改変ができないようにパスワードが設定してあります しかし 読者の方には読み取り用のパスワードを開示しますので Excel ファイルを読み取

Microsoft Word doc

【補足資料】確率・統計の基礎知識


0 21 カラー反射率 slope aspect 図 2.9: 復元結果例 2.4 画像生成技術としての計算フォトグラフィ 3 次元情報を復元することにより, 画像生成 ( レンダリング ) に応用することが可能である. 近年, コンピュータにより, カメラで直接得られない画像を生成する技術分野が生

スライド 1

本日の内容 相関関係散布図 相関係数偏相関係数順位相関係数 単回帰分析 対数目盛 2

Microsoft Word - 訋é⁄‘組渋å�¦H29æœ�末試é¨fi解ç�fl仟㆓.docx

JMP による 2 群間の比較 SAS Institute Japan 株式会社 JMP ジャパン事業部 2008 年 3 月 JMP で t 検定や Wilcoxon 検定はどのメニューで実行できるのか または検定を行う際の前提条件の評価 ( 正規性 等分散性 ) はどのメニューで実行できるのかと

<4D F736F F D E4F8E9F82C982A882AF82E98D7397F1>

正常 正常 正常 正常 正常 正常 正常 正常 正常 正常 正常 正常 正常 220

Transcription:

章 part の復習 推定 3 章多変量解析 part 重回帰分析 判別分析 区間推定平均値 ( 母分散が既知 or 未知 ) 分散検定基準値との検定 ( 平均値 分散 ) つの集団間の検定 ( 母分散が等しい場合 異なる場合 ) 今回の授業の狙い 重回帰分析 判別分析 多変量解析の中で 目的変数と説明変数との関係を数式化する手法解析目的, 解析方法, 結果の見方を理解する 多変量解析 (multivariate aalysis) 多変量データを分析する統計手法の総称 例えば 加速性能 車重 エンジン出力 ギア比 の関係 異音発生の有無 ギアの形状特性値 多変量解析手法の分類 表 3- 多変量解析の種類と分類 目的変数 データ形態 解析手法 の有無 目的変数 説明変数 重回帰分析数量データ数量データ正準相関分析 有り カテゴリーデータ 数量化 Ⅰ 類 数量データ 判別分析 カテゴリーデータ カテゴリーデータ 数量化 Ⅱ 類主成分分析 数量データ 因子分析 無し 数量化 Ⅳ 類 カテゴリーデータ 数量化 Ⅲ 類 回帰分析 (Regressio alysis) 要因間への関係式のあてはめ Y: 最大加速度 X: パワーウエイトレシオ Y=β 0 +β X+ε 単回帰分析 :つの説明変数 Xで 目的変数 Yを説明する 単回帰式 Y=β 0 +β X+ε 回帰式による予測値 Y α =β 0 +β X α

回帰式の前提条件 回帰式を求める際 誤差には4つの仮定をおく () 不偏性 期待値がゼロである ( 足すとゼロ ) () 等分散性 分散が一定である (3) 無相関性 誤差 εが互いに無相関である (4) 正規性 誤差 εが正規分布に従う 上記の仮定を満たす β 0,β を求めることが回帰分析の直接の作業 Y Y=β 0 +β X 残差 (Residual( Residual) y: 身長 [cm] 実測値 Y と予測値 Y の差を残差と呼ぶ 80 70 残差 :εα εα=yα-y α Y=β0+βx Y α Y α σ σ X 60 58 63 68 73 xα x: 体重 [kg] 回帰式の考え方 回帰式の考え方 最小二乗法 偏差の総和 : 0 ( 不定 ) 符号問題の解決 乗すると, 大きい残差は, より大きく強調されるので, 大きい残差を排除しようとする 偏差の絶対値の和 : 回帰線からの距離が配慮されない 3-0 - 0 代数的 ( 数学的 ) に扱いやすい ( 変動の分解 ) 理論的な理由 () ガウスーマルコフの定理 () 漸近理論ー最大尤度基準ー最尤法 最小二乗法による回帰式の導出 組のX,Yのデータに対して 残差変動 (e) を最小にするβ 0,β を求める Y α =β 0 +β X α e = ( α ' α ) = ( α β β Υ Υ Υ 0 Χα ) α = α = e = ( Υα +β 0 +β Χα Υαβ 0 + β 0 β Χα α = Υα β Χ α ) 求めるβ 0,β は上記 eをβ 0,β で偏微分し, これを0とした連立方程式の解となる. 式 (3-4) e = ( α Υα +β 0 +β Χα Υαβ 0 + β 0 β Χα = Υα β Χ α ) e = β Σ ( β 0 Υα + β Χα )= 0 0 ( Yα β0 βxα)( ) = 0 Σ Υα - β 0 - β Σ Χα = 0 Σ Υα = β 0 + β Σ Χα Σ Υα Σ Χα - β β 0 = Y = β + 0 β X 式 (3-6) 求める回帰直線はX,Y 各々の平均値を通る

e = ( α Υα +β 0 +β Χα Υαβ 0 + β 0 β Χα = Υα β Χ α ) e = Σ ( β Χα + β 0 Χα Υα Χ α ) =0 β ( Y α β β 0 X α )( Xα ) = 0 Σ Υα Χ α - β 0 Σ Χα - β Σ Χα =0 Σ Υα Σ Χα - β β 0 = Σ Υα Σ Χα Σ Υα Χ α -( - β ) Σ Χα - β Σ Χα =0 Σ Χα Σ Υα ( Σ Χα) Σ Υα Χ α- = β Σ Χα - β を代入する 整理すると Σ Χα Σ Υα ( Σ Χα) Σ Υα Χ α- = β Σ Χα - β = β ( X α ( Xα Yα ) XY X ) α = α = xy xx xy β = xx xy β0 = Y βx = Y 式 (3-8) X xx 残差変動 (e) が最小の回帰直線 回帰式 : 公式 EXCEL による回帰分析 β xy = xx β 0 = y - β x 式 (3-8) 回帰係数 = liest( セル範囲 y, セル範囲 x) 切片 = itercept( セル範囲 y, セル範囲 x) xx,yy: 偏差変動 xy: 偏差積和 xx = ( Xi - X ) i = yy = ( Yi - Y ) i = xy = ( Xi - X )( Yi - Y ) = i 重回帰分析の求め方 重回帰分析 定数項 および各偏回帰係数の求め方単回帰の式と同じ最小二乗法 ( 詳細は配布資料参照方 ) 手計算はほとんど不可能 現在はソフトウエアがあり容易 多変量解析の中で 全て数量データを扱う一手法 複数の説明変数 :Xi で目的変数 :Y を表す 重回帰分析 : 複数の説明変数 Xで目的変数 Yを説明する 重回帰式 :Y=β 0 +β X +β X + +β i X i +ε 予測値 Y α =β 0 +β X +β X + +β i X i β,,β: 偏回帰係数 β0 : 切片 ε: 誤差 目的変数への影響要因の分析 目的変数の予測 影響要因のコントロール

偏回帰係数の意味 説明変数の目的変数に対する影響力を示す この係数には単位がある 従って その大きさは単位に左右される偏回帰係数の直接比較することは危険 標準偏回帰係数 各変数を平均 0, 分散 になるように基準化した上で 単位に無関係な回帰係数を求めたもの 大事な説明変数のランキング ( 順番 ) を示すと考えればよい 分散分析 (alysis of Variace) T = R + e ( 全変動 ) =( 回帰変動 )+( 誤差変動 ) T = yy =Σ( Yα - Y ) i = 実測値 Yαの変動 : データそのものの変動 = xy R = Σ( Y α - Y ) i = xx 推定値 Y αの変動 : 回帰式により説明される変動 e =T- R 解析式で説明できない変動 式 (3-8) 分散分析 (3) 重回帰分析の実施手順 回帰式の統計的な検証方法 分散分析のイメージ T R e 分散分析 F 検定 表 3- 分散分析表 要因 f V F 0 回帰 R V R V R /Ve 残差 - e Ve 全体 - T 解析の流れ 回帰式の仮説立案 データの確認 重回帰分析の実施 回帰式の有意性 分散比 (F0) をF 検定で判断 F0 = VR/Ve > F(,-,α) であれば Rがeに対して00(-α)% で有意 回帰式の確認 標準化への落とし込み 重回帰分析手法 固有技術 回帰式の仮説立案 重回帰分析をどう使うのか? 取り上げる変数は何か? 変数は質的 量的? データの取得範囲は? 変数間の関係から回帰式の仮説を立案し, 分析を通じて仮説を検証する 重回帰分析では目的や仮説によりデータの取得方法が変わる. 過去の知見や情報より QC ストーリや FT,QFD 等を活用し, 目的, 仮説を十分吟味し整理する事が重要となる. 回帰式の仮説立案 () 解析検討の効率化の為に不可欠 回帰モデル 理論式, 仮説, データの確認結果回帰モデルはβiに関する一次式 Y = β + β X + β X + L+ β 0 Xに関しての高次成分 変数の変換 一次式のモデル X' = X X' = X X X' = X / X L etc Y 0 8 6 4 0 0 0 40 60 80 00 X^ 0 8 6 4 0 0 0.5 Log X Y p X p 0 8 6 4 0 0 0000 0000 30000 exp X Y

データの確認 取得したデータをそのまま重回帰分析 取得したデータの素性を把握する NG データの確認 () 相関係数で二組のデータの関係をチェックする r = xy 式 (.5) xx yy 説明変数同士の相関が強い場合 問題が起る 基本統計量各変数のヒストグラム各変数間の散布図 X 5 0 5 0 5 0 5 x Y= β0+βx X cx 固有技術では X X 共に正の相関を持つことが分かっている データの確認 (3) X Xを両方取り上げて回帰式を作成 Y= β0+βx+βx β>0 β<0?? 偏回帰係数の符号がおかしい 多重共線性 Y: 体重 X: 身長 X: 足の大きさ 相関係数がいくつ以上で多重共線性に注意すべきか? 一般的な目安 0.8> r ならばどちらかの変数を解析から外し 変数をつに絞り込む 重回帰分析の実施 回帰計算 解析ソフトで行う. その際, 変数をどう取捨選択するかがポイント重回帰式の評価尺度 寄与率 ( 決定係数 ): R 目的変数の全変動のうち, 回帰により説明できる割合を示す. 寄与率は重相関係数 R の 乗に等しく,0~ の範囲の値をとる. R = R T =-e/t 式 (3-9) ) どのような説明変数でも回帰式に取り入れると寄与率は に近付く. 寄与率 R が大きい 良い回帰式 多くの変数から有効な変数を選び出す尺度は? 重自由度調整済寄与率 F 値 重回帰分析の実施 () 重自由度調整済みの寄与率 ( R ) (+ p+ ) e ( p ) Ve' R'' = = (+ ) ( ) V T T 式 (3- ) 重回帰分析の実施 (3) 残差変動の減り分と残差変動の分散との比 取り入れた変数が残差に対して有意な効果が有るかを表す指標 分散比 F 値 : F0 = e R ( p ) R である限り,R は R よりも小さい R が増加する限り, 追加された説明変数は有効 R R R' 3 4 5 6 取り上げた変数の数 説明変数 p 個 説明変数 p+ 個 回帰変動 R 説明変数を 個増やしたことによる残差変動の減少分 回帰変動 R 全変動 T ΔR 残差変動 e 残差変動 e

重回帰分析の実施 (4) 重回帰分析では無意味な変数を取り上げると 信頼性が低下する 変数選択を確実に行うこと F 値での変数の手動選択方法 回帰式の確認 求めた式が統計的に正しいか検討残差の検討残差の仮定が成立するか検証不偏性, 等分散性, 無相関性, 正規性 F を取り上げ,F< を捨てる その際 偏回帰係数の符号が知見に合うか確認 R 極大に相当する R 極大よりも変数が少ない ちなみに R 極大は F を取り上げ,F< を捨てる方法に相当 残差のヒストグラム.57.75 0.857 0.000-0.857 -.75 -.57 0 3 4 5 各変数と残差の散布図 実測値 3 30 9 8 7 6 6 7 8 9 30 3 予測値 回帰式の確認 () 残差のヒストグラムで正規分布とならないとき外れ値 予測値と実測値との散布図で際立った特徴がある因子の見落とし因子の高次効果固有技術と照らし合わせモデルの再検討が必要 残差の大きさ要求精度を満たす回帰式かを判断する 別データでの再現性別のデータで確認して始めて以後の検討に活用できる 確認結果の残差が解析時の残差と同程度 実施例実施例 切削加工条件の最適化 < 概要 > 部品表面を切削加工することで表面を滑らかにする. 表面状態は加工時の切削抵抗と密接に関係しており, 切削抵抗を下げることで表面を滑らかにできる. そこで加工条件を変えて切削抵抗を計測した. 重回帰分析を行い切削抵抗と加工条件の関係式を求める. 得られた関係式に従い, 部品の表面状態を改善する. 実施例実施例 : 計測データ 加工条件を変えて切削抵抗を計測した. 重回帰分析を行い切削抵抗と加工条件の関係式を求める. 得られた関係式に従い, 部品の表面状態を改善する. 表 3-3 切削抵抗の要因とデータ 刃先刃先切削送り量回転数種類形状抵抗 0.8 50 8.8 509.0 0.8 75 3.3 365.0. 75 3.3 395.4. 00 7.7 369.9.6 50 3.3 468.7.6 75 7.7 37.6.6 00 8.8 48.0 0.8 50 7.7 508. 0.8 00 3.3 500.0. 50 3.3 59.7. 75 7.7 53.9. 00 8.8 585.5.6 50 7.7 5..6 75 8.8 553.6.6 00 3.3 54. 実施例実施例 : 重回帰分析の実施 得られた回帰式 Y=604.308+3.43x -0.565x -0.46x 3 Y: 切削抵抗 x : 刃先種類 ( 刃先 の場合 x=0, 刃先 の場合 x=) x : 送り量 x 3 : 回転数 重相関係数 R 表 3-5 算出した回帰式の係数表 説明変数名 分散比 偏回帰係数 定数項 64.8 604.308 刃先種類 54.9 0 3.43 刃先形状.3 + 送り量. -0.565 回転数. -0.46 表 3-6 求めた回帰式の評価指標自由度調整済み寄与率 寄与率 R 残差自由度 残差標準偏差 R' R'' 0.93 0.866 0.83 0.798 9.47

実施例実施例 : 回帰式の確認 58.8 44. 9.4 4.7 0.0-4.7-9.4-44. -58.8 0 4 6 8.8 8.8 465.5 649. 回帰式による予測値 a) 残差のヒストグラム b) 回帰式による予測値と実測値の関係 図 3-5 回帰式の確認 649. 実測 465.5 値 判別分析 (Discrimiat alysis) 説明変数のデータに基づいて そのサンプルがそのカテゴリーに属するか判定 ( 予測 ) する手法 目的変数が質的データ 目的変数が 値型の例 アメリカ人群と日本人群 セダン購買層とミニバン購買層 ブッシュ支持派とケリー支持派 区別点 : 重回帰分析に対して 目的変数 質的データ説明変数 数量データ 判別分析のイメージ 抵抗 X 判別関数 z=a x +a x ロット ロット 判別分析の種類 判別分析の つの手法 ) 線型判別関数を用いる方法前提 ) 群の共分散行列が同じ = 散らばりの大きさや相関が 群でおなじ特性値が正規分布であるメリット ) 説明変数の有意性がわかりやすい. デメリット ) 前提条件がより厳しい x 膜厚 X ) マハラノビスの距離を用いる方法前提 ) 特性値が正規分布であるメリット ) 特性間の確率分布 相関関係が診断に考慮されるデメリット ) 計算が複雑になる 線型判別関数 例 ) 次年度の受験指導のために, 学校の入学試験結果を予測したい 表 3-7 試験結果 得点 受験者筆記面接 合否判定 50 90 60 50 不 3 80 60 4 00 60 5 90 80 6 30 70 不 7 70 60 不 8 50 80 9 70 40 不 0 70 80 面接試験 00 80 60 不 Z=a 0 +a x +a x 40 不 0 0 40 60 80 00 筆記試験 図 3-6 試験結果の散布図 線型判別関数 () 判別関数の係数の求め方関数から推定した結果と実際の結果ができるだけ一致するように係数を決める. () 群毎にサンプル数, 平均, 分散, 共分散を求める () プール後の分散共分散を求める 分散共分散は群間でサンプル数の違いがある場合, 加重平均をとったプール後の分散共分散を求める ={( -) () +( -) () }/( + -) ={( -) () +( -) () }/( + -) ={( -) () +( -) () }/( + -) ={( -) () +( -) () }/( + -)

線型判別関数 (3) 表 3-8 分析準備 変数 x 変数 x サンプル サンプル数 平均 分散 共分散 平均 分散共分散 群 x() () () x() x () () 群 x() () () x() () () a,a は次の連立方程式から求められる a +a =X () -X () a +a =X () -X () 定数項 a0は次の式で求められる. a (X () +X() )+a(x () +X() ) a0 = ここで上記データから線型判別関数を求めた結果を示す. Z = - 0.05 X - 0.365 X + 37.9 線型判別関数 (4) 表 3-9 判別得点 得点判別合否判定受験者筆記面接得点 50 90-6.0 60 50 不 6.6 3 80 60 -. 4 00 60-5.3 5 90 80-0.5 6 30 70 不 5.4 7 70 60 不 0.9 8 50 80 -.3 9 70 40 不 8. 0 70 80-6.4 全データを適切に判別できた 線形判別関数 (5) 判別関数 :Z=β 0 +β X +β X + +β p X p 表 3-0 判別分析データ変数判別関数の係数は観測サンプル x x x j x p されている 群のデータ を最もよく判別するよう に決める.. i. m. i. x x x j x p x x x j x p.... x i x i x ij x ip.... x m x m x j x p x x x j x p x x x j x p.... x i x i x ij x ip.... x x x j x p 線形判別関数 (6) 全変動 T をつに分解し = m T (Zˆ i() Z) + (Z ˆ i() Z) i= i= 級間変動 を最大化する m = (Z Z) + (Z Z) i= i= 相関比 η = / = T W / T 相関比を最大化 相関比は回帰分析の寄与率と同じ意味を持つ 線形判別関数 (7)( 判別関数に取り入れる変数は重回帰分析と同様に次の点を考慮して選択する必要がある. 説明力の高い変数を分散比 (F 値 ) で選択する. 多重共線性に注意する必要がある. 説明変数間の相関係数が 0.8 以上となる変数関係が生じている場合はどちらか つに変数を絞り込んで解析を進める 基本的に線型判別関数は重回帰式と等価な関係にある. マハラノビスの距離 図 3-7 σ >σ X はどちらに判別すべきか? μ μ X データ群の分布による判別への影響 ユークリッドの距離では, サンプル X は集団 に近い.

マハラノビスの距離 参考 ) マハラノビスの距離の意味 確率等高線上で同じところのサンプルではマハラノビスの距離は同じ = 確率分布を考慮した距離 x x サンプル と はマハラノビスの距離は等しい D =D 理解しやすくするため 特性で考える. とのつサンプルに対し つの特性値 x x のデータを求めた. 特性値 x x には相関が見られる. 散布図上の楕円は工程の実力から求めた確率分布を示している. のサンプルは従来のサンプルに比較してどちらが異常と考えられるか? x x 人の目で見れば が異常と分る それを数値で示したものがマハラノビスの距離 参考 ) マハラノビスの距離の意味 () 参考 ) マハラノビスの距離の意味 (3) x I) 基準化 ( 標準化 ) 基準化 X II) 軸の回転 X U 45deg U-V 軸による回転 X U X x x i - x X i = σ x X X V V X i = x i - x σ x U= Xcos(π/4) + X si(π/4) ( i= or ) V = Xcos(π/4) - X si(π/4) 参考 ) マハラノビスの距離の意味 (4) III) u-v 軸での基準化 X U X 基準化 V ui- u ui= σ u vi- v vi= σ v X u X v 基準化後の u-v 軸上の, 各点の距離を示したものがマハラノビスの距離 マハラノビスの距離の計算 変数の場合 ( 次元 ) のマハラノビスの距離 x-x D = =(x- x )(σ ) - (x- x ) (3-34) σ 変数の場合 ( 次元 ) のマハラノビスの距離 分散共分散行列 =, 逆行列 - = とすると D = [ x x, x x] P 変数の場合 (p 次元 ) のマハラノビスの距離 x x x x D = [x x,x x,,x -x] p M p M p (3-35) p L x x p L x x (3-36) O M M pp L xp-x

マハラノビスの距離による判定 )つの集団,それぞれの集団毎に分散共分散行列, その逆行列 - を求める. ) 全サンプルに対して式 (3-36) により集団,それぞれのマハラノビスの距離 D とD を求める. 3) 求めたD,D の比較から判別を行う. D >D 集団 に属する D <D 集団 に属する D =D 集団 と集団 の境界上であり判別できない. 表 3- マハラノビスの距離による判別結果 受験者 合否判定 D D 不 0.98 8.99 不 7.85 0.4 3.7 3.44 4. 9.90 5.56 7.8 6 不 7.03.4 7 不.0.48 8 0.96 4.0 9 不 0.75 0.97 0 0. 9.3 判定の評価方法 推定結果と実際の結果との対応関係から判別分析の結果の精度を比較する. 比較指標として次の 3 指標を紹介する. () 正答率 ( 判別的中率とも呼ばれる.hittig ratio) 正答サンプル数正答率 = 00 (3-37) 全サンプル数評価は事例により異なるが, 一般的に正答率 >90% であれば非常に良い. () 相関比 (correlatio ratio) 式 (3-3) のとおり. 相関比は重回帰分析の寄与率に相当しており, 結果の見方も寄与率に準じて考えればよい. (3) 誤判別の確率 (error ratio) あるサンプルを判別する際に実際と異なる集団へと間違って判断する確率. つの集団 との重心間の距離をマハラノビスの距離で求める. p D 0 = ai (xi-xi) (3-38) i= 実施例実施例 溶接ロボットの動作によるケーブル断線診断 < 概要 > 生産性を高めるためには, 台の溶接ロボットが行う動作を広げたい. 一方で溶接動作が複雑になるとケーブルへの負荷が高まり, 動作中に断線する場合がある. そこで工場の溶接ケーブルの断線発生履歴を調査し, ロボットの動作設定とケーブル断線発生の有無の関係を分析し, ケーブル断線が発生しない範囲でロボットの動作を設定することを試みた. 実施例実施例 : データの確認 表 3- 説明変数一覧 ケーブル長さ 初期曲げ角最小値 初期ねじれ角最小値 取付点距離最小値 初期曲げ角最大値 初期ねじれ角最大値 取付点距離最大値 初期曲げ角平均値 初期ねじれ角平均値 取付点距離平均値 中期曲げ角最小値 中期ねじれ角最小値 取付点距離変動 中期曲げ角最大値 中期ねじれ角最大値 中期曲げ角平均値 中期ねじれ角平均値 後期曲げ角最小値 後期ねじれ角最小値 後期曲げ角最大値 後期ねじれ角最大値 後期曲げ角平均値 後期ねじれ角平均値 表 3-3 説明変数の相関係数行列 取付点 初期 後期 後期 初期 ケーブ 距離変 曲げ角 曲げ角 曲げ角 ねじり角 ル長さ 動 最小値 最小値 平均値 最小値 初期ねじり角平均値 変数 ケーブル長さ 0.3 0.53 0.35 0.06-0.63-0.59 取付点距離変動 0.3 0.085 0.05-0.03 0.007 0.047 初期曲げ角最小値 0.53 0.085 0.455 0.37-0.045 0.6 後期曲げ角最小値 0.35 0.05 0.455 0.786 0.4 0.7 後期曲げ角平均値 0.06-0.03 0.37 0.786 0.6 0.8 初期ねじり角最小 -0.63 0.007-0.045 0.4 0.6 0.706 初期ねじり角平均 -0.59 0.047 0.6 0.7 0.8 0.706 実施例実施例 : 判別分析の実施 表 3-4 判別関数表 3-5 判別結果一覧 F 値判別係数推定値定数項 8.068 OK NG 合計 ケーブル長さ 3. -0.0073 OK 80 8 98 実測値取付点距離変動 0.0 NG 4 5 初期曲げ角最小値 7. -0.070 合計 8 3 3 後期曲げ角最大値 8.0 後期曲げ角最小値 35.8 0.0544 初期ねじれ角最小値 4.6-0.004 初期ねじれ角平均.6 実施例実施例 : 結果の解釈 実際にはケーブル断線が発生しない条件で, 断線が発生すると間違った結果が 4 件発生している. しかし, 現場で断線が発生することの問題の方が大きいためこの結果とした. この場合, 判別関数の値が負の場合にケーブル断線が発生しないことから, それぞれの説明変数を表 3-4 に示した判別係数に従ってケーブルの条件を変更する. ケーブルの長さを長めに設定し, 動作初期の曲げ角の設定は大きくし, 一方で動作後期の曲げ角設定は小さくする. 併せてねじれ角の最小値を大きくする (= ねじれ角は ± あるため - 側のねじれ角を減らすこと.) ことで対応すればよい.

適用例 )Z3 トランスミッションタイプの判別 97 IN (D)^ (D')^ (D'')^ 6 マハラノヒ ス距離.938.400.960 誤判別率 (%) 9.573.930 4.98 年式 95 93 トランスミッション 5F 4T D^ D^の差誤判別率 F 比 判別係数 vno. 定数 4. IN 中古価格 ( 万円 ) 0.079 -.858 44.4 4.9 0.077 IN 5 年式. -.8 9.7.5 -.5 9 89 00 00 300 400 中古価格 ( 万円 ) IN 6 走行距離 ( 万 km).4-0.5.0 3. 0.4 正答 33 8.50% 誤答 7 7.50% 観測 / 予測 5F 4T 合計 5F 9 6 5 4T 4 5 合計 0 0 40 参考 ) 判別分析と MT 法 判別対象とする集団が明確かどうかに気をつけて欲しい 特性 化石 X 結論 : 化石 X はインド象である D I <D インド象 :I 判別関数 z D が等しい アフリカ象 : 特性 結論 : さんは OK さんは再検査 健康者の集団 D : マハラノビスの距離 さん D <D さん Thak you for listeig! 特性 特性 判別分析の考え方 MT 法の考え方