当し 図 6. のように 2 分類 ( 疾患の有無 ) のデータを直線の代わりにシグモイド曲線 (S 字状曲線 ) で回帰する手法である ちなみに 直線で回帰する手法はコクラン アーミテージの傾向検定 疾患の確率 x : リスクファクター 図 6. ロジスティック曲線と回帰直線 疾患が発

Similar documents
重回帰式 y= x x 2 重症度 5 TC TC 重症度

正常 正常 正常 正常 正常 正常 正常 正常 正常 正常 正常 正常 正常 220

8 A B B B B B B B B B 175

多変量解析 ~ 重回帰分析 ~ 2006 年 4 月 21 日 ( 金 ) 南慶典

スライド 1

1. 多変量解析の基本的な概念 1. 多変量解析の基本的な概念 1.1 多変量解析の目的 人間のデータは多変量データが多いので多変量解析が有用 特性概括評価特性概括評価 症 例 主 治 医 の 主 観 症 例 主 治 医 の 主 観 単変量解析 客観的規準のある要約多変量解析 要約値 客観的規準のな

Microsoft PowerPoint - 資料04 重回帰分析.ppt

スライド 1

Microsoft Word - mstattext02.docx

発表の流れ 1. 回帰分析とは? 2. 単回帰分析単回帰分析とは? / 単回帰式の算出 / 単回帰式の予測精度 <R による演習 1> 3. 重回帰分析重回帰分析とは? / 重回帰式の算出 / 重回帰式の予測精度 質的変数を含む場合の回帰分析 / 多重共線性の問題 変数選択の基準と方法 <R による

Microsoft PowerPoint - 統計科学研究所_R_重回帰分析_変数選択_2.ppt

Chapter 1 Epidemiological Terminology

PowerPoint プレゼンテーション

回帰分析の用途・実験計画法の意義・グラフィカルモデリングの活用 | 永田 靖教授(早稲田大学)

Microsoft Word - å“Ÿåłžå¸°173.docx

Microsoft PowerPoint - R-stat-intro_12.ppt [互換モード]

スライド 1

ビジネス統計 統計基礎とエクセル分析 正誤表

13章 回帰分析

カイ二乗フィット検定、パラメータの誤差

JMP によるオッズ比 リスク比 ( ハザード比 ) の算出方法と注意点 SAS Institute Japan 株式会社 JMP ジャパン事業部 2008 年 3 月改定 1. はじめに本文書は JMP でオッズ比 リスク比 それぞれに対する信頼区間を求める算出方法と注意点を述べたものです この後

Kumamoto University Center for Multimedia and Information Technologies Lab. 熊本大学アプリケーション実験 ~ 実環境における無線 LAN 受信電波強度を用いた位置推定手法の検討 ~ InKIAI 宮崎県美郷

<4D F736F F F696E74202D A328CC B835E89F090CD89898F4B814096F689AA>

一般化線型モデルとは? R 従属変数群が独立変数群の一次結合と誤差で表されるという形のモデルを線型モデルという ( 回帰分析はデータへの線型モデルの当てはめである ) 式で書けば Y = β 0 + βx + ε R では glm( ) という関数で実行する glm( ) は量的なデータが正規分布に

Microsoft PowerPoint 古川杉本SASWEB用プレゼン.ppt

統計的データ解析

1.民営化

0 部分的最小二乗回帰 Partial Least Squares Regression PLS 明治大学理 学部応用化学科 データ化学 学研究室 弘昌

Microsoft PowerPoint - ch04j

Microsoft Word - Time Series Basic - Modeling.doc

Microsoft Word - SPSS2007s5.doc

Microsoft PowerPoint - e-stat(OLS).pptx

講義「○○○○」

Microsoft PowerPoint - Econometrics

タイトルを修正 軸ラベルを挿入グラフツール デザイン グラフ要素を追加 軸ラベル 第 1 横 ( 縦 ) 軸 凡例は削除 横軸は, 軸の目盛範囲の最小値 最 大値を手動で設定して調整 図 2 散布図の仕上げ見本 相関係数の計算 散布図を見ると, 因果関係はともかく, 人口と輸送量の間には相関関係があ

基礎統計

Microsoft PowerPoint - H17-5時限(パターン認識).ppt

本日の内容 相関関係散布図 相関係数偏相関係数順位相関係数 単回帰分析 対数目盛 2

分析のステップ Step 1: Y( 目的変数 ) に対する値の順序を確認 Step 2: モデルのあてはめ を実行 適切なモデルの指定 Step 3: オプションを指定し オッズ比とその信頼区間を表示 以下 このステップに沿って JMP の操作をご説明します Step 1: Y( 目的変数 ) の

ANOVA

Probit , Mixed logit

様々なミクロ計量モデル†

MedicalStatisticsForAll.indd

SPSSによる実習

参考1中酪(H23.11)

自動車感性評価学 1. 二項検定 内容 2 3. 質的データの解析方法 1 ( 名義尺度 ) 2.χ 2 検定 タイプ 1. 二項検定 官能検査における分類データの解析法 識別できるかを調べる 嗜好に差があるかを調べる 2 点比較法 2 点識別法 2 点嗜好法 3 点比較法 3 点識別法 3 点嗜好

<4D F736F F F696E74202D F95618A7789EF B836A F838C834E B88E38A77939D8C76322E >

相関分析・偏相関分析

目次 1 章 SPSS の基礎 基本 はじめに 基本操作方法 章データの編集 はじめに 値ラベルの利用 計算結果に基づく新変数の作成 値のグループ化 値の昇順

日心TWS

Microsoft Word - SDA2012kadai07.doc

みっちりGLM

スライド 1

はじめに 最近の住宅市場は世帯数に比べ 住宅数が多く 1 この数字だけを見れば供給過剰といえる しかし実際には 消費者側の多様な需要とそれに合わせた供給も存在するため 世帯数と住宅数だけで需給バランスを把握でき るとは言い難い 国土交通省の不動産の鑑定評価基準にもあるように 不動産の価値には 現在の

回帰分析の重要な手続きは 次の 3 点にまとめられる 順に説明しよう ( 1) もっともよい線を引く ( 2) その線はどのくらいよい線であるかを評価する ( 3) 母集団についても同様の線を引く価値があるかどうかを判断する 概要をスライドで確認 テキスト p.99 の図が回帰分析の本質 実際のデー

Microsoft Word - 補論3.2

Excelにおける回帰分析(最小二乗法)の手順と出力

14 化学実験法 II( 吉村 ( 洋 mmol/l の半分だったから さんの測定値は くんの測定値の 4 倍の重みがあり 推定値 としては 0.68 mmol/l その標準偏差は mmol/l 程度ということになる 測定値を 特徴づけるパラメータ t を推定するこの手

Microsoft PowerPoint - Econometrics pptx

NLMIXED プロシジャを用いた生存時間解析 伊藤要二アストラゼネカ株式会社臨床統計 プログラミング グループグルプ Survival analysis using PROC NLMIXED Yohji Itoh Clinical Statistics & Programming Group, A

目次 はじめに P.02 マクロの種類 ---

切片 ( 定数項 ) ダミー 以下の単回帰モデルを考えよう これは賃金と就業年数の関係を分析している : ( 賃金関数 ) ここで Y i = α + β X i + u i, i =1,, n, u i ~ i.i.d. N(0, σ 2 ) Y i : 賃金の対数値, X i : 就業年数. (

PowerPoint プレゼンテーション

Microsoft PowerPoint - sc7.ppt [互換モード]

異文化言語教育評価論 ⅠA 第 4 章分散分析 (3 グループ以上の平均を比較する ) 平成 26 年 5 月 14 日 報告者 :D.M. K.S. 4-1 分散分析とは 検定の多重性 t 検定 2 群の平均値を比較する場合の手法分散分析 3 群以上の平均を比較する場合の手法 t 検定

Microsoft PowerPoint - Econometrics

7. フィリップス曲線 経済統計分析 (2014 年度秋学期 ) フィリップス曲線の推定 ( 経済理論との関連 ) フィリップス曲線とは何か? 物価と失業の関係 トレード オフ 政策運営 ( 財政 金融政策 ) への含意 ( 計量分析の手法 ) 関数形の選択 ( 関係が直線的でない場合の推定 ) 推

情報工学概論

Medical3

Microsoft Word - ㅎ㇤ㇺå®ı璃ㆨAIã†®æŁ°ç’ƒ.docx

. 分析内容及びデータ () 分析内容中長期の代表的金利である円金利スワップを題材に 年 -5 年物のイールドスプレッドの変動を自己回帰誤差モデル * により時系列分析を行った * ) 自己回帰誤差モデル一般に自己回帰モデルは線形回帰モデルと同様な考え方で 外生変数の無いT 期間だけ遅れのある従属変

データ解析

Microsoft Word - Stattext12.doc

Microsoft Word - econome5.docx

RSS Higher Certificate in Statistics, Specimen A Module 3: Basic Statistical Methods Solutions Question 1 (i) 帰無仮説 : 200C と 250C において鉄鋼の破壊応力の母平均には違いはな

(3) 検定統計量の有意確率にもとづく仮説の採否データから有意確率 (significant probability, p 値 ) を求め 有意水準と照合する 有意確率とは データの分析によって得られた統計値が偶然おこる確率のこと あらかじめ設定した有意確率より低い場合は 帰無仮説を棄却して対立仮説

計量経済学の第一歩 田中隆一 ( 著 ) gretl で例題と実証分析問題を 再現する方法 発行所株式会社有斐閣 2015 年 12 月 20 日初版第 1 刷発行 ISBN , Ryuichi Tanaka, Printed in Japan

Microsoft PowerPoint - ch03j

構造方程式モデリング Structural Equation Modeling (SEM)

Microsoft Word - 保健医療統計学112817完成版.docx

<4D F736F F F696E74202D B835E89F090CD89898F4B81408F6489F18B4195AA90CD A E707074>

Microsoft Word - Stattext13.doc

PowerPoint プレゼンテーション

数値計算法

Dependent Variable: LOG(GDP00/(E*HOUR)) Date: 02/27/06 Time: 16:39 Sample (adjusted): 1994Q1 2005Q3 Included observations: 47 after adjustments C -1.5

横浜市環境科学研究所

サーバに関するヘドニック回帰式(再推計結果)

PowerPoint プレゼンテーション

経済統計分析1 イントロダクション

本冊子の利用にあたって 本冊子は 能力強化研修で扱う内容を理解する上で助けとなるであろう統計学の基礎事 項を選択肢形式の問題として提示したものです 統計学に不安のある受講生は事前の学 習として活用ください 試験ではないので正答数自体は重要ではありません より効果的な学習 復習となるよ う 次のような

Microsoft Word - NumericalComputation.docx

OpRisk VaR3.2 Presentation


<4D F736F F D204B208C5182CC94E497A682CC8DB782CC8C9F92E BD8F6494E48A722E646F6378>

<4D F736F F F696E74202D BD95CF97CA89F090CD F6489F18B4195AA90CD816A>

Microsoft PowerPoint - 基礎・経済統計6.ppt

Microsoft PowerPoint - 【配布・WEB公開用】SAS発表資料.pptx

Microsoft Word - reg.doc

TDM研究 Vol.26 No.2

Microsoft Word - 池田様本文確定

Transcription:

6.. ロジスティック回帰分析 6. ロジスティック回帰分析の原理 ロジスティック回帰分析は判別分析を前向きデータ用にした手法 () ロジスティックモデル 疾患が発症するかどうかをリスクファクターから予想したいまたは疾患のリスクファクターを検討したい 判別分析は後ろ向きデータ用だから前向きデータ用にする必要がある ロジスティック回帰分析を適用ロジスティック回帰分析 ( ロジット回帰分析 ) は 判別分析をロジスティック曲線によって前向き研究から得られたデータ用にした手法 多種類のリスクファクターに基いて 被験者が疾患を発症するかどうかを予想したり リスクファクターの影響力を検討したりするための手法 ロジスティックモデル( ロジットモデル ) p l=ln( p )=b 0 + b x + + b p x p p= + exp( l) = + exp( b 0 b x b p x p ) l: ロジット ( 対数オッズ ) p: 疾患を発症する確率 b 0 : 定数 b ~b p : 偏回帰係数このモデルは 第 5 章第 5 節で説明した判別スコアを確率に変換するロジスティック曲線の式において 事前確率の項 ln{π /(-π )} と定数 a 0 を一緒にして b 0 にしたものに相当する このモデルを前向き研究から得られたデータに適用し 重回帰分析の原理を応用して定数と偏回帰係数を求める手法がロジスティック回帰分析 これは目的変数が名義尺度のデータで 説明変数が計量尺度のデータである回帰分析に相 6-

当し 図 6. のように 2 分類 ( 疾患の有無 ) のデータを直線の代わりにシグモイド曲線 (S 字状曲線 ) で回帰する手法である ちなみに 直線で回帰する手法はコクラン アーミテージの傾向検定 疾患の確率 0.5 0 x : リスクファクター 図 6. ロジスティック曲線と回帰直線 疾患が発症する前に 疾患が発症するかどうかをリスクファクターから予想したい ロジスティック回帰分析 前向き研究から得られたデータを用いる 疾患が発症した後で 疾患であるかどうかを診断指標とリスクファクターから診断したい 判別分析 後ろ向き研究から得られたデータを用いる (2) 一般化線形モデル 確率をロジットに変換するのは説明変数との関係を直線的つまり線形にするため 目的変数を線形にする変換関数のことをリンク関数 ( 連結関数 ) と呼ぶ リンク関数によって線形にしたモデルも線形モデルとして扱う 一般化線形モデル (GLM : generalized linear model) 6-2

6.2 ロジスティック回帰分析結果の解釈 6. ロジスティック回帰分析 ロジスティック回帰分析ではオッズ比を指標にする () ロジスティック回帰分析の適用例 脂質異常が動脈硬化症のリスクファクターになるかどうかを検討するために 25 名の被験者を 対象にして動脈硬化症が発症するかどうかを前向きに観察した 被験者の動脈硬化症の発症の有無と 脂質異常スコア ( 脂質異常の程度を表す解説用仮想 データ ) 性 年齢は表 6. のとおり 性と年齢はリスクファクターというよりも 被験者の背景因子 の代表的項目 < 表 6. 動脈硬化症の有無と脂質異常スコア等 > No. 動脈硬化症脂質異常スコア性年齢 無 0 男 36 2 無 0 男 55 3 無 0 女 27 4 無 0 女 42 5 無 男 35 6 無 男 39 7 無 男 4 8 無 男 45 9 無 女 32 0 無 女 42 無 女 5 2 無 女 53 3 無 2 男 43 4 無 2 男 47 5 無 2 女 52 6 有 男 46 7 有 女 24 8 有 女 38 9 有 女 58 20 有 2 男 2 6-3

2 有 2 男 30 22 有 2 男 37 23 有 2 女 24 24 有 2 女 56 25 有 2 女 58 (2) 計算結果 === ロジスティック回帰分析 (logistic regression analysis) === [DANS V7.0] データ名 : 表 6. 目的変数 y : 動脈硬化症 (0: 無 : 有 ) 説明変数 x : 脂質異常スコア説明変数 x 2: 性 (0: 男 : 女 ) 説明変数 x 3: 年齢 ( 才 ) 各変数の基礎統計量 x : 例数 =25 平均値 =.2 標準偏差 =0.70707 標準誤差 =0.442 x 2: 例数 =25 平均値 =0.52 標準偏差 =0.509902 標準誤差 =0.098 x 3: 例数 =25 平均値 =4.28 標準偏差 =.033 標準誤差 =2.20267 y : 例数 =25 平均値 =0.4 標準偏差 =0.5 標準誤差 =0. 反応有 : コード = 例数 =0 反応無 : コード = 以外例数 =5 相関行列 (correlation coefficient matrix) x x 2 x 3 y ------------------------------------ x -0.069 0.009 0.47 x 2-0.069 0.5 0.3 x 3 0.009 0.5-0.57 y 0.47 0.3-0.57 ------------------------------------ 全変数を選択した結果( 反復回数 :4) ロジットモデル :p=/{+exp(-β0-σβj xj)} p:y=( 反応有 ) の確率 β0: 定数 βj: 変数 xjの偏回帰係数 標準 有意確率 変数偏回帰係数 標準誤差 オッズ比偏回帰係数 Waldのχ^2 p 値 -- 定数 -.53326 2.8006 0.494649 0.4886 x 2.08029 0.923026 8.0068.47099 5.07949 0.024205* x 2.348.576 3.850 0.687399.45983 0.226957 x 3-0.0560363 0.0494628 0.945505-0.6746.28345 0.257258 -- 6-4

変数偏回帰係数 95%CI 下限 上限 オッズ比 95%CI 下限 上限 ---------------------------------------------------------------------------- 定数 -.53326-5.80609 2.73957 x 2.08029 0.2793 3.88939 8.0068.353 48.88 x 2.348-0.838749 3.53495 3.850 0.43225 34.2933 x 3-0.0560363-0.52982 0.040909 0.945505 0.85845.0476 ---------------------------------------------------------------------------- 対数尤度 : 回帰 L(β)=-2.5043 定数項 L0=-6.8253 飽和 Lf=0 擬似寄与率 R^2=0.25686 AIC( 赤池の情報量基準 )=33.0086 回帰とズレの検定 要因 (-)* 対数尤度 自由度 χ^2 値 有意確率 p 値 -------------------------------------------------------------------- 回帰 4.320 3 8.6420 0.0344493* ズレ (LOF) 2.5043 2 25.0086 0.246793 -------------------------------------------------------------------- 全体 6.8253 24 (3) 各種パラメーターの意味 ロジスティック回帰式 ロジットと説明変数の因果関係をロジスティックモデルで近似した式 p l=ln( p )=.53326+ 2.08029 x +.348 x 2 0.0560363 x 3 p= + exp(.53326 2.08029 x.348 x 2 + 0.0560363 x 3 ) l: ロジット ( 対数オッズ ) p: 動脈硬化症の発症確率 偏回帰係数 重回帰分析の偏回帰係数に相当する係数 標準誤差 偏回帰係数の標準誤差 他の変数が一定という条件で各変数が 増加した時ロジットがいくつ変化するかを表す値 ロジットの変化量 = 対数オッズの差 オッズ比 偏回帰係数 ( 対数オッズの差 ) を指数変換してオッズの比にした値 他の変数が一定という条件で各変数が 増加した時オッズが相対的に何倍になるかを表す値 調整オッズ比または補正オッズ比とも呼ばれる 反応率が小さい (0% 未満 ) 時 相対危険度の近似値と解釈できる 6-5

標準偏回帰係数 説明変数を標準偏差単位にした時の偏回帰係数 重回帰式の標準偏回帰 係数に相当 他の変数が一定という条件で各変数が 標準偏差 増加した時ロジットがいくつ変化するかを表す値 ワルドの χ 2 値 偏回帰係数が 0 かどうかの検定を行うための検定統計量この値は変数選択の基準値として利用されることもある 第 3 節参照 偏回帰係数の 95% 信頼区間 偏回帰係数の推定結果偏回帰係数について実質科学的に考察するための情報 オッズ比の 95% 信頼区間 偏回帰係数の 95% 信頼区間を指数変換した値オッズ比について実質科学的に考察するための情報 AIC( 赤池の情報量基準 ) モデルの適合度を表す指標 AIC は回帰誤差と説明変数の数の両方を考慮した指標 この値が小さいほど単純でかつ適合度の良いモデルであることを表す 回帰とズレの検定 偏回帰係数の検定と モデルとデータのズレの検定回帰の検定は全ての偏回帰係数が 0 かどうかの検定 ズレの検定はモデルと実際のデータのズレが 0 かどうかの検定 回帰の検定結果 : 有意 ズレの検定結果 : 有意ではない とりあえずモデルが適合していると解釈 しかし検定結果よりもロジスティック回帰式全体を実質科学的に考察する方が大切 (4) ロジスティック回帰分析の注意点 i) 誤差の少ない信頼のおける多数のデータに適用したか? 目安 : 例数 ( 変数の数 0) または ( 変数の数の 2 乗 ) の大きい方 6-6

疾患の発症例数と非発症例数はできるだけ同じくらいが理想 ii) ロジスティック回帰分析に組み込んだ項目が適当か? iii) 組み込んだ項目はリスクファクターだけか? 診断指標に相当するものはないか? iv) ロジスティック回帰式が実質科学的に納得できるか? v) ロジットは確率が 0 または になる時は計算できないので注意! 説明変数によって疾患の発症と非発症が完全に決まってしまう時は計算不可能 例えば第 5 章の表 5. のデータにロジスティック回帰分析を適用すると 途中で計算が発散し て不適解になる これは TC と TG で正常群と動脈硬化群が完全に判別可能のため === ロジスティック回帰分析 (logistic regression analysis) === [DANS V7.0] データ名 : 表 5. 目的変数 y : 群 (0: 正常 : 動脈硬化症 ) 説明変数 x :TC (mg/dl) 説明変数 x 2:TG (mg/dl) 各変数の基礎統計量 x : 例数 =25 平均値 =224.4 標準偏差 =28.296 標準誤差 =5.6592 x 2: 例数 =25 平均値 =207.2 標準偏差 =60.747 標準誤差 =2.0349 y : 例数 =25 平均値 =0.4 標準偏差 =0.5 標準誤差 =0. 反応有 : コード = 例数 =0 反応無 : コード = 以外例数 =5 相関行列(correlation coefficient matrix) x x 2 y ---------------------------- x 0.499 0.783 x 2 0.499 0.025 y 0.783 0.025 ---------------------------- 全変数を選択した結果( 反復回数 :) ロジットモデル :p=/{+exp(-β0-σβj xj)} p:y=( 反応有 ) の確率 β0: 定数 βj: 変数 xjの偏回帰係数 偏回帰係数初期値 :β0=-6.569 β=0.33592 β2=-0.074889 標準 有意確率 変数偏回帰係数 標準誤差 オッズ比偏回帰係数 Waldのχ^2 p 値 -- 定数 -448.932 5693.3 0.0062775 0.9375 x 2.26982 29.6859 9.67765 64.2269 0.00584632 0.939052 x 2-0.340886 6.29705 0.74-20.527 0.00293052 0.956828 -- 6-7

変数偏回帰係数 95%CI 下限 上限 オッズ比 95%CI 下限 上限 ---------------------------------------------------------------------------- 定数 -448.932-607.6 0709.7 x 2.26982-55.935 60.453 9.67765 5.2308e-25.79658e+26 x 2-0.340886-2.6829 2.00 0.74 3.0384e-06 62934 ---------------------------------------------------------------------------- 対数尤度 : 回帰 L(β)=-5.24827e-05 定数項 L0=-6.8253 飽和 Lf=0 擬似寄与率 R^2=0.999997 AIC( 赤池の情報量基準 )=6.000 回帰とズレの検定 要因 (-)* 対数尤度 自由度 χ^2 値 有意確率 p 値 -------------------------------------------------------------------- 回帰 6.8252 2 33.6505 4.9305e-08*** ズレ (LOF) 5.24827e-05 22 0.00004965 -------------------------------------------------------------------- 全体 6.8253 24 偏回帰係数の標準誤差が非常に大きな値になり 偏回帰係数とオッズ比の 95% 信頼区間が異 常な値になっている 計算が発散して不適解になったため 6-8

6.3 変数の選択 変数選択法は重回帰分析と同様 () 変数選択法できるだけ少ない変数で できるだけ効率的に疾患の発症を予測できる 簡便で実用的なロジスティック回帰式を組み立てるための手法 重回帰分析の変数選択法と同じ原理 i) 変数指定方法 実質科学的な知見に基づいて適当な変数を指定 ii) 総当たり法 全ての変数の組み合わせを計算し 最良のものを選択 iii) 逐次選択法 一定の規則に従って変数を逐次選択変数増加法 ( 前進的選択法 ) 変数減少法( 後退的選択法 ) 変数増減法 変数減増法 (2) 変数増減法の手順 ) 最初の変数の取り込み単独でロジットに最も寄与している変数 つまりワルドの χ 2 値が最大の変数を取り込む ロジット情報全体 残差自由度 = n-2 寄与分 x 図 6.2 つの説明変数を取り込んだ時 2) 次の変数の取り込み 残りの変数から今取り込んだ変数と共有する情報を取り除き その上でワルドの χ 2 値が最大の ものを探す そしてその変数が取り込み基準を満足するなら取り込む 6-9

各種の取り込み基準 i) ワルドの χ 2 値が基準値以上 ii) 有意確率 p 値が基準値以下 ロジット情報全体 残差自由度 = n-3 x j の単独寄与分 x x j 図 6.3 次の説明変数を取り込んだ時 3) 変数の追い出し これまでに取り込んだ変数のうち ワルドの χ 2 値が最小のものを探す そしてその変数が追い 出し基準を満足するなら追い出す ロジット情報全体 残差 x k を追い出す x x j x k 図 6.4 説明変数の追い出し 6-0

各種の追い出し基準 i) ワルドの χ 2 値が基準値未満 ii) 有意確率 p 値が基準値より大きい 4) 変数選択の終了 2) に戻って変数の取り込みを続け 取り込む変数も追い出す変数もなくなるまで 2) と 3) を繰り 返す (3) 変数選択の例 === ロジスティック回帰分析 (logistic regression analysis) === [DANS V7.0] データ名 : 表 6. 目的変数 y : 動脈硬化症 (0: 無 : 有 ) 説明変数 x : 脂質異常スコア説明変数 x 2: 性 (0: 男 : 女 ) 説明変数 x 3: 年齢 ( 才 ) 各変数の基礎統計量 x : 例数 =25 平均値 =.2 標準偏差 =0.70707 標準誤差 =0.442 x 2: 例数 =25 平均値 =0.52 標準偏差 =0.509902 標準誤差 =0.098 x 3: 例数 =25 平均値 =4.28 標準偏差 =.033 標準誤差 =2.20267 y : 例数 =25 平均値 =0.4 標準偏差 =0.5 標準誤差 =0. 反応有 : コード = 例数 =0 反応無 : コード = 以外例数 =5 相関行列 (correlation coefficient matrix) x x 2 x 3 y ------------------------------------ x -0.069 0.009 0.47 x 2-0.069 0.5 0.3 x 3 0.009 0.5-0.57 y 0.47 0.3-0.57 ------------------------------------ 前進的変数増減法(stepwise forward selection method) による変数選択結果 取り込み基準 :χ^2 値 2 追い出し基準 :χ^2 値 <2 反復回数 :5 ロジットモデル :p=/{+exp(-β0-σβj xj)} p:y=( 反応有 ) の確率 β0: 定数 βj: 変数 xjの偏回帰係数 標準 有意確率 変数偏回帰係数 標準誤差 オッズ比偏回帰係数 Waldのχ^2 p 値 -- 定数 -2.634.8234 4.96304 0.0258947* x.7329 0.800372 5.65305.22485 4.68392 0.0304462* -- 6-

変数偏回帰係数 95%CI 下限 上限 オッズ比 95%CI 下限 上限 ---------------------------------------------------------------------------- 定数 -2.634-4.9535-0.36658 x.7329 0.63494 3.30089 5.65305.7762 27.369 ---------------------------------------------------------------------------- 対数尤度 : 回帰 L(β)=-3.793 定数項 L0=-6.8253 飽和 Lf=-3.3668 擬似寄与率 R^2=0.898076 AIC( 赤池の情報量基準 )=3.4386 回帰とズレの検定 要因 (-)* 対数尤度 自由度 χ^2 値 有意確率 p 値 -------------------------------------------------------------------- 回帰 3.0599 6.298 0.026888* ズレ (LOF) 0.352502 0.705004 0.4007 -------------------------------------------------------------------- 全体 3.45849 2 変数選択法で選択されなかった変数は疾患の発症に寄与していないとは限らない ある変数が疾患の発症に寄与していないことを検証したい時は変数選択をしない方が良い 変数選択法で得られた変数の組み合わせは実質科学的に最適なものとは限らない 実質科学的に解釈困難な結果または実用的ではない結果なら特定の変数を強制的に取り込んだり追い出したりして色々なロジスティック回帰式を検討した方が良い 6-2

6.4 順序ロジスティック回帰分析 6. ロジスティック回帰分析 目的変数が順序尺度の時は順序ロジスティック回帰分析を用いることができる () 累積ロジスティックモデル 目的変数が疾患の有無ではなく 表 6.2 の動脈硬化症重症度のような順序尺度のデータの時 は 順序ロジスティック回帰分析を適用することができる < 表 6.2 動脈硬化症の重症度と脂質異常スコア等 > No. 動脈硬化症重症度脂質異常スコア性年齢 無 男 2 2 無 男 30 3 無 男 37 4 無 女 24 5 無 女 56 6 無 女 58 7 無 2 男 46 8 無 2 女 24 9 無 2 女 38 0 無 2 女 58 無 3 女 26 2 無 3 女 4 3 軽症 男 23 4 軽症 男 43 5 軽症 男 47 6 軽症 女 22 7 軽症 女 39 8 軽症 女 52 9 軽症 2 男 35 20 軽症 2 男 4 2 軽症 2 男 45 22 軽症 2 男 53 23 軽症 2 女 23 24 軽症 2 女 28 25 軽症 2 女 32 6-3

26 軽症 2 女 43 27 軽症 3 男 40 28 軽症 3 女 24 29 軽症 3 女 27 30 軽症 3 女 42 3 重症 男 20 32 重症 男 44 33 重症 女 34 34 重症 2 男 35 35 重症 2 男 37 36 重症 2 女 42 37 重症 2 女 5 38 重症 3 男 36 39 重症 3 男 4 40 重症 3 男 5 4 重症 3 男 55 42 重症 3 女 2 43 重症 3 女 35 44 重症 3 女 36 累積ロジスティックモデル ( 比例オッズモデル ) i) ロジスティックモデル : 無を疾患無 軽症と重症を疾患有と考えた時のモデル p l =ln ( )=b p 0 + b x + + b p x p p = + exp( b 0 b x b p x p ) l :p のロジット p : 軽症または重症になる確率 b 0 : 定数 b ~b p : 偏回帰係数 ii) ロジスティックモデル 2: 無と軽症を疾患無 重症を疾患有と考えた時のモデル p 2 l 2 =ln( )=b p 20 + b x + + b p x p 2 6-4

p 2 = + exp( b 20 b x b p x p ) l 2 :p 2 のロジット p 2 : 重症になる確率 b 20 : 定数 b ~b p : 偏回帰係数この 2 つのモデルは 定数が異なるだけで偏回帰係数は同じと仮定したモデル 偏回帰係数が同じということは 2 つのモデルのロジットの違いは定数 b 0 と b 20 の差に影響されるだけで 説明変数には影響されないということ その結果 これらのモデルのロジスティック曲線は 図 6.5 のように立ち上がりの位置が異なる だけで傾きは同じになる 確率 (p ) 0.8 0.6 0.4 モデル 疾患有 : 軽症 重症 0.2 0 0.8 確 0.6 率 (p 2 ) 0.4 疾患無 : 無 説明変数 (x) モデル 2 疾患有 : 重症 0.2 0 疾患無 : 無 軽症 説明変数 (x) 図 6.5 累積ロジスティックモデル 6-5

(2) 計算結果 === 順序ロジスティック回帰分析 === [DANS V7.0] データ名 : 表 6.2 目的変数 y : 動脈硬化症重症度 (0: 症状なし : 軽症 2: 重症 ) 説明変数 x : 脂質異常スコア説明変数 x 2: 性 (0: 男 : 女 ) 説明変数 x 3: 年齢 ( 才 ) 順序 : 動脈硬化症重症度 (0: 症状なし : 軽症 2: 重症 )=0 各変数の基礎統計量 x : 例数 =2 平均値 =.66667 標準偏差 =0.778499 標準誤差 =0.224733 x 2: 例数 =2 平均値 =0.666667 標準偏差 =0.492366 標準誤差 =0.4234 x 3: 例数 =2 平均値 =38.25 標準偏差 =3.777 標準誤差 =3.97554 順序 2: 動脈硬化症重症度 (0: 症状なし : 軽症 2: 重症 )= 各変数の基礎統計量 x : 例数 =8 平均値 =.88889 標準偏差 =0.758395 標準誤差 =0.78755 x 2: 例数 =8 平均値 =0.555556 標準偏差 =0.53 標準誤差 =0.2057 x 3: 例数 =8 平均値 =36.6 標準偏差 =0.873 標準誤差 =2.407 順序 3: 動脈硬化症重症度 (0: 症状なし : 軽症 2: 重症 )=2 各変数の基礎統計量 x : 例数 =4 平均値 =2.2857 標準偏差 =0.82542 標準誤差 =0.220603 x 2: 例数 =4 平均値 =0.42857 標準偏差 =0.53553 標準誤差 =0.37253 x 3: 例数 =4 平均値 =38.4286 標準偏差 =0.58 標準誤差 =2.7486 全体 各変数の基礎統計量 x : 例数 =44 平均値 =.95455 標準偏差 =0.805636 標準誤差 =0.2454 x 2: 例数 =44 平均値 =0.545455 標準偏差 =0.503686 標準誤差 =0.0759336 x 3: 例数 =44 平均値 =37.6364 標準偏差 =.0224 標準誤差 =.6668 y : 例数 =44 平均値 =2.04545 標準偏差 =0.776233 標準誤差 =0.702 相関行列(correlation coefficient matrix) x x 2 x 3 y ------------------------------------ x 0.20 0.00 0.30 x 2 0.20-0.4-0.84 x 3 0.00-0.4 0.00 y 0.30-0.84 0.00 ------------------------------------ 6-6

累積ロジットモデル:pk=/{+exp(-β0k-Σβj xj)} 反復回数 :4 pk: 順序 (k+) 以上の累積確率 β0k:kの定数 βj: 変数 xjの偏回帰係数 標準 有意確率 変数偏回帰係数 標準誤差 オッズ比偏回帰係数 Waldのχ^2 p 値 -- 定数 0.0845924.33833 0.0039957 0.94960 定数 2 -.87488.37266.8656 0.798 x 0.835876 0.38309 2.30683 0.67342 4.7626 0.0290845* x 2-0.892357 0.596739 0.409689-0.449468 2.2369 0.3483 x 3-0.003446 0.0268545 0.996564-0.0379347 0.064244 0.898024 -- 変数偏回帰係数 95%CI 下限 上限 オッズ比 95%CI 下限 上限 ---------------------------------------------------------------------------- 定数 0.0845924-2.53849 2.70767 定数 2 -.87488-4.56525 0.8549 x 0.835876 0.085737.58658 2.30683.0889 4.887 x 2-0.892357-2.0694 0.27723 0.409689 0.27207.3947 x 3-0.003446-0.0560754 0.049922 0.996564 0.945468.05042 ---------------------------------------------------------------------------- 対数尤度 : 回帰 L(β)=-44.4207 定数項 L0=-47.72 飽和 Lf=-.38629 擬似寄与率 R^2=0.070469 AIC( 赤池の情報量基準 )=96.844 回帰とズレの検定 要因 (-)* 対数尤度 自由度 χ^2 値 有意確率 p 値 -------------------------------------------------------------------- 回帰 3.2929 3 6.58259 0.086467+ ズレ (LOF) 43.0344 39 86.0688 2.596e-05*** -------------------------------------------------------------------- 全体 46.3257 42 ロジスティック回帰式 i) ロジスティックモデル p l =ln ( )=0.0845924+ 0.835876 x p 0.892357 x 2 0.003446 x 3 ii) ロジスティックモデル 2 p 2 l 2 =ln( )=.87488+ 0.835876 x p 0.892357 x 2 0.003446 x 3 2 (3) 重症度の予測方法 表 6.2 の No.3 の被験者 : 重症度 =( 軽症 ) 脂質異常スコア = 性 =0( 男 ) 年齢 =23 6-7

i) ロジスティックモデル l =0.0845924+ 0.835876 0.892357 0 0.003446 23=0.8434 p = + exp( 0.8434) 0.699 軽症または重症の確率 ii) ロジスティックモデル 2 l =.87488+ 0.835876 0.892357 0 0.003446 23=.86 p = + exp(.86) 0.246 重症の確率 i) と ii) より 症状無になる確率 -p ( 軽症または重症になる確率 )=-0.699=0.30 軽症になる確率 p ( 軽症または重症になる確率 )-p 2 ( 重症になる確率 )=0.699-0.246=0.453 重症になる確率 p 2 ( 重症になる確率 )=0.246 これらの確率を比べると この被験者は軽症になる確率が最も高い 実際の重症度も軽症 確率 0.8 0.6 0.4 0.2 0 症状無になる確率 =0.30 p =0.699 モデル モデル 2 軽症になる確率 =0.453 p 2 =0.246 重症になる確率 =0.246 説明変数 (x) 図 6.6 各重症度になる確率 6-8

(4) 重回帰分析を適用した場合 === 重回帰分析 (multiple regression analysis) === [DANS V7.0] データ名 : 表 6.2 目的変数 y : 動脈硬化症 (0: 症状なし : 軽症 2: 重症 ) 説明変数 x : 脂質異常スコア説明変数 x 2: 性 (0: 男 : 女 ) 説明変数 x 3: 年齢 ( 才 ) 全変数を選択した結果 標準 有意確率 変数偏回帰係数 標準誤差偏回帰係数偏相関係数 偏 F 値 p 値 -- 定数 0.6590 0.508394.68029 0.20235 x 0.35884 0.4233 0.32785 0.337 4.92557 0.03297* x 2-0.34666 0.22956-0.224943-0.232628 2.28847 0.382 x 3-0.00275 0.003962-0.058009-0.06922 0.04564 0.95297 -- 変数 偏回帰係数 95% 信頼区間幅 下限 上限 ------------------------------------------------------------ 定数 0.6590.0275-0.36849.6865 x 0.35884 0.287662 0.0282225 0.603546 x 2-0.34666 0.4634-0.80980 0.648 x 3-0.00275 0.0205-0.022243 0.098988 ------------------------------------------------------------ 重寄与率 ( 決定係数 )R^2=0.3984 自由度調整済重寄与率 ( 決定係数 )R'^2=0.0753285 重相関係数 R =0.373952 自由度調整済重相関係数 R' =0.27446 分散分析表 (ANOVA table) 要因 平方和 自由度 平均平方和 F 値 有意確率 p 値 - 回帰 3.6234 3.2077 2.6767 0.06887 残差 22.286 40 0.55749 - 全体 25.909 43 重回帰式 y=0.6590+ 0.35884 x 0.34666 x 2 0.00275 x 3 表 6.2 の No.3 の被験者 : 重症度 =( 軽症 ) 脂質異常スコア = 性 =0( 男 ) 年齢 =23 y=0.6590+ 0.35884 0.34666 0 0.00275 23=0.949308 この結果から この被験者の重症度は ( 軽症 ) に近いと予想できる 目的変数が順序尺度のデータの時は順序ロジスティック回帰分析を適用するよりも重回帰分析を適用した方が実用的 6-9