1.1 多変量解析の目的 人間のデータは多変量データが多いので多変量解析が有用 特性概括評価特性概括評価 症 例 治 医 の 観 症 例 治 医 の 観 単変量解析 客観的規準のある要約多変量解析 要約値 客観的規準のない要約知識 直感 知識 直感 総合的評価 考察 総合的評価 考察 単変量解析の場合 多変量解析の場合 < 表 1.1 脂質異常症患者の TC と TG と重症度 > 症例 No. TC TG 重症度 1 220 100 0 2 230 150 1 3 240 150 2 4 240 250 1 5 250 200 3 6 260 150 3 7 260 250 2 8 260 290 1 9 270 250 4 10 280 290 4 1-1
多変量データまたは多特性データ お互いに関連のある多種類のデータ 人間は多くの機能が複雑に絡み合った有機システム 医学 薬学分野で用いられるデータは人間から得られるものが多い 本質的に多変量データまたは多特性データと考えられる 単変量解析 1 種類のデータ または原因も結果も 1 種類のデータを要約するための手法例 : 平均値の推定と検定 相関係数 回帰直線等 多変量解析 多変量データまたは多特性データを総合的に要約するための手法例 : 重回帰分析 判別分析 ロジスティック回帰分析等 < 多変量解析の特徴 > 多種類のデータを数学に基づいて総合的に要約するため 結果に主観が入りにくい 理論が複雑で理解しにくい 結果が複雑で解釈しにくい 信頼性の高い結果を得るためには例数が沢山必要 データの質を敏感に反映する GIGO( ガイゴウ ):garbage in garbage out( ゴミを入れればゴミが出る!) 多変量解析は単変量解析では得られないような素晴らしい結果を得るためのものではなく単変量解析で良い結果が得られている時にそれらの結果を客観的に要約するための手法 1-2
1.2 多変量データの要約と多変量解析 概括評価項目は多変量データをカンピュータで総合した要約値の一種 x 2 300 z 1 軸 225 TG 200 (250,200) z 1 25 0100 200 225 300-25 TC x z 1 3 z 3 軸図 1.1 TC と TG の散布図 概括評価項目 表 1.1 の重症度は 総コレステロール (TC) とトリグリセリド (TG) の持つ情報を主治医が要約して 概括評価したもので 平均値と同じような要約値の一種 < 概括評価項目の作り方 > (1) 各項目の平均値または合計 重症度相当の概括評価項目 TC+ TG 平均値 :z 1 = =0.5TC+ 0.5TG 2 図 1.1 で z 1 軸つまり 45 度の傾きを持つ直線 x 2 =x 1 に各プロットから垂線を下し 原点 からその点までの距離を 2 で割った値になる 例 : 表 1.1 の No.5 のデータ : z 1 = 250+ 200 =225= 2252 + 225 2 2 2 合計 : z 1 =TC+ TG=1TC+ 1TG 1-3
図 1.1 で z 1 軸つまり 45 度の傾きを持つ直線 x 2 =x 1 に各プロットから垂線を下し 原点 からその点までの距離に 2 を掛けた値になる 例 : 表 1.1 の No.5 のデータ : z 1 =250+ 200=450= 225 2 + 225 2 2 図 1.1 の z 1 軸と z 3 軸は目盛の間隔が x 1 軸や x 2 軸の 2 倍になる そこで z 1 の長さを 2 で割ると x 1 軸や x 2 軸と同じ単位になる したがって z 1 は本質的には平均値と考えることができる (2) 各項目の重み付け合計 項目の重要度を考慮した重症度相当の概括評価項目 z 2 =1TC+ 0.5TG 例 : 表 1.1 の No.5 のデータ :z 2 =250+0.5200=350 (3) 各項目の差または符号付き合計 タイプまたはプロフィールを表す概括評価項目 z 3 =TC TG=1TC+ ( 1)TG 図 1.1 で z 3 軸つまり -45 度の傾きを持つ直線 x 2 =-x 1 に各プロットから垂線を下し 原 点からその点までの距離に 2 を掛けた値になる 例 : 表 1.1 の No.5 のデータ : z 3 =250 200=50= 25 2 + 25 2 2 z 3 : 正で絶対値が大きい TC 型 (IIa 型 ) z 3 : 絶対値が小さい 中間型 (IIb 型 ) z 3 : 負で絶対値が大きい TG 型 (IV 型 ) 人間が判定した概括評価項目も 概括評価項目に相当する検査項目も 近似的に y=b 0 +b 1 x 1 + +b p x p という形式で表すことができる この係数 b 0 ~ b p を人間はカンピュータで決め 自然は科学法則によって決めている 多変量解析はこの係数 b 0 ~ b p を数学的に推測するための手法 1-4
1.3 多変量解析の分類 多変量解析は外的基準の有無によって 2 種類に大別できる 外的基準がある場合 多変量解析 予測 判別の問題 概括評価基準の分析 重回帰分析 判別分析 ロジスティック回帰分析等 医学 薬学分野向きの手法 外的基準がない場合 データの内部構造の分析 概括評価基準の設定 主成分分析 クラスター分析等 心理学 社会学分野向きの手法 内的基準 説明変数 ( 独立変数 )= 原因項目 表 1.1 の TC と TG 外的基準( 基準変数 ) 目的変数 ( 従属変数 )= 結果項目 表 1.1 の重症度 潜在変数 直接観測可能ではなく 色々なデータの変動パターンを通して間接的に推測される 変数 原因にも結果にもなる < 多変量解析手法の分類 > 手法名 目的変数説明変数潜在変数名義尺度計量尺度名義尺度計量尺度名義尺度計量尺度 重回帰分析 - 1 - 多数 - - 共分散分析 - 1 多数 多数 - - 分散分析 - 1 多数 - - - 数量化 I 類 - 1 多数 - - - 正準相関分析 - 多数 - 多数 - - 判別分析 1 - - 多数 - - ロジスティック回帰分析 1 - - 多数 - - 数量化 II 類 1 - 多数 - - - 生存時間解析 1 - - 多変 - - 主成分分析 - - - 多数 - - 因子分析 - 多数 - - - 多数 数量化 III 類 - - 多数 - - ( 多数 ) クラスター分析 - - - 多数 多数 - 数量化 IV 類 - - 多数 - 多数 - 1-5
クラスター分析 主成分分析 数量化 III 類 1 0 基準変数が 名義尺度の潜在変数 説明変数が名義尺度の時 基準変数がない時因子分析正準相関分析重回帰分析 説明変数が 潜在変数の時 説明変数が名義尺度の時 0 1 分散分析共分散分析数量化 I 類 数量化 III 類 基準変数が名義尺度の時 基準変数が名義尺度の時 判別分析ロジスティック回帰分析 0 1 基準変数も名義尺度の時 数量化 II 類 1 1 1 0 0 説明変数も名義尺度の時 0 図 1.2 各種多変量解析手法の関係 0 1 1-6