多 変 量 解 析 を 用 いた メタボロームデータ 解 析 Multivariate Analysis Approach for Metabolome Data Analysis 4.1 メタボロミクスにおける 多 変 量 解 析 の 役 割 メタボロミクスにおいて 多 変 量 解 析 はデータの 視 覚 化 または 回 帰 判 別 の 予 測 モデ ルの 構 築 のために 用 いられている 多 変 量 解 析 の 手 法 としてよく 知 られ またメタボロミク スで 比 較 的 よく 用 いられる 方 法 として 主 成 分 分 析 * (Principal Component Analysis, PCA) 50 または Partial least squares ** (PLS) 51 が 挙 げられる 主 成 分 分 析 と PLS の 違 いは その 計 算 に 群 情 報 を 用 いるか 否 かであり 前 者 は 教 師 なし 後 者 は 教 師 あり 次 元 削 減 法 *** として 区 別 さ れる 多 変 量 解 析 の 理 論 的 詳 細 については 様 々な 書 籍 ( 例 えば 文 献 52 ) に 説 明 されている ことから ここでは 省 略 する 本 章 では メタボロミクス 研 究 において 多 変 量 解 析 その 中 でも 特 に 主 成 分 分 析 と PLS がどのように 用 いられているか またその 結 果 をどのように して 生 物 学 的 な 解 釈 へと 繋 げていくか について 説 明 する 実 際 にメタボロミクス 研 究 で 主 成 分 分 析 がどのように 用 いられているかを 知 るために 次 のような 文 献 調 査 を 行 った PubMed で "Metabolomics principal component analysis をキーワードに 検 索 したところ 244 の 文 献 がヒットした (2010 年 8 月 10 日 現 在 ) その * メタボロームデータの 合 成 変 数 (= 主 成 分 スコア ) の 分 散 最 大 化 を 基 準 とした 教 師 なし 次 元 削 減 法 メタボロ ミクスだけでなく 様 々な 分 野 で 用 いられている ** 説 明 変 数 であるメタボロームデータの 合 成 変 数 と 目 的 変 数 の 合 成 変 数 の 共 分 散 最 大 化 を 基 準 とした 教 師 あ り 次 元 削 減 法 派 生 した 方 法 として PLS 回 帰, PLS-DA, OPLS 等 がある *** 多 変 量 解 析 を 用 いて 高 次 元 のデータを2もしくは3 次 元 で 表 現 する 方 法 一 般 を 特 に 機 械 学 習 のコミュニティ では 次 元 削 減 法 と 呼 ぶ 主 成 分 分 析 はデータだけを 用 いるので 教 師 なし 次 元 削 減 法 一 方 PLS は 教 師 データと して 群 情 報 を 用 いることから 教 師 あり 次 元 削 減 法 と 呼 ばれる 23
統 計 解 析 中 で Free Article である 52 の 論 文 に 対 して 多 変 量 解 析 の 適 用 法 を 整 理 した その 結 果 を 次 に 示 す まず メタボロームデータの 2 または 3 次 元 での 視 覚 化 表 現 である 主 成 分 スコアのプロッ トを 用 い そこから 外 れ 値 の 確 認 やサンプルの 集 合 であるクラスターを 主 観 的 に 判 断 する 53 54 57 58 61 63 75 81 83 87 さらに 主 成 分 スコアのプロットから 興 味 あるパターンに 対 応 する 主 成 分 軸 を 選 択 し その 主 成 分 軸 に 対 応 する 因 子 負 荷 量 から 特 定 の 物 質 に 着 目 することで その 後 の 生 物 学 的 な 解 釈 に 活 かしているもの 59 60 64 65 66 67 68 70 71 72 77 78 79 80 84 85 86 88 主 成 分 分 析 の 結 果 だ 55 56 62 65 69 73 74 けでなく PLS による 視 覚 化 と 因 子 負 荷 量 からの 結 果 の 解 釈 を 行 っているもの 76 79 80 82 84 回 帰 判 別 の 予 測 モデルの 構 築 を 主 な 目 的 としているもの その 他 に 分 けられる 以 上 を 整 理 すると 多 変 量 解 析 を 用 いてメタボロームデータを 2 もしくは 3 次 元 に 視 覚 化 した 後 因 子 負 荷 量 から 特 定 の 物 質 に 着 目 し さらなる 生 物 学 的 解 釈 へと 結 び 付 ける ま たその 数 は 少 ないものの メタボロームデータを 用 いた 回 帰 判 別 の 予 測 モデルの 構 築 を 狙 っ た 研 究 その 他 におおまかに 分 類 される そこで 本 稿 では 主 に 主 成 分 分 析 と 因 子 負 荷 量 から 生 物 学 的 な 解 釈 を 行 う 方 法 について 述 べる 回 帰 判 別 の 予 測 モデルの 構 築 については 本 稿 の 最 後 で 簡 単 に 説 明 する 4.2 主 成 分 分 析 の 結 果 の 見 方 : スコアプロットと 因 子 負 荷 量 前 節 で 説 明 したように 主 成 分 分 析 はメタボロミクス 研 究 において 2 もしくは 3 次 元 の 主 成 分 スコア ( 図 4.1( 左 )) を 観 察 し 興 味 ある 主 成 分 軸 に 関 与 する 代 謝 物 質 を 因 子 負 荷 量 ( 図 4.1( 右 )) から 探 し 出 し さらなる 生 物 学 的 解 釈 へと 結 び 付 けるために 用 いられる 因 子 負 荷 量 は 主 成 分 スコアと 各 物 質 の 相 関 係 数 で 定 義 される 89 90 91 92 93 ので 相 関 係 数 が 正 に 大 きいものは 対 応 する 主 成 分 スコアと 同 じような 傾 向 を 示 す 物 質 であり 負 に 大 きい ものは 主 成 分 スコアとは 逆 の 傾 向 を 示 す 物 質 となる 図 4.1 主 成 分 スコア ( 左 ) と, 第 一 主 成 分 の 因 子 負 荷 量 ( 右 ) の 結 果 例 24
因 子 負 荷 量 は 主 成 分 スコアと 各 物 質 のデータの 相 関 係 数 であるという 定 義 に 従 えば その 結 果 を 解 釈 することは 比 較 的 容 易 である しかし 一 方 で 前 節 でのメタボロミクス 研 究 における 主 成 分 分 析 の 適 用 を 調 査 した 一 連 の 論 文 においては 図 から 判 断 して 因 子 負 荷 量 の 絶 対 値 が 1 に 比 べかなり 小 さくなっている つまり 因 子 負 荷 量 が 先 述 の 定 義 である 主 成 分 スコアと 各 物 質 のデータの 相 関 係 数 とは 異 なっていることがわかる この 問 題 について 次 に 説 明 する まず 相 関 係 数 を 元 にした 因 子 負 荷 量 の 定 義 を 用 いれば 因 子 負 荷 量 はいくつかの 式 変 形 の 後 次 のように 書 ける 94 corr( z, x m p ) = λ w m m, p σ x p 式 (1) ここで corr(z m,x p ) は 第 m 主 成 分 スコア z m と 物 質 p のデータ x p の 相 関 係 数 であり 先 述 の 因 子 負 荷 量 の 定 義 そのものである λ m は 第 m 主 成 分 の 固 有 値 で 主 成 分 スコアの 分 散 で ある 全 主 成 分 に 対 する λ の 和 に 対 する λ m の 割 合 を 寄 与 率 と 呼 ぶ w m,p は 第 m 主 成 分 の 固 有 ベクトルの 物 質 p に 対 応 する 値 σ xp は 物 質 p のデータ x p の 標 準 偏 差 である 上 式 から 次 のことが 明 らかとなる まず データを 平 均 0 分 散 1 とする autoscaling を 行 った 場 合 上 式 の 分 母 σ xp は 1 となることから 因 子 負 荷 量 と 主 成 分 分 析 の 固 有 値 問 題 か ら 計 算 される 固 有 ベクトルは 比 例 する 前 節 で 挙 げた 一 連 の 論 文 中 では この 固 有 ベクトル が 因 子 負 荷 量 として 用 いられている 主 成 分 分 析 においては 固 有 ベクトルはその 長 さを 示 すノルムが 1 である 制 約 条 件 下 で 計 算 されていることから 一 般 的 に 式 (1)の 定 義 よりも 値 として 小 さくなる 式 (1) の 因 子 負 荷 量 の 定 義 に 従 うならば この 計 算 された 固 有 ベクト ルに 固 有 値 の 平 方 根 である 主 成 分 スコアの 分 散 を 掛 ける 必 要 がある 一 方 autoscaling が 行 われなかった 場 合 も 先 程 と 同 様 に 固 有 ベクトルそのものが 用 いられているようである この 場 合 固 有 ベクトルは 主 成 分 スコアと 各 物 質 の 相 関 係 数 とは 比 例 せず その 共 分 散 と 比 例 する cov( z, x m p ) = λ w m m, p 式 (2) 先 述 の 定 義 に 合 わせるならば 因 子 負 荷 量 を 求 めるためには 固 有 ベクトルに 固 有 値 の 平 方 根 を 掛 け さらに 物 質 p の 標 準 偏 差 σ xp で 割 る 必 要 がある 89 90 91 92 最 後 に 因 子 負 荷 量 の 言 葉 の 定 義 についてもう 一 度 整 理 する 先 述 の 書 籍 93 で は 因 子 負 荷 量 は 主 成 分 スコアと 各 物 質 のデータの 相 関 係 数 であると 定 義 し その 定 義 通 りの 因 子 負 荷 量 とは 別 に 主 成 分 分 析 の 固 有 値 問 題 の 解 である 固 有 ベクトルを 主 成 分 の 係 数 重 み もしくは 重 みベクトル 固 有 ベクトル という 表 現 で 用 いて いる また, 論 文 等 で 比 較 的 よく 引 用 される 主 成 分 分 析 の 書 籍 50 では, Some authors 25
統 計 解 析 distinguish between the terms loadings and coefficients, depending on the normalization constraint used, とある 因 子 負 荷 量 と 主 成 分 係 数 の 言 葉 の 違 いが, 標 準 化 つまり autoscaling に 依 存 することを 断 った 上 で 理 論 的 説 明 の 側 面 が 強 い 本 書 では それらを 同 一 に 扱 うと 説 明 している 以 上 のように 因 子 負 荷 量 は 応 用 上 有 用 な 指 標 である 一 方 で その 言 葉 の 定 義 が 曖 昧 で あり その 理 由 について 本 節 で 説 明 した 実 際 の 計 算 とその 結 果 の 解 釈 を 行 うに 際 しては ソフトウェアのマニュアルなどから 因 子 負 荷 量 の 定 義 をよく 確 認 しておく 必 要 があるだろ う 4.3 因 子 負 荷 量 の 統 計 的 仮 説 検 定 前 節 では データの 前 処 理 として autoscaling を 行 った 際 に 因 子 負 荷 量 が 主 成 分 スコア と 各 代 謝 物 レベルの 相 関 係 数 に 相 当 することを 説 明 した autoscaling を 行 わずに 主 成 分 分 析 を 行 うと 主 成 分 分 析 特 に 因 子 負 荷 量 が 相 対 値 の 大 きさに 影 響 され 極 端 に 少 数 の 代 謝 物 のみが 生 物 学 的 な 解 釈 の 対 象 となることから 偏 った 結 論 に 辿 り 着 く 可 能 性 がある 一 方 autoscaling を 行 った 場 合 は 全 ての 代 謝 物 を 平 均 0, 分 散 1 となるように 変 数 変 換 を 行 って いることから 相 対 値 の 大 きさの 影 響 を 受 けることはなく 以 下 で 説 明 するように 適 切 な 数 の 代 謝 物 を 統 計 的 仮 説 検 定 を 用 いて 選 択 出 来 るという 意 味 において 偏 りがなく 生 物 学 的 な 解 釈 を 行 う 上 ではこの 方 が 適 切 であると 考 えられる よって 以 降 では autoscaling によ る 前 処 理 を 前 提 とし 因 子 負 荷 量 の 仮 説 検 定 の 方 法 を 用 いた 有 意 な 代 謝 物 群 の 選 択 の 方 法 に ついて 説 明 する スケーリングの 検 討 に 関 しては 文 献 が 詳 しい 96 相 関 係 数 の 統 計 的 仮 説 検 定 は 相 関 係 数 r を 用 いた 統 計 量 r n 2 t = 2 1 r 式 (3) が 自 由 度 n-2 の t 分 布 に 従 うことを 利 用 する ここで n はサンプル 数 である 実 際 の 計 算 は Microsoft Excel 等 で 簡 単 に 計 算 することができる 実 際 の 手 順 は まず 主 成 分 スコア プロットから 興 味 あるパターンを 示 す 主 成 分 軸 を 見 つけ その 主 成 分 に 対 応 する 因 子 負 荷 量 を 計 算 する 因 子 負 荷 量 は 主 成 分 スコアと 各 代 謝 物 データの 相 関 係 数 から 計 算 するか 統 計 解 析 ソフトウェアから 固 有 値 と 固 有 ベクトルが 得 られている 場 合 には 式 (1)に 代 入 す ることで 相 関 係 数 に 変 換 する 得 られた 相 関 係 数 の 値 を 式 (3)に 代 入 して t 統 計 量 を 計 算 する この t 統 計 量 から 例 えば Microsoft Excel を 用 いる 場 合 には 関 数 tdist を 利 用 して p-value を 計 算 することが 出 来 る 最 後 に 多 重 検 定 を 考 慮 した p-value の 補 正 や q-value を 計 算 し これを 基 準 として 注 目 すべき 代 謝 物 群 を 選 択 する 次 節 では この 多 重 検 定 の 問 題 について 説 明 する 26
4.4 多 重 検 定 メタボロミクスに 限 らず オミクスデータの 統 計 的 仮 説 検 定 は 多 くの 項 目 について 検 定 を 行 う 多 重 検 定 となることから p-value の 補 正 97 もしくは False discovery rate (FDR) を 基 準 とした q-value 9899 を 用 いて 有 意 な 物 質 群 を 選 択 する 本 節 では メタボロームデータの 多 重 検 定 についてシミュレーションを 交 えて 説 明 する 多 重 検 定 の 問 題 を 説 明 するために 次 のようなシミュレーションを 設 定 する 2 群 で 各 群 のサンプル 数 がそれぞれ 10 代 謝 物 質 数 は 500 のデータセットを 用 意 する このデータセッ トは 全 ての 代 謝 物 質 で 群 間 の 平 均 に 差 が 無 い つまり 全 て 独 立 に 帰 無 仮 説 に 従 うとする このデータセットにウェルチの t 検 定 を 適 用 した 結 果 5% 有 意 水 準 以 下 で 有 意 となる 代 謝 物 質 は 20 得 られた つまり 全 く 差 が 無 い 代 謝 物 質 しか 含 まれないはずのデータセットに 20 もの 統 計 的 に 有 意 な 代 謝 物 質 が 得 られることになる この 多 重 検 定 の 問 題 を 避 けるために 有 意 水 準 を 5% より 引 き 下 げる もしくは p 値 の 補 正 を 行 うことがオミクスの 統 計 的 仮 説 検 定 の 適 用 ではよく 行 われている その 方 法 の 一 つ として ボンフェローニの 補 正 97 が 用 いられる ボンフェローニの 補 正 では 有 意 水 準 を 繰 り 返 した 検 定 の 数 つまり 代 謝 物 質 数 で 割 ることにより 補 正 する この 例 で 言 えば 有 意 水 準 を 0.05/500=0.0001 とすることに 相 当 する ボンフェローニの 補 正 を 行 った 場 合 有 意 となる 代 謝 物 質 数 は 0 個 となる 一 方 で q-value もしくは FDR が 用 いられることも 多 い 9899 q-value を 基 準 とした 方 法 は ボンフェローニの 補 正 の p-value よりも 検 出 力 が 高 い ことが 知 られている 100 q-value は R の q-value ライブラリ 101 で また FDR は 同 じ R の q-value ライブラリから 帰 無 仮 説 の 数 の 割 合 であるπ 0 の 推 定 量 が 計 算 出 来 るので 有 意 水 準 を 決 めれば 例 えば 文 献 101 にある FDR の 推 定 量 の 式 に 代 入 することで 簡 単 に 計 算 できる また 多 重 検 定 の 問 題 を 簡 単 に 確 認 するためには p 値 のヒストグラムを 描 けばよい 真 に 差 がある 代 謝 物 質 が 含 まれないデータセット 中 の p 値 の 分 布 は 図 4.2( 左 ) のようになりそ 図 4.2 p-value のヒストグラムの 例 27
統 計 解 析 の 分 布 は 一 様 分 布 になることが 知 られている 一 方 で 差 のある 代 謝 物 質 がいくつか 含 まれ たデータセットの p 値 は 図 4.2( 右 ) のようなヒストグラムになる 実 際 に 全 代 謝 物 に 対 して p-value を 計 算 し 図 4.2( 左 ) のようなヒストグラムが 得 られ た 場 合 には 統 計 的 に 有 意 な 物 質 が 得 られていないか 非 常 に 少 数 であることになる 一 方 で 図 4.2( 右 ) のようなヒストグラムが 得 られた 場 合 には 様 々な 物 質 で 表 現 型 の 違 いが 現 れており さらなる 生 物 学 的 な 考 察 を 行 う 価 値 があると 言 えるだろう 4.5 因 子 負 荷 量 と metabolite set enrichment analysis 3 節 では 因 子 負 荷 量 の 統 計 的 仮 説 検 定 の 方 法 4 節 では 多 重 検 定 の 問 題 について 説 明 した 次 に 因 子 負 荷 量 と 統 計 的 仮 説 検 定 を 基 準 として 得 られた 物 質 群 から 生 物 学 的 な 解 釈 を 行 いたい 生 物 学 者 によるメタボロームデータの 生 物 学 的 解 釈 を 見 ていると 例 えば 解 糖 系 が 活 性 化 されている や アミノ 酸 類 が 上 昇 している といった 表 現 が 用 いられている 因 子 負 荷 量 から 得 られた 代 謝 物 リストを これらの 表 現 に 変 換 するための 統 計 的 な 解 析 が 次 に 行 う 手 順 となる そのための 統 計 的 方 法 として metabolite set enrichment analysis(msea) がある 現 状 において MSEA の 基 礎 となっている 統 計 的 方 法 は 遺 伝 子 発 現 データで 一 般 的 に 広 く 用 いられている gene set enrichment analysis(gsea) 102 と 共 通 である GSEA の 方 法 と して 最 も 有 名 な 方 法 の 一 つとして スブラマニアンらによる 方 法 103 が 挙 げられる この 方 法 では 遺 伝 子 発 現 データと 群 情 報 などの 外 部 変 数 との 相 関 係 数 を 基 準 として 降 順 に 並 べ GO(Gene Ontology) を 基 準 とした 遺 伝 子 セットの 情 報 を 利 用 して 独 自 のスコアを 計 算 し p-value もしくは q-value を 計 算 している もう 一 つの 方 法 として over-representation analysis(ora) 104 がある ORA は スブラマニアンらの 方 法 と 同 様 に GO に 基 づいた 遺 伝 子 セットと 統 計 的 仮 説 検 定 等 によって 選 択 した 遺 伝 子 群 についての 2 2 のクロス 集 計 表 から 特 定 の 遺 伝 子 セットと 有 意 な 遺 伝 子 群 との 関 連 を 調 べる 方 法 である MSEA の 手 法 を 主 成 分 分 析 の 因 子 負 荷 量 に 適 用 する 手 順 は 単 純 である スブラマニアン の 方 法 では 各 代 謝 物 データと 主 成 分 スコアの 相 関 を 用 いればよく 因 子 負 荷 量 の 値 そのも のを 用 いればよい ORA については 因 子 負 荷 量 の 仮 説 検 定 の 結 果 から 代 謝 物 質 群 を 選 択 し 2 2 クロス 集 計 表 の 検 定 を 行 う 代 謝 物 質 セットの 分 類 は 我 々は KEGG 105 から 取 得 し 改 変 したものを 利 用 している MSEA の 実 際 の 計 算 としては 我 々はインハウスで 実 装 したものを 利 用 しているが オン ラインでフリーで 利 用 できるものとして MetaboAnalyst 106 や MBRole 107 などがある ま た Ingeuity pathway analysis(ipa) や Metacore 等 の 商 用 ソフトウェアにも 実 装 されている 実 際 に 実 装 されている 手 法 としては ORA が 多 いようである これは スブラマニアンら の 方 法 はサンプル 数 が 必 要 であるのに 対 して ORA では 少 数 のサンプル 数 でも 計 算 が 可 能 28
であることから 好 んで 使 われていると 思 われる 主 成 分 分 析 における 因 子 負 荷 量 の 統 計 的 仮 説 検 定 と MSEA の 利 用 により 各 代 謝 物 セッ トごとに 統 計 的 仮 説 検 定 が 行 えることを 説 明 した これにより 本 節 の 初 めに 述 べた 解 糖 系 が 活 性 化 されている や アミノ 酸 類 が 上 昇 している といった 表 現 が 統 計 的 に 行 える ことになる 実 際 に MSEA の 適 用 例 はまだほとんど 無 く 今 後 MSEA を 用 いた 研 究 が 様 々 報 告 されていくだろう 4.6 Partial least squares を 用 いたメタボロームデータ 解 析 ここまでは 主 成 分 分 析 を 用 いたメタボロームデータ 解 析 の 方 法 について 述 べてきた しかしながら 主 成 分 スコアに 興 味 あるクラスターを 発 見 できなかった 場 合 はどうすれば 良 いだろうか 本 節 では メタボロームデータそのものだけでなく 群 情 報 や 群 の 順 序 の 情 報 時 系 列 情 報 が 与 えられている 状 況 下 での この 問 題 に 対 する 一 つの 解 決 策 を 述 べる まず 最 も 単 純 な 例 として データに 加 えて 群 情 報 が 与 えられている 状 況 を 考 える 主 成 分 分 析 と PLS 51 の 結 果 を 図 4.3 に 示 す 用 いたデータは 30 サンプル 500 変 数 で その うち 大 部 分 の 480 変 数 がランダムな 変 数 残 りの 20 変 数 は 群 間 に 差 がある 変 数 の 合 成 デー タを 作 成 し autoscaling を 行 った 後 主 成 分 分 析 と PLS の 計 算 をそれぞれ 行 った 結 果 よ り 主 成 分 分 析 では 興 味 あるクラスターは 得 られなかったが PLS では 群 情 報 に 沿 ったクラ スターが 得 られている これより PLS の 第 一 軸 は 群 情 報 を 反 映 した 軸 である と 解 釈 できる 一 方 主 成 分 スコアのプロットで 興 味 あるクラスターが 得 られなかったというのもま た 1 つの 情 報 である この 場 合 第 一 主 成 分 の 寄 与 率 は 4.91% で 第 二 主 成 分 の 寄 与 率 は 4.90% であった 第 二 主 成 分 までの 累 積 寄 与 率 は 約 10% であり この 第 二 主 成 分 までの 累 積 寄 与 率 が 低 いという 事 実 は データに 含 まれる 代 謝 物 質 のパターンが 非 常 に 多 様 であるこ とを 示 唆 している ここで 用 いたデータセットは 多 くがランダム 変 数 であることを 考 えて 図 4.3 合 成 データに 対 する 主 成 分 スコア ( 左 ), PLS のスコア ( 右 ) 29
統 計 解 析 も 当 然 の 結 果 であると 言 える また 群 間 に 差 のあるパターンが 第 一 もしくは 第 二 主 成 分 に 現 れなかったことから 群 間 差 を 示 す 代 謝 物 質 が 少 数 であることもこの 結 果 から 想 像 がつ くであろう 次 に 群 情 報 に 加 えて 群 の 順 序 の 情 報 が 与 えられている 状 況 を 考 える 例 えば 疾 患 のス テージとして { 健 常, 早 期, 後 期 } や 官 能 評 価 での { おいしい, 普 通, まずい } といった 情 報 が 与 えられているとする 合 成 データを 用 いた 計 算 結 果 を 図 4.4 に 示 す 例 えば は 健 常 は 早 期 は 後 期 と 考 える 図 4.4( 左 ) は PLS の 結 果 を 示 しており 青 緑 赤 の 順 序 を 示 すパターンは スコアプロットには 現 れていない この 場 合 に 群 の 順 序 を 考 慮 した PLS-ROG 108 を 用 いると 図 4.4( 右 ) の 結 果 が 得 られ 第 一 軸 が 疾 患 のステー ジに 関 連 する 軸 であると 解 釈 できる さらに 因 子 負 荷 量 から 疾 患 のステージと 相 関 する 物 質 を 特 定 することも 出 来 る 実 際 に この 方 法 を 用 いて CE-MS を 用 いたワインのメタボローム 解 析 において 年 代 と 相 関 するスコアを 見 つけ 出 すことに 成 功 している 109 図 4.5 に 結 果 を 示 す 青 は 2000 水 +は 2001 緑 は 2004 黄 は 2005 桃 *は 2007 赤 は 2008 年 のワインのサン プルであり 左 は PLS 右 は PLS-ROG の 結 果 である 主 成 分 分 析 の 結 果 は PLS の 結 果 と 類 似 していたことから ここでは 省 略 する 主 成 分 分 析 または PLS では 第 一 軸 で {2000, 2001 年 } と {2004, 2005, 2007, 2008 年 } の 2 つのクラスターに 分 かれている この 違 いは ワインの 醗 酵 法 の 違 いに 依 存 している ことが その 後 の 考 察 で 明 らかとなった 109 また PLS-ROG の 結 果 ( 図 4.5( 右 )) は 第 一 軸 が 年 代 を 表 していることから 因 子 負 荷 量 から 年 代 と 相 関 する 物 質 を 特 定 し MSEA から さらなる 生 物 学 的 な 解 釈 を 行 うことが 可 能 となる ただし PLS の 因 子 負 荷 量 は 主 成 分 分 析 とは 量 的 な 意 味 が 異 なるので 注 意 が 必 要 である 110 その 他 醗 酵 プロセス 等 において サンプルに 時 系 列 の 情 報 が 付 加 情 報 として 与 えられ ている 場 合 に 適 した 主 成 分 分 析 も 提 案 されている 111 このように 従 来 の 多 変 量 解 析 を 用 図 4.4 合 成 データに 対 する 主 成 分 スコア ( 左 ), PLS-ROG のスコア ( 右 ) 30
図 4.5 ワインのデータに 対 する PLS のスコア ( 左 ), PLS-ROG のスコア ( 右 ) いて 興 味 のあるクラスターが 見 られなかった 場 合 でも 本 節 で 紹 介 したような 手 法 を 用 いれ ば 新 たな 結 果 が 得 られることが 期 待 される 4.7 予 測 モデル 構 築 メタボロミクスでは 多 変 量 解 析 を 予 測 モデルの 構 築 を 目 的 として 適 用 する 研 究 も 行 わ れている その 中 の 例 の 一 つとして 回 帰 分 析 を 用 いた 予 測 モデル 構 築 の 研 究 例 112113 を 紹 介 する 品 評 会 において 1 位 から 53 位 までランク 付 けされた 53 の 緑 茶 がある この 緑 茶 の 葉 を GC-MS を 用 いてメタボローム 解 析 を 行 い メタボロームデータのみから 緑 茶 の 味 の 評 価 値 を 予 測 するモデルを PLS 回 帰 または 正 準 相 関 分 析 *113 を 用 いて 構 築 した これにより 新 た な 緑 茶 の 味 の 評 価 を メタボロームデータから 予 測 することが 出 来 る この 他 にも ロジス 114 ティック 回 帰 を 用 いた 唾 液 サンプルのメタボロームデータからのがん 診 断 モデルの 構 築 など 様 々な 研 究 が 行 われている 回 帰 の 予 測 モデル 構 築 では ケモメトリクス **115 116 分 野 で 良 く 用 いられている PLS 回 帰 が 用 いられることが 多 い これは 前 節 で 説 明 した PLS 51 とは 理 論 的 に 異 なっている PLS 51 と PLS 回 帰 116 もしくは PLS-DA の 一 番 の 違 いは 後 者 はそのスコアが 直 交 であるとする 制 約 条 件 が 課 せられている 点 にある 特 に 回 帰 において 説 明 変 数 が 直 交 であることは 線 形 重 回 帰 分 析 での 予 測 性 能 の 低 下 もしくは 逆 行 列 の 計 算 において 数 値 計 算 の 不 安 定 を 引 き 起 こす 多 重 共 線 性 の 問 題 を 回 避 することが 出 来 る その 他 Orthogonal Projections to * 説 明 変 数 であるメタボロームデータの 合 成 変 数 と 目 的 変 数 の 合 成 変 数 の 相 関 係 数 最 大 化 を 基 準 とした 教 師 あり 次 元 削 減 法 p( 物 質 数 )>>n( サンプル 数 ) のオミクスデータに 適 用 する 際 は l 1 もしくは l 2 正 則 化 項 を 用 い た 正 則 化 正 準 相 関 分 析 が 用 いられる ** 化 学 分 析 データの 中 でも 特 に 近 赤 外 スペクトルデータに PLS 回 帰 を 初 めとする 多 変 量 解 析 の 方 法 を 用 いて 解 析 することに 積 極 的 な 研 究 分 野 31
統 計 解 析 Latent Structures(OPLS) 117 や 正 準 相 関 分 析 113 も 用 いられている これらの 主 な 利 点 は モ デルに 用 いるスコアの 数 が 少 なく PLS と 同 程 度 の 予 測 精 度 のモデルを 構 築 でき これによ り 因 子 負 荷 量 の 解 釈 がしやすい 点 にある 4.8 おわりに 従 来 の 多 変 量 解 析 特 に 主 成 分 分 析 の 利 用 法 では 主 成 分 スコアからサンプルがどのよう なパターンを 示 すのか また 外 れ 値 の 存 在 の 確 認 といった 程 度 にしか 使 われておらず 様 々 なメタボロミクスの 論 文 を 読 んでいる 中 で 生 物 学 的 な 解 釈 までは 大 きなギャップがあると 感 じていた その 理 由 の 一 つとして 因 子 負 荷 量 の 量 的 な 意 味 と その 利 用 方 法 が メタボ ロミクス 研 究 に 十 分 浸 透 していないのではないかと 考 えている そこで 本 章 では 特 に 因 子 負 荷 量 について 詳 細 に 説 明 し 多 変 量 解 析 の 結 果 から 生 物 学 的 な 解 釈 までの 一 連 の 流 れを 統 計 解 析 を 用 いて 行 う 方 法 を 紹 介 した 実 際 にメタボローム データをお 持 ちの 研 究 者 の 方 々やこれからメタボロミクスを 行 う 予 定 の 研 究 者 の 方 々には 本 章 を 参 考 に 統 計 解 析 を 行 っていただければ 幸 いである 32