創 薬 データマイニングにおける 副 作 用 予 測 モデルの 提 案 江 谷 典 子 京 都 大 学 大 学 院 医 学 研 究 科 独 立 行 政 法 人 科 学 技 術 研 究 機 構 CREST 2014 年 11 月 18 日 2014/11/18 1
概 要 背 景 1.ビッグデータ 応 用 2. 副 作 用 の 少 ない 創 薬 課 題 1.ビッグデータを 有 益 に 活 用 するための 情 報 処 理 方 式 2. 創 薬 における 副 作 用 の 予 測 3. 効 能 が 高 く 副 作 用 の 少 ない 薬 の 発 見 4. 新 しい 薬 効 の 発 見 2014/11/18 2
背 景 1 ビッグデータ 応 用 ビッグデータを 有 益 に 活 用 するための 情 報 処 理 方 式 とは? 量 的 側 面 数 十 テラバイトから 数 ペタバイト 質 的 側 面 ビッグデータを 構 成 するデータの 出 所 が 多 様 データマイニング 大 規 模 なデータの 集 まりから, 価 値 があり 自 明 ではない 情 報 を 効 率 的 に 発 見 することである データの 集 合 体 に 対 して, 統 計 や 人 工 知 能 の 手 法 を 適 用 するため に,モデルを 作 成 することで,そのなかに 何 らかの 新 事 実 関 係 を 発 見 するというアプローチ. 2014/11/18 3
背 景 2 副 作 用 の 少 ない 創 薬 1.Drug Repositioning/Repurposing Drug 既 存 薬 の 作 用 から 新 規 の 薬 効 を 発 見 し, 別 の 疾 患 に 対 する 治 療 薬 と して 再 開 発 する 創 薬 2.ゲノム 創 薬 遺 伝 子 情 報 をベースに 病 気 との 関 連 性 を 解 析 し 論 理 的 かつ 科 学 的 に 新 な 医 薬 品 の 可 能 性 を 発 見 しようというアプローチ 3.オーダメイド 医 療 ( 個 別 化 医 療 ) 個 人 に 合 った 医 療 を 行 うこと ゲノムにも 個 性 が 存 在 し その 個 性 が 疾 患 感 受 性 病 態 治 療 への 反 応 性 そして 環 境 因 子 に よる 影 響 など に 深 く 関 連 していることが 明 らかになった 2014/11/18 4
関 連 研 究 Michael Kuhn, et al.: Sytematic identification of protein that elicit drug side effects, Molecular Systems Biology 9, Article number 244 663 (2013) タンパク 質 と 副 作 用 の 組 み 合 わせを 証 明. 臨 床 試 験 データの 副 作 用 1428 件 のうち, 個 々のタンパク 質 から732 件 の 副 作 用 を 予 測. 予 測 732 件 中,137 件 は 薬 理 学 的 データが 存 在 していることで 証 明 が できている. Yamanishi, Y., Pauwels, E., and Kotera, M.: Drug sideeffect prediction based on the integration of chemical and biological spaces, Journal of Chemical Information and Modeling, 52, No.12, pp.3284-3292 (2012) 化 合 物 の 構 造 とターゲットタンパク 質 の 情 報 から 潜 在 的 な 副 作 用 を 予 測 する 手 法 として,カーネル 回 帰 モデルを 提 案 した.969 件 の 認 可 されている 薬 の 副 作 用 を 予 測. 2014/11/18 5
創 薬 データマイニングの 課 題 1.ビッグデータを 有 益 に 活 用 するための 情 報 処 理 方 式 2. 創 薬 における 副 作 用 の 予 測 3. 効 能 が 高 く 副 作 用 の 少 ない 薬 の 発 見 4. 新 しい 薬 効 の 発 見 2014/11/18 6
課 題 1. 創 薬 における 副 作 用 の 予 測 予 測 のために 必 要 なデータ 群 の 選 択 2.ビッグデータを 有 益 に 活 用 するための 情 報 処 理 方 式 予 測 のための 統 計 や 人 工 知 能 の 手 法 2014/11/18 7
副 作 用 予 測 モデルの 構 築 薬 の 特 徴 生 物 学 的 特 徴 1 化 合 物 と 結 合 できるタンパク 質 臨 床 的 特 徴 1 効 能 2ATCコード 医 薬 品 の 分 類 コード 3 副 作 用 2014/11/18 8
ATCコード 解 剖 治 療 化 学 分 類 法 効 果 をもたらす 部 位 器 官 作 用 能 化 学 的 特 徴 により5つのグループで 構 成 第 1レベル 解 剖 学 的 部 位 に 基 づいた 分 類 (アルファベット1 文 字 ) A 消 化 管 および 代 謝 B 血 液,および 血 液 を 生 成 する 器 官 C 循 環 器 系 D 皮 膚 G 泌 尿 生 殖 器 系, 性 ホルモン H 全 身 性 のホルモン 調 節 剤, 性 ホルモンとインスリンを 除 く J 全 身 性 の 坑 感 染 症 薬 L 抗 悪 性 腫 瘍 薬, 免 疫 調 節 剤 M 筋 骨 格 系 N 神 経 系 P 駆 虫 性 薬 剤, 殺 虫 剤, 忌 避 剤 R 呼 吸 器 系 S 感 覚 器 系 V その 他 ( 診 断 薬, 一 般 栄 養 剤 など) 第 2レベル 治 療 法 メイングループによる 分 類 (2 個 の 数 字 ) 第 3レベル 第 4レベル 治 療 法 薬 学 サブグループによる 分 類 (1 個 のアルファベット) 化 学 治 療 法 薬 学 サブグループによる 分 類 (1 個 のアルファベット) 第 5レベル 化 学 構 造 サブグループによる 分 類 (2 個 の 数 字 ) [ 例 ] L01DB07 ミトキサントロン 第 1レベル L 抗 悪 性 腫 瘍 薬, 免 疫 調 節 剤 第 2レベル L01 抗 悪 性 腫 瘍 薬 第 3レベル L01D 細 胞 障 害 性 抗 生 物 質 と 関 連 物 質 第 4レベル L01DB アントラサイクリンと 関 連 物 質 2014/11/18 9
副 作 用 予 測 モデルの 構 築 データベース STITCH 4.0 SIDER 2 化 合 物 とタンパク 質 の 相 互 作 用 スコア 335 件 の 化 合 物 と 結 合 するタンパク 質 上 位 10 位 副 作 用 の 予 測 モデル 薬 の 副 作 用 副 作 用 発 症 率 薬 のATCコード 0.1% 以 上 の 発 症 率 を 示 す 薬 335 件 2014/11/18 10
副 作 用 予 測 モデルの 構 築 データ 分 析 発 症 する 副 作 用 A 消 化 管 および 代 謝 血 糖, 下 痢, 感 染, 嘔 吐, 疾 患 の 進 行 B 血 液,および 血 液 を 生 成 する 器 官 貧 血, 出 血, 膿 瘍, 体 液 過 剰 C 循 環 器 系 血 腫, 静 脈 炎, 頻 脈, 浮 腫, 肝 機 能 異 常 D 皮 膚 紅 斑, 皮 膚 剥 脱, 乾 燥 肌, 掻 痒 G 泌 尿 生 殖 器 系, 性 ホルモン 出 血, 消 化 器 疾 患, 血 管 性 浮 腫, 先 天 異 常, 塞 栓 症 H 全 身 性 のホルモン 調 節 剤, 性 ホルモンとインスリンを 除 く 下 痢, 鼻 炎, 腹 部 膨 満, 先 天 異 常, 胸 痛 J 全 身 性 の 坑 感 染 症 薬 タンパク 尿, 下 痢, 発 疹, 血 尿, 肝 炎, 無 顆 粒 球 症 L 抗 悪 性 腫 瘍 薬, 免 疫 調 節 剤 白 血 球 数 減 少,リンパ 球 減 少 症, 血 小 板 減 少 症 M 筋 骨 格 系 関 節 痛, 消 化 器 疾 患, 肝 機 能 異 常, 無 顆 粒 球 症, 筋 膜 炎 N 神 経 系 神 経 系 疾 患, 精 神 障 害, 運 動 障 害 P 駆 虫 性 薬 剤, 殺 虫 剤, 忌 避 剤 発 疹, 頭 痛 R 呼 吸 器 系 頻 脈, 不 整 脈, 低 血 圧, 咽 頭 炎 S 感 覚 器 系 苦 味, 角 膜 びらん, 角 膜 混 濁, 筋 膜 炎, 流 涙 増 加 V その 他 味 覚 障 害, 無 顆 粒 球 症, 健 忘, 過 敏 性,パニック 反 応 2014/11/18 11
副 作 用 予 測 モデルの 構 築 データ 分 析 (cont'd) データの 特 性 2014/11/18 12
副 作 用 予 測 モデルの 構 築 データ 分 析 (cont'd) データの 相 関 2014/11/18 13
補 足 ATCコード 第 1レベル~ 第 5レベル データの 相 関 2014/11/18 14
課 題 1. 創 薬 における 副 作 用 の 予 測 予 測 のために 必 要 なデータ 群 の 選 択 化 合 物 とターゲット 蛋 白 質 の 相 互 作 用 スコア( 結 合 度 ) ATCコード 第 1レベル 薬 による 副 作 用 の 発 症 率 薬 による 発 症 する 副 作 用 ( 分 類 ) 2.ビッグデータを 有 益 に 活 用 するための 情 報 処 理 方 式 予 測 のための 統 計 や 人 工 知 能 の 手 法 2014/11/18 15
副 作 用 発 症 率 の 予 測 モデル 処 理 手 順 1PLS 回 帰 分 析 説 明 変 数 : スコア ATCコード 目 的 変 数 : 発 症 率 2PLS 回 帰 式 より 予 測 値 を 算 出 する 3PLS 回 帰 式 を 用 いた 判 別 分 析 (PLS-DA) 予 測 値 の2 値 化 正 の 値 負 の 値 4SVMによる 学 習 と 予 測 2014/11/18 16
PLS 回 帰 式 副 作 用 発 症 率 の 予 測 モデル PLS 判 別 分 析 による2 値 化 予 測 値 y' = a 1 *SCORE + a 2 *ACT + b a 1 : 説 明 変 数 SCOREの 係 数 0.0001434418 a 2 : 説 明 変 数 ATC (ATCコード 第 1レベル)の 係 数 0.000006310492 b : 切 片 ( 定 数 ) 0.27 PLS 判 別 分 式 (PLS-DA) f(x) = y y' y : 観 測 値 PLS 判 別 分 式 (PLS-DA)を 用 いた 判 別 基 準 If f(x) 0 Then sgn[f(x)] = 1 If f(x) < 0 Then sgn[f(x)] = -1 2014/11/18 17
副 作 用 発 症 率 の 予 測 モデル PLS 判 別 分 析 による2 値 化 (cont'd) 分 類 41%- 100% 0.1%- 40% 判 別 結 果 41%- 100% 判 別 結 果 0.1%- 40% 正 答 率 (%) 67 0 100 0 316 100 合 計 67 316 100 2014/11/18 18
追 加 実 験 PLS 判 別 分 析 による2 値 化 による 分 割 分 割 区 分 正 答 率 (%) 分 割 区 分 正 答 率 (%) 41%-100% 100 0.1%-40% 100 33.7%-100% 100 0.1%-33.6% 99 19%-100% 100 0.1%-17% 99 6.9%-100% 100 0.1%-6.8% 100 1%-100% 100 0.1%-0.9% 100 結 論 0.1%-40% 区 分 をPLS 判 別 分 析 による2 値 化 により 分 割 が 可 能 2014/11/18 19
副 作 用 発 症 率 の 予 測 モデル SVMによる 予 測 データモデル 入 力 空 間 X = {(SCORE 1, ATC 1 ),, (SCORE n, ATC n )} 出 力 定 義 域 Y = {1, -1} 訓 練 データ S = ((x 1, y 1 ),, (x n, y n )) = (X*Y) n n:サンプルの 数,x n :いちサンプル, y n :サンプルのラベル クラス 分 類 の 定 義 f(x) = <w x> + b w: 重 み 付 けベクタ,b:バイアス SVMによる 分 類 基 準 If f(x) 0 Then sgn[f(x)] = 1 ( 正 例 ) If f(x) < 0 Then sgn[f(x)] = -1 ( 負 例 ) 2014/11/18 20
副 作 用 発 症 率 の 予 測 モデル SVMによる 予 測 (cont'd) 不 均 衡 データの 調 整 データ 区 分 訓 練 データ 評 価 データ 正 例 70 567 負 例 342 2760 正 例 クラス 重 み 付 け 係 数 = 評 価 データの 負 例 データ 数 / 訓 練 データの 正 例 データ 数 = 40 負 例 クラス 重 み 付 け 係 数 = 評 価 データの 正 例 データ 数 / 評 価 データの 負 例 データ 数 = 0.2 svm-train -c 1 -w1 40 -w-1 0.2 training.data 2014/11/18 21
評 価 正 答 率 訓 練 データ 負 例 クラス 41%-100% (%) 0.1%-40% (%) 平 均 (%) 重 み 付 け 係 数 0.19 100 65 83 0.2 100 67 84 0.21 100 67 84 評 価 データ 負 例 クラス 41%-100% (%) 0.1%-40% (%) 平 均 (%) 重 み 付 け 係 数 0.19 69 37 53 0.2 22 85 53.5 0.21 37 75 56 2014/11/18 22
追 加 実 験 PLS 判 別 分 析 による 分 割 のSVM 予 測 訓 練 データ 分 割 区 分 正 答 率 (%) 分 割 区 分 正 答 率 (%) 41%-100% 100 0.1%-40% 65 33.7%-100% 100 0.1%-33.6% 54 19%-100% 98 0.1%-17% 66 6.9%-100% 100 0.1%-6.8% 54 1%-100% 100 0.1%-0.9% 56 評 価 データ 分 割 区 分 正 答 率 (%) 分 割 区 分 正 答 率 (%) 41%-100% 69 0.1%-40% 37 33.7%-100% 51 0.1%-33.6% 71 19%-100% 73 0.1%-17% 30 6.9%-100% 84 0.1%-6.8% 19 1%-100% 88 0.1%-0.9% 14 2014/11/18 23
課 題 1. 創 薬 における 副 作 用 の 予 測 予 測 のために 必 要 なデータ 群 の 選 択 化 合 物 とターゲット 蛋 白 質 の 相 互 作 用 スコア( 結 合 度 ) ATCコード 第 1レベル 薬 による 副 作 用 の 発 症 率 薬 による 発 症 する 副 作 用 ( 分 類 ) 2.ビッグデータを 有 益 に 活 用 するための 情 報 処 理 方 式 予 測 のための 統 計 や 人 工 知 能 の 手 法 PLS 回 帰 式 を 用 いた 判 別 分 析 (PLS-DA)による 分 類 SVM(サポートベクターマシン)による 予 測 2014/11/18 24
まとめ 副 作 用 発 症 率 予 測 モデル PLS 回 帰 式 を 用 いた 判 別 分 析 (PLS-DA)による 分 類 41%-100% 0.1%-40% の2 値 化 正 答 率 100% SVM(サポートベクターマシン)による 予 測 41%-100% 訓 練 データ 正 答 率 100% 評 価 データ 正 答 率 69% 2014/11/18 25
今 後 の 研 究 内 容 1.ビッグデータを 有 益 に 活 用 するための 情 報 処 理 方 式 ( 続 く) 2. 創 薬 における 副 作 用 の 予 測 発 症 率 予 測 精 度 の 向 上 発 症 する 副 作 用 の 予 測 3. 効 能 が 高 く 副 作 用 の 少 ない 薬 の 発 見 4. 新 しい 薬 効 の 発 見 2014/11/18 26
病 因 遺 伝 子 を 用 いた 創 薬 における 副 作 用 予 測 の 検 討 病 因 遺 伝 子 を 用 いた 予 測 モデルの 構 築 疾 病 をひき 起 こす 原 因 の 遺 伝 子 STITCH SIDER 2 KEGG JSNP 病 因 遺 伝 子 副 作 用 の 予 測 モデル 発 症 する 副 作 用 副 作 用 の 発 症 率 2014/11/18 27
謝 辞 本 研 究 は, 独 立 行 政 法 人 科 学 技 術 振 興 機 構 CREST 科 学 的 発 見 社 会 的 課 題 解 決 に 向 けた 各 分 野 のビッグ データ 利 活 用 推 進 のための 次 世 代 アプリケーション 技 術 の 創 出 高 度 化 研 究 領 域 として 行 われた. 2014/11/18 28