マイクロアレイを用いた 遺伝子発現解析 東京大学 大学院農学生命科学研究科アグリバイオインフォマティクス教育研究ユニット門田幸二 ( かどたこうじ ) 1
自己紹介 2002 年 3 月 東京大学 大学院農学生命科学研究科博士課程修了 学位論文 : cdn マイクロアレイを用いた遺伝子発現解析手法の開発 ( 指導教官 : 清水謙多郎教授 ) 2002/4/1~ 産総研 生命情報科学研究センター産総研特別研究員 2003/11/1~ 放医研 先端遺伝子発現研究センター研究員 2005/2/16~ 東京大学 大学院農学生命科学研究科特任助手 2007/4/1~ 現在 東京大学 大学院農学生命科学研究科特任助教 アグリバイオインフォマティクスプログラム 2
講義内容 マイクロアレイ解析の流れ ( 一色法と二色法 ) アレイデータの正規化 ( 前処理 ) 発現変動遺伝子 (DEG) の同定 二群間比較 評価基準 評価法 および (ffymetrx チップの ) ガイドライン 多サンプル間比較 組織特異的遺伝子 時系列データ 概日リズム関連遺伝子 薬剤応答遺伝子 3
講義内容 機能解析 (GSE 解析 ) クラスタリング 分類 (or 診断 ) 遺伝子ネットワーク解析 トランスクリプトームデータベース 他のトランスクリプトーム解析技術 4
様々な DN マイクロアレイ (DN チップ ) スポット型 (Stanford 大学 ) 搭載 DN:cDN( または olgonucleotde) 解析法 :2 色法 ( 比較したい 2 サンプルを同時に分析 ) プリント型 (glent 社 ) 搭載 DN:olgonucleotde(60mer) 解析法 : 2 色法または1 色法 合成オリゴ型 (ffymetrx 社 ) 搭載 DN:olgonucleotde(25mer) 解析法 : 1 色法 ( 調べたい 1 サンプルを分析 ) Stanford 型 ffymetrx 型 5
マイクロアレイ解析の流れ 1 目的の生物種 ( ヒト マウスなど ) のマイクロアレイを入手 ffymetrx 社が GeneChp という製品名で販売 遺伝子 1 ( 基本的に ) ゲノム配列が決定されている生物種のみ解析可能 遺伝子 4 同じ生物種 ( 例えばヒト ) でも 製品のバージョンによって 搭載されている遺伝子数 ( や種類 ) が異なる 搭載されていない遺伝子の発現量は不明 ( 解析不可能 ) 6
マイクロアレイ解析の流れ 2( 二色法 ) 目的試料中の遺伝子発現レベルを対照試料に対する比として得る 目的試料 対照試料 競合的ハイブリダイゼーション 目的試料中の遺伝子 1 の発現レベルは対照試料に比べて高い 目的試料中の遺伝子 4 の発現レベルは対照試料に比べて低い 7
マイクロアレイ解析の流れ 1( 一色法 ) 目的試料の遺伝子発現レベルをシグナル強度として得る 8
得られる遺伝子発現データのイメージ 二色法の場合 2 一色法の場合 目的試料中の遺伝子 4 の発現レベルは対照試料に比べて 2-2 倍高い 目的試料中で遺伝子 3 は沢山発現している 9
ffymetrx 製チップ解析戦略 25-mer 程度では 本当に目的遺伝子の発現を調べられているのか? 3Gbp(=3 10^9 bp) vs. 4^25 (=1 10^15 bp) 発現量を正確に定量できるのか? 5 3 25-mer 10
ffymetrx 製チップ解析戦略 遺伝子 の発現量 S を正確に知るために PM/MM プローブ戦略 ( ユニークな配列選択と最適 T m ) 5 3 5 CGTCTTGCTTCCGTGGGTCTCTG 3 CTTGCTTCCGTGGGTC Perfect match (PM,j ) プローブペア CTTGCTTCGGTGGGTC Msmatch (MM,j ) 25 mer 特異的なハイブリダイゼーションと非特異的なハイブリダイゼーションを区別すべく 目的遺伝子配列に対して PM と一塩基 MM がペアになっているのが特徴的 11
プローブセット ffymetrx 製チップ解析戦略 遺伝子 の発現量 S を n (n =11~20) 種類のプローブペアのシグナル強度をもとに計算 5 3 PM PM PM PM PM PM PM PM PM PM PM,1,2,3,4,5,6,7,8,9,10,11, MM, MM, MM, MM, MM, MM, MM, MM, MM,1, MM, MM,2,3,4,5,6,7,8,9,10,11 5 CGTCTTGCTTCCGTGGGTCTCTG 3 CTTGCTTCCGTGGGTC Perfect match (PM,j ) プローブペア CTTGCTTCGGTGGGTC Msmatch (MM,j ) 25 mer 遺伝子 の発現量 S ( summary score or expresson ndex ) 発現量 S を算出するための様々な前処理法が存在 12
ffymetrx 製チップ解析戦略 ( 様々な前処理法 ) MBEI (L and Wong, PNS, 98, 31-36, 2001) MS5 (Hubbell et al., Bonformatcs, 18, 1585-92, 2002) RM (Irzarry et al., Bostatstcs, 4, 249-64, 2003) GCRM (Wu et al., Tech. Rep., John Hopkns Unv., 2003) PDNN (Zhang et al., Nat. Botechnol., 21, 818-21, 2003) PLIER (ffymetrx, 2004) SuperNorm (Konsh, T., BMC Bonformatcs, 5, 5, 2004) mult-mgmos (Lu et al., Bonformatcs, 21, 3637-3644, 2005) GL (Zhou and Rocke, Bonformatcs, 21, 3983-3989, 2005) FRMS (Hochreter et al., Bonformatcs, 22, 943-949, 2006) DFW (Chen et al., Bonformatcs, 23, 321-327, 2007) Hook (Bnder et al., MB, 3, 11, 2008) 生データ ( PM, j, MM, ) j n.cel fles バックグラウンド補正 (wthn-array) 正規化 (crossarray) PM 値の補正 Summarzaton 発現量 S 13
14
アレイデータの正規化 ( 前処理 ) 実験によって得られた生のシグナル強度をそのまま利用することは普通はやりません 二色法 : 蛍光色素 (Cy3 and Cy5) の取り込み効率補正 一色法 : シグナルゲイン?! の補正 こうであるべき! という仮定を置いて それを満たすような正規化を行った後のデータを利用する 15
グローバル正規化 仮定 : 各サンプルから測定された mrn の全体量は一定 チップ上の遺伝子数が尐ない場合は非現実的だが 数千 ~ 数万種類の遺伝子が搭載されているので妥当 ( だろう ) nomalzaton 2008/7/16 16
Quantle 正規化 仮定 : 順位が同じならシグナル強度も同じ 正規化前 正規化後 列ごとにソート 行ごとの平均を算出 対応する行の要素の元の位置に平均値を代入 データセット中のサンプル数が変わると結果が変わる 17
比率 (Rato) log 2 (Cy5/Cy3) log 2 (Cy5/Cy3) Lowess(Locally weghted scatterplot smoothng) 正規化 仮定 :log 比の分布はシグナル強度非依存である R-I plot ( 生データ ) R-I plot (Lowess 正規化後 ) 2006/7/12 log 10 (Cy5 Cy3) 強度 (Intensty) log 10 (Cy5 Cy3) 18 18
正規化 遺伝子発現行列 二群間比較様々な組織 ( 条件 ) 時系列データ B B x 1, 1 x 1, 2 x 1, 2 x 1, 2 B B x 2, 1 x 2, 2 x 2, 2 x 2, 2 x 1,1 x 2,1 x 1,2 x 2,2 x 1,3 x 2,3 x 1,4 x 2,4 x 1,1 x 2,1 x 1,2 x 2,2 x 1,3 x 2,3 x 1,4 x 2,4 x, 1 B B x, 2 x, 2 x, 2 x,1 x,2 x,3 x,4 x,1 x,2 x,3 x,4 B B xn, 1 xn, 2 xn, 2 xn, 2 x n,1 x n,2 x n,3 x n,4 x n,1 x n,2 x n,3 x n,4 発現変動遺伝子の同定が可能な状態 19
二群間比較 例 1) 群 : 癌サンプル B 群 : 正常サンプル 癌と正常で発現の異なる遺伝子 B B x 1, 1 x 1, 2 x 1, 2 x 1, 2 B B x 2, 1 x 2, 2 x 2, 2 x 2, 2 B B x, 1 x, 2 x, 2 x, 2 B B xn, 1 xn, 2 xn, 2 xn, 2 20
Golub et al., Scence, 1999 二群間比較 例 2) 急性白血病 群 : リンパ性 (27 サンプル ) B 群 : 骨髄性 (11サンプル) 21
二群間比較 ( 解析手法 ) 倍率変化 (Fold change; FC) に基づくランキング法 2-fold, 3-fold (FC) The lmt fold change model (Mutch et al., BMC Bonformatcs, 2002) Rank product (RP; Bretlng et al., FEBS Lett., 2004) WD (Kadota et al., lgorthm. Mol. Bol., 2008) t- 統計量に基づくランキング法 a sgnal-to-nose statstc (Golub et al., Scence, 1999) Student s (or Welch) t-test SM (samt; Tusher et al., PNS, 2001) Samroc (Broberg, P., Genome Bol., 2003) a moderated t statstc (Smyth, GK., Stat. ppl. Genet. Mol. Bol., 2004) Intensty-based moderated t statstc (IBMT; Sartor et al., BMC Bonformatcs, 2006) Shrnkage t statstc (Opgen-Rhen and Strmmer, Stat. ppl. Genet. Mol. Bol., 2007) その他 Probablty of Postve LogRato (PPLR; Lu et al., Bonformatcs, 2006) FCPC (Qn et al., Bonformatcs, 2008) 22
参考資料 二群間比較 (t- 統計量に基づくランキング法 ) 二群間の平均の差が大きく 群内のばらつきが小さい 遺伝子 を抽出 a sgnal-to-nose(s2n) 統計量 R( ) U B U 二群間の平均の差 群内のばらつき B 群内のばらつき 対数変換 (log2 変換 ) 後のデータ B 標本平均 標本分散 不偏分散 j1 6.42 4.00 2.41 R(1) 5.64 0.08 0.35 0.43 6.34 3.38 2.96 R(2) 1.35 0.54 1.65 2.20 4.51 5.61 1.11 R(3) 1.26 0.81 0.07 0.88 S U 2 2 1 n n j1 1 n 1 n j 1 n ( j n 6, n 5, n n 統計量の絶対値が大きい 候補発現変動遺伝子 n B j1 n ( B j ) 2 ) 2 23
参考資料 二群間比較 (t- 統計量に基づくランキング法 ) t 検定 ( 等分散を仮定 ) の統計量 R( ) t 1 n 1 n B ( n 1) U 対数変換 (log2 変換 ) 後のデータ n B 2 ( n n 二群間の平均の差 B 2 1) U R(1) t R(2) t R(3) t 2.41 16.64 0.15 2.96 4.16 0.71 1.11 3.00 0.37 統計量の絶対値が大きい 候補発現変動遺伝子 B 2 B 1 2 3 検定統計量 t は 自由度 n +n B -2 の t 分布に従う ばらつき 24
参考資料 二群間比較 (t- 統計量に基づくランキング法 ) t 検定 ( 不等分散を仮定 ) の統計量 R( ) t U n 2 B U n 対数変換 (log2 変換 ) 後のデータ B B 2 二群間の平均の差ばらつき R(1) t R(2) t R(3) t ( U U 2 ) ( n ( U 1) 統計量の絶対値が大きい 候補発現変動遺伝子 1 2 3 検定統計量 t は 自由度 ν ( にゅー ) のt 分布に従う 2 0.81 / n 2 n 6.42 4.00 2 0.08 / 6 0.35 6.34 3.38 2 0.54 / 6 1.65 4.51 5.61 2 / 6 0.07 U 2 2 2 2 B nb / n 2 B 2 B ) 2 ( n 15.17 / 5 3.83 / 5 B 3.32 / 5 1) 25
多重検定問題 ある一つの遺伝子の発現データについて差があるかどうかを検定する という作業を全遺伝子について行う 帰無仮説 H 0 : 差がない 対立仮説 H 1 : 差がある 有意水準 ( 危険率 ;error rate)α を予め設定 Type-I error( 本当は発現に差がないのに差があるとしてしまう誤り ) を制御 これを N 回 (N 個の遺伝子について ) 繰り返すと 26
下手な鉄砲も数打ちゃ当たる N=100(α = 0.05) としてみると 一連の検定 ( 計 100 回 ) のどこかで第一種の誤り (Type-I error) をおかす確率 (famly-wse error rate; FWER) 1間違わない確率 (1 ) がN回続けて起こる確率 1 (1 ) N 1 (1 0.05) 100 0.994 一連の検定のどこかで間違って帰無仮説を棄却してしまう確率 ( 本当は 差がない のに 差がある としてしまう確率 ) はかなり大きい コントロールすべきは α ではなく FWER 27
False Dscovery Rate (FDR) を制御 検定によって帰無仮説が棄却された結果の数に占める Type- I error の割合 (FDR; q-value) を制御する という考え方 p-value (FPR) 本当は発現に 差がない にもかかわらず 差がある としてしまう確率 q-value (FDR) p p 発現に差が ある とされたもののうち 本当は発現に 差がない ものの割合 28
FDR 計算イメージ 1. 統計量を計算 R(1) t R(3) t 例 )t 統計量 ( 不等分散性を仮定 ;Welch 検定 ) 1 R(2) t 2 3 85.50 16.40 2 2 4.68 / 6 3.85 / 5 85.50 16.40 2 29.20 / 6 16.50 25.50 49.00 11.73 2 / 6 2.24 2 2 / 5 26.88 / 5 4.93 4.81 R( ) t U n 2 B U n B B 2 二群間の平均の差 ばらつき 統計量 1.0 を満たす遺伝子を 差がある とすると 5 個ある という意味 29
FDR 計算イメージ 1 回目 2. 並べ替え検定 (random permutaton test) の実行 偶然差があるとされる遺伝子数 を見積もる 2 回目 3 回目 30
参考資料 二群間比較 ( 倍率変化に基づくランキング法 ) log 比 :( 対数変換後のデータなので )t 検定系の数式の分子のみに相当 R ( ) log( FC) B 二群間の平均の差 対数変換 (log2 変換 ) 後のデータ R(1) 6.42 4.00 2.41 R(2) 6.34 3.38 2.96 R(3) 4.51 5.61 1.11 統計量の絶対値が大きい 候補発現変動遺伝子 31
Kadota K, Naka Y, Shmzu K, MB., 3:8, 2008 二群間比較 ( 倍率変化に基づくランキング法 ) WD:log 比を基本としつつ 全体的にシグナル強度の高い遺伝子が上位にくるように重みをかけた統計量 unlogged data log 2 -transformed data verage Dfference (D) 統計量 D xを (0~1) の範囲に規格化 x mn( x) w max( x) mn( x) 平均シグナル強度 B x / 2 B WD 統計量 WD 参考資料 D w D D gene6 B より (6 7) / 2 (1 2 2) / 3 4.83 x x gene6 B (6 7) / 2 (1 2 2) / 3 / 2 4.08 / 2より WD の一位 :gene4, D の一位 :gene6 w w x mn( x) より max( x) mn( x) 4.08 3.00 10.00 3.00 gene6 0.15 32
二群間比較 ( 倍率変化に基づくランキング法 ) Rank products (RP): 群 vs. B 群の総当たりの比を計算し その順位の相乗平均を統計量とする 入力データ 総当りの発現比を計算 Bretlng et al., FEBS Lett., 2004 (n n B ) = 9 通り 参考資料 n = 3 n B = 3 列ごとに Rank を計算した後 各行に対して相乗平均値 (RPs) を計算 33
実用化にむけた取り組み 国外 Mcrorray Qualty Control (MQC) プロジェクト (2005/2-2006/9) External RN Control (ERC) Consortum MQC-II (2006/9-2009/3) 国内 バイオチップコンソーシアム (JMC) 2007 年 10 月に設立 バイオ産業分野の業界団体 34
解決すべき課題 再現性は本当にあるのか? Group プラットフォーム間 ( メーカーの違い ) の結果 プラットフォーム内 ( 実験場所の違い ) どの解析手法がいいか? 前処理 ( 正規化 ) 法 :MS5, RM, MBEI, 発現変動遺伝子検出法 組織特異的遺伝子 :Dxon test, ROKU, 二群間比較 ( 癌 vs. 正常 ):t-test, SM, 重視すべき評価基準は? 感度 特異度 重視派 再現性(MQCプロジェクト提唱) 重視派 感度 特異度 と 再現性 は両立しない?! Group B の結果 なんじゃこりゃ!! どれがいいんだ?! 両立しないの?! 35
これまでの流れ マイクロアレイ再現性が低いぞ やべー これだけ再現性が低かったら臨床応用とかできるの? Mcrorray Qualty Control (MQC) プロジェクト (2005/2-) 2006 年秋ごろの Nature Botechnology 誌に一連の研究成果を発表 再現性が低いのは t- 統計量系の方法 (p 値を出すやつ ) を使っていたから しかもかなりキツメの p 値だったから t- 統計量系の方法は感度 特異度は高いかもしれんが 再現性がいまいちだな 倍率変化に基づく方法は再現性が非常に高いことが分かったよ どのメーカーのアレイを使っても 発現変動遺伝子を検出するという観点では実用に耐えうる t- 統計量系と倍率変化系の方法は感度 特異度と再現性の点においてトレードオフの関係にあるね よって 実際の利用として 緩めの p 値でカットオフしつつ倍率変化でのランキングすると再現性高く発現変動遺伝子を得られるのでは 36
評価の実際 例 :ffymetrx の二群間比較 ( 最もよく研究されている ) Gene Ontology 解析 ( 未知サンプルの ) 分類 モチーフ解析 パスウェイ解析 感度 特異度 既知の発現変動遺伝子をどれだけ上位にランキング可能か? 再現性 同じサンプルの比較結果 ( 発現変動遺伝子リスト ) が場所間でどれだけ一致しているか? 37
感度 特異度 を UC 値で評価 どの前処理法がいい?( 比較例 :MS5 vs. RM) 既知の発現変動遺伝子をどれだけ上位にランキング可能か?(UC 値の高さ ) MS5 の遺伝子発現行列 log 比 を計算 log 比 でランキング UC 値 =100% RM の遺伝子発現行列 UC 値 =83.3% 38
感度 特異度 を UC 値で評価 どのランキング法がいい?( 比較例 :t- 検定 vs. 倍率変化 ) 既知の発現変動遺伝子をどれだけ上位にランキング可能か?(UC 値の高さ ) 66.7% 83.3% rea Under the ROC Curve (ROC 曲線の下部面積 :UC) ROC 曲線が左上にあるほどよい方法 39
参考資料 ROC 曲線の求め方 40
参考資料 ROC 曲線の求め方 41
参考資料 ROC 曲線の求め方 全部発現変動遺伝子です!! 42
参考資料 ROC 曲線の求め方 ROC 曲線 UC = 0.83 43
参考資料 UC 値は R で簡単に計算できます ROC 曲線 UC = 0.83 44
MQC Consortum, Nat. Botechnol., 24:1151-1161, 2006 再現性 を一致度で評価 Mcrorray Qualty Control (MQC) プロジェクトで提唱 (0 POG 100%) POG 値が高い ランキング結果の頑健性 ( 再現性 ) が高い方法 MS5 WD MS5 WD 45
MQC Consortum, Nat. Botechnol., 24:1151-1161, 2006 POG between 九大 and 東大 再現性 を一致度で評価 Mcrorray Qualty Control (MQC) プロジェクトで提唱 (0 POG 100%) POG 値が高い ランキング結果の頑健性 ( 再現性 ) が高い方法 上位 x 個の集合 x = 10 100 1000 前処理法 :MS5, ランキング法 :WD 九大 東大 前処理法 :MS5, ランキング法 :samt 九大 東大 x 再現性 :WD > samt 46
Kadota K, Naka Y, Shmzu K, MB, 4: 7, 2009 再現性 解析結果 ( 前処理法 :FRMS) サンプル C 5 例 vs. サンプル D 5 例 Ste1 Ste4 Ste2 上位 100 個の集合 Ste5 Ste3 Ste4 Ste6 17% Ste1 Ste2 x Ste5 Ste6 Ste3 再現性 :WD > MQC 推奨法 (D) 47
Kadota K, Naka Y, Shmzu K, MB, 4: 7, 2009 結論 (ffymetrx データ ; 二群間比較 ) 感度 特異度 が高い方法 ( 組合せが重要である!) ( 発現変動遺伝子リストの ) 再現性 が高い方法 Fold Change に基づく方法 従来 :t- 統計量に基づく方法 ( 前処理法によらず )WD 従来 : verage Dfference (D) 法 MQC Consortum, Nat. Botechnol., 24:1151-1161, 2006 No Kadota s gudelnes, no good research! 48
参考資料 推奨ガイドラインの比較 感度 特異度 の高いランキング法 t- 検定系の方法 (P 値 ) 再現性 の高いランキング法 Fold Change(FC) 系の方法 (D 法 ) MQC MQC Consortum, Nat. Botechnol., 2006 Sh et al., BMC Bonformatcs., 2008 FC 系の方法 (WD or RP) FC 系の方法 (WD) 門田ら Kadota et al., MB., 2008 Kadota et al., MB., 2009 49
参考資料 感度 特異度 の高いランキング法 t- 検定系の方法 (MQC 推奨 ) FC 系の方法 ( 門田推奨 ) Fold Change (FC) 系 t 検定系 Fold Change (FC) 系 赤枠の中だけで評価すると t- 検定系がよい t 検定系 50
参考資料 再現性 の高いランキング法は FC 系 で一致 D(MQC 推奨 ) WD( 門田推奨 ) MQC の解析は : 用いた前処理法が PLIER のみ 比較したランキング法が D, samt, のみ C vs. D の比較結果に samt が含まれてない x x 門田らの解析は : 用いた前処理法は 9 種類 比較したランキング法は 8 種類 51
その他のメーカーではどの方法がいい? そもそも前処理法は ffymetrx 以外はほとんど開発されていない メーカーのデフォルト (or 推奨 ) の前処理法をやる以外にない ではランキング法はどれがいい? 一色法の場合 :( 手前味噌ながら )WD 二色法の場合 : わかりません WD の根拠は? ( おそらく )ffymetrx 以外のメーカーはチップごとの正規化法しかない ffymetrx のチップごとの正規化法は MS5 だけで MS5 と最も相性がよかったのは WD だから 52
遺伝子発現行列 二群間比較様々な組織 ( 条件 ) 時系列データ B B x 1, 1 x 1, 2 x 1, 2 x 1, 2 B B x 2, 1 x 2, 2 x 2, 2 x 2, 2 x 1,1 x 2,1 x 1,2 x 2,2 x 1,3 x 2,3 x 1,4 x 2,4 x 1,1 x 2,1 x 1,2 x 2,2 x 1,3 x 2,3 x 1,4 x 2,4 x, 1 B B x, 2 x, 2 x, 2 x,1 x,2 x,3 x,4 x,1 x,2 x,3 x,4 B B xn, 1 xn, 2 xn, 2 xn, 2 x n,1 x n,2 x n,3 x n,4 x n,1 x n,2 x n,3 x n,4 53
組織特異的遺伝子検出法 ランキングに基づく方法 Dxon test (Greller and Tobn, Genome Res., 9, 282-296, 1999) Pattern matchng(pavlds and Noble, Genome Bol., 2, research0042, 2001) Entropy (Schug et al., Genome Bol., 6, R33, 2005) Tssue specfcty Index (Yana et al., Bonformatcs, 21, 650-659, 2005) 外れ値検出に基づく方法 kake s Informaton Crteron (IC) (Kadota et al., Physol. Genomcs, 12, 251-259, 2003) Sprent s non-parametrc method (Ge et al., Genomcs, 86, 127-141, 2005) その他 Tukey-Kramer s Honest Sgnfcance Dfference (HSD) test (Lang et al., Physol. Genomcs, 26, 158-162, 2006) ROKU (Kadota et al., BMC Bonformatcs, 7, 294, 2006) 54
組織特異的遺伝子検出法 1 2 4 3 様々な前処理 ( 正規化 ) 法 様々な二群間での発現変動遺伝子検出法 重視すべき評価基準は? 感度 特異度 再現性 推奨ガイドライン 結論 : おすすめは ROKU 55
Dxon WJ, Bometrcs, 1953 参考資料 組織特異的遺伝子検出法 1Dxon test (0 D 1) x 一組織のみで高発現 ( 低発現 ) しているパターンを検出 一般化 x 1 x n1 xn 高発現の場合 : 低発現の場合 : D( x) D( x) xn x x x x x 2 n n x x n1 1 1 1 80 33 80 4 0.618 統計量 D の大きい遺伝子を抽出 56
Dxon WJ, Bometrcs, 1953 参考資料 組織特異的遺伝子検出法 1Dxon test の欠点 (0 D 1) 複数の外れ値が互いに外れ値をかばいあう効果 ( マスク効果 ) の影響を受ける 遺伝子 x 1 x n1 x n D( x ) xn x x x n n 1 1 0.6 遺伝子 a D( x a ) xn x x x n n 1 1 0.1 遺伝子 b D( x b ) xn x x x Dxon 統計量によるランキングでは複数外れ値に対応不可 n n 1 1 0.03 57
心臓 胃 大脳 心臓 胃 大脳 心臓 胃 大脳 組織特異的遺伝子検出法 やりたいこと 1 x 1,1 x 1,2 x 1,3 x 1,4 大脳 特異的高発現遺伝子 x 2,1 x 2,2 x 2,3 x 2,4 x,1 x,2 x,3 x,4 x n,1 x n,2 x n,3 x n,4 心臓と大脳 特異的高発現遺伝子 入力 : 遺伝子発現行列 出力 : 任意の組織特異的遺伝子 様々な特異的発現パターンを組織特異性の 度合いで統一的にランキングしたい 58
組織特異的遺伝子検出法 2 エントロピーによるランキング 遺伝子 x = (x 1, x 2,, x n ) のエントロピー H(x) H x ) p log ( p ), where p x H(x) のとりうる範囲 : 0 H(x) log 2 (n) n ( x 1 2 Schug et al., Genome Bol., 2005 H( x) 0 H( x) 1. 40 H( x) 1.45 H ( x) 3. 32 H( x) 3.32 log 2( n) エントロピーが低い 組織特異性が高いエントロピーが高い 組織特異性が低い エントロピーでランキングすることにより複数外れ値に対応可能 59
Schug et al., Genome Bol., 2005 2 エントロピー計算例 遺伝子 のエントロピー H(x ) H( x N ) 1 pj log 2( p 0 H log 2 N j j ) p j x j / N j 1 x j 0 H 2.32 特異的発現パターン 低いエントロピー そうでないパターン 高いエントロピー 60
Schug et al., Genome Bol., 2005 参考資料 組織特異的遺伝子検出法 2 エントロピーの短所 1. 組織特異的低発現パターンなどの検出が不可能 0 H(x) log 2 (n) 3.32 H( x) 3.29 H( x) 3. 23 H( x) 3. 22 2. 特異的組織の同定が不可能 上位にランキングされない H( x) 0 H( x) 0 H( x) 0 どの組織で特異的なのか分からない 61
Kadota et al., BMC Bonformatcs, 2006 参考資料 組織特異的遺伝子検出法 3ROKU 1. 遺伝子発現ベクトル x を変換 : x x by x = x T bw 0 H(x) log 2 (n) 3.32 H( x ) 1.48 H( x ) 1. 64 H( x ) 1. 74 2. IC に基づく外れ値検出法を採用 上位にランキングされる どの組織で特異的なのか分かる 62
組織特異的遺伝子検出法 4IC に基づく外れ値検出法 kake s Informaton Crteron (IC) 様々な外れ値の組み合わせモデルからICが最小の組み合わせ (MICE) を探索計算例 : log nn! IC nn log 2 no nn 入力 n n n n o n n o : Outler ( 外れ値 ) の数 : Non - outler の数 ˆ : 標準偏差 ( n) : サンプル数 出力 上田太一郎, 応用統計学, 1996 Kadota et al., Physol. Genomcs, 2003 低発現側の外れ値 :-1, 高発現の ~:1, それ以外 :0 63
参考資料 組織特異的遺伝子検出法 4IC に基づく外れ値検出法 様々な外れ値の組み合わせモデルから IC が最小の組み合わせ (MICE) を探索 様々な外れ値の組み合わせモデル最大探索範囲 Nmax = n/2 = 5 IC n n n n o n n n n o log ˆ : 標準偏差 2 n ( n) : サンプル数 : Outler ( 外れ値 ) の数 : Non - outler の数 o log n n n n! 64
参考資料 実データで比較 22,263 遺伝子 36 組織のデータ (Ge et al., Genomcs, 2005) 全体的な組織特異性の度合いで正しくランキングできるのは? 3 のほうが正しくランキング可能 65
2 目的組織特異性が高いのは? H x ) p log ( p ), where p n ( x x 1 2 参考資料 22,263 遺伝子 36 組織のデータ (Ge et al., Genomcs, 2005) Schug et al., Genome Bology, 2005 Kadota et al., BMC Bonformatcs, 2006 1) 遺伝子 x = (x 1, x 2,, x n ) の全体的な組織特異性度合いを表す統計量 3 1) 遺伝子 x を変換 (x = x T bw ) し 変換後のベクトル x のエントロピーを利用 H x) p log ( p ), where x n ( p 2 x 1 p p x 2) 組織 t における特異性度合いを表す統計量 Qt ( x) H( x) log 2( pt ) 全遺伝子について統計量を計算し 最低の統計量をもつものが最も t 組織特異的高発現遺伝子 入力 出力 2) IC に基づく外れ値検出法の適用 t 組織 t のみで 1 それ以外で 0 の遺伝子群を抽出 その中で最低の H(x) をもつものが最も t 組織特異的高発現遺伝子 66
2 目的組織特異性が高いのは? 3 参考資料 22,263 遺伝子 36 組織のデータ (Ge et al., Genomcs, 2005) Schug et al., Genome Bology, 2005 Kadota et al., BMC Bonformatcs, 2006 Lung 組織特異的遺伝子 ( 一位 ) Lung 組織特異的遺伝子 ( 一位 ) Fetal-lung 組織特異的遺伝子 ( 一位 ) Fetal-lung 組織特異的遺伝子 ( 一位 ) 目的組織以外でも特異的 : 目的組織のみで特異的 : 67
N genes 参考資料 組織特異的遺伝子検出法 パターンマッチング法 理想的なパターン y との類似度が高い順にランキング y 例 : 心臓特異的パターンを示す遺伝子群の検出 68
N genes 参考資料 組織特異的遺伝子検出法 パターンマッチング法 理想的なパターン y との類似度が高い順にランキング y 例 : 心臓特異的パターンを示す遺伝子群の検出 69
参考資料 IC とパターンマッチング法の比較 MICE 肺 1 肺 2 肺 3 従来法 : : : MICE 従来法 70
Yana et al., Bonformatcs, 21, 650-659, 2005 参考資料 組織特異的遺伝子検出法 Tssue specfcty ndex τ Yana et al., Bonformatcs, 21, 650-659, 2005 遺伝子発現行列 x = (x 1, x 2,, x n ) に対し n (1 p ) 1, where p x max( x) n 1 例 : x = (0, 8, 0, 0, 0, 2, 0, 2, 0, 0, 0, 0) p = (0, 1, 0, 0, 0, 0.25, 0, 0.25, 0, 0, 0, 0) τ= (1+0+1+1+1+0.75+1+0.75+1+1+1+1)/(12-1) = 0.95 τ(x) のとりうる範囲 : 0 τ 1 Housekeepng gene Tssue-specfc gene 統計量 τ の大きい遺伝子を抽出 71
Ge et al., Genomcs, 2005 参考資料 組織特異的遺伝子検出法 Sprent s non-parametrc method 遺伝子発現ベクトル x = (x 1, x 2,, x n ) に対して x < medan(x) - k MD(x) and x > medan(x) + k MD(x) を満たす x を外れ値とする k = 5 ( 原著論文 ) デフォルトの結果 k が変わると得られる結果が異なることには論文中では触れられていない 72
参考資料 T bw :Tukey s bweght algorthm x = (1, 3, 7, 9, 12, 30) の重みつき平均を求める mean = (1+3+7+9+12+30)/6=10.3 medan M= (7+9)/2=8 x 1 x 2 x 3 x 4 x 5 x 6 外れ値の影響をなるべく受けないようにしたい medan 近辺の数値 (7や9) には1に近い重み 遠く離れるほど重みを軽くしたい medan mean Tukey Bweght 73
参考資料 T bw :Tukey s bweght algorthm Medan bsolute Devaton (MD) の計算 ( 全体のバラツキを数値化 ) MD(x) = medan ( x 1 -M, x 2 -M, x 3 -M, x 4 -M, x 5 -M, x 6 -M ) = medan ( 1-8, 3-8, 7-8, 9-8, 12-8, 30-8 ) = medan (7, 5, 1, 1, 4, 22) = (4+5)/2= 4.5 標準化 ( Z-score 化 ) t t 1 2 x1 M x1 M x1 8 0.311 c MD 5 MD 0.0001 5 4.5 0.0001 0.222, t 0.044, t 0.044, t 0.178, t 0.978 3 4 5 6 medan 74
参考資料 T bw :Tukey s bweght algorthm 重み関数 (bsquare weght functon) 2 2 (1 t ),f t 1 w( t ) 0, else 重みつき平均 T b ( x, x 1 2,..., x n ) n 1 n w( t 1 w( t ) x ) 0.816( 0.311) 0.904( 0.222) 0.996( 0.044) 0.9960.044 0.9380.178 0.0020.978 0.816 0.904 0.996 0.996 0.938 0.002 6.62 medan mean Medan(=8) に近いので重みが 1 に近い Medan(=8) より非常に遠い (30) ので 重みが限りなく 0 に近い weghted mean 75
遺伝子発現行列 二群間比較様々な組織 ( 条件 ) 時系列データ B B x 1, 1 x 1, 2 x 1, 2 x 1, 2 B B x 2, 1 x 2, 2 x 2, 2 x 2, 2 x 1,1 x 2,1 x 1,2 x 2,2 x 1,3 x 2,3 x 1,4 x 2,4 x 1,1 x 2,1 x 1,2 x 2,2 x 1,3 x 2,3 x 1,4 x 2,4 x, 1 B B x, 2 x, 2 x, 2 x,1 x,2 x,3 x,4 x,1 x,2 x,3 x,4 B B xn, 1 xn, 2 xn, 2 xn, 2 x n,1 x n,2 x n,3 x n,4 x n,1 x n,2 x n,3 x n,4 76
n genes 時系列データ 経時変化 発現亢進 発現減弱 薬物投与後の発現変化モニタリング概日リズム関連遺伝子探索 ( 機能性食品の量 濃度 ) 77
様々な時系列データ解析手法 周期性解析 ( 概日リズム 細胞周期 ) Lomb-Scargle method (Glynn et al., Bonformatcs, 22, 310-316, 2006) C&G procedure (Chen J., BMC Bonformatcs, 6, 286, 2005) model-based method (Luan and L, Bonformatcs, 20, 332-339, 2004) GeneTS (Wchert et al., Bonformatcs, 20, 5-20, 2004) その他 D Camllo et al., BMC Bonformatcs, 8 (Suppl 1), S10, 2007. hnert et al., Bonformatcs, 22, 1471-1476, 2006. IC (Frgyes et al., BMC Bonformatcs, 7, 290, 2006.) masgpro (Conesa et al., Bonformatcs, 22, 1096-1102, 2006.) dynamc model-based clusterng (Wu et al., J. Bonform. Comput. Bol., 3, 821-836, 2005.) Step-down quadratc regresson (Lu et al., BMC Bonformatcs, 6, 106, 2005) 78
a genes 機能解析 (GSE 解析 ) この種の解析法の論文が出る前のメジャーな機能解析手段 例 : 二群間比較 1. 何らかの手段で発現変動の度合いでランキング 2. 上位 x 個を抽出し XXX( 例 : 酸化的リン酸化 ) 関連遺伝子群 (Gene Set: 遺伝子セット ) がどれだけ濃縮 (Enrchment) されているのかを解析 (nalyss) 3. 遺伝子セット (XXX に相当 ) をいろいろ変えて 二群間で発現変動している 群 B 群 遺伝子セットを探索 群 B 群 酸化的リン酸化関連遺伝子 ( チップ中に b 個 ) の位置 帰無仮説 : チップ中の全遺伝子数 (a) に対する酸化的リン酸化関連遺伝子数 (b) の割合 (b/a) と 酸化的リン酸化関連遺伝子数 (b) に対する上位 x 個の中に占める酸化的リン酸化関連遺伝子数 (c) の割合 (c/x) は等しい 79
a genes 機能解析 (GSE 解析 ) この種の解析法の論文が出る前のメジャーな機能解析手段の問題点 1 上位 x 個の x 次第で結果が変わる 群 B 群 群 B 群 酸化的リン酸化関連遺伝子 ( チップ中に b 個 ) の位置 80
a genes 機能解析 (GSE 解析 ) この種の解析法の論文が出る前のメジャーな機能解析手段の問題点 2 下図のように 全体としては XXX( 例 : 酸化的リン酸化 ) 関連遺伝子群が有意差があるといえるような場合でも 上位 x 個の中に一つも含まれないので有意差があるといえなくなる 現実の解析ではXXX( 例 : 酸化的リン酸化 ) 関連遺伝子群の重要性を見落とす 群 B 群 群 B 群 酸化的リン酸化関連遺伝子 ( チップ中に b 個 ) の位置 81
様々な機能解析手法 GSE (Subramanan et al., PNS, 2005) PGE (Km and Volsky, BMC Bonformatcs, 2005) GS (Efron and Tbshran, nn. ppl. Stat., 2007) GeneTral (Backes et al., NR, 2007) SM-GS (Dnu et al., BMC Bonformatcs, 2007) GSE-P (Subramanan et al., Bonformatcs, 2007) 82
Km and Volsky, BMC Bonformatcs, 2005 PGE 法の概略 Parametrc nalyss of Gene set Enrchment の略 1. 各遺伝子 について対数変換後のデータのverage Dfference (D ) を計算 D B ( 1,2,..., 2. D の平均 μ と標準偏差 σ を計算 3. 興味ある遺伝子セット ( 例 :=5,89, 684, 2543, に相当する計 m 個の遺伝子 ) のDの平均 S m を計算 5 89 684 2543 S m ( D D D D...) / m 4. Z スコアを計算 Z ( Sm ) m / Z スコアの絶対値が大きい遺伝子セットほど二群間でより発現変動している と解釈, n) 83
a genes (R で ) マイクロアレイ の PGE( 現状 ) 群 B 群 群 B 群 D >>0 酸化的リン酸化関連遺伝子の位置 β 酸化関連遺伝子の位置 Z スコアの絶対値が大きい遺伝子セットほど二群間でより発現変動している と解釈 D <<0 S m 0 S m >>0 Z 0 この遺伝子セットは二群間で変動してない Z >>0 この遺伝子セットは二群間で変動している 84
様々な機能解析手法 なぜ次々と提案されるのか? ns.1: 発現変動遺伝子のランキング法はいくらでもある PGE:verage Dfference (D) 倍率変化そのもの GSE:S2N 統計量など Rank products, WD, SM など ns.2: 興味ある遺伝子セットの偏り度合い ( 濃縮度 ) を見積もる方法はいくらでもある PGE:Z 検定 GSE:Kolmogorov-Smrnov 統計量の改良版 平均 % 順位, UC, t 検定など 85
機能解析手法を使えるのはごく一部の生物種 アノテーション情報が豊富な生物種は Gene Ontology やパスウェイの情報が豊富 多くの遺伝子セットを用意できる 機能解析手法を適用可能 それ以外の生物種は まずは様々な発現変動遺伝子をひたすら同定しまくるなどして地道にアノテーション情報を増やしていく以外にない ( のではないだろうか ) 86
クラスタリング ( 教師なし学習 ) サンプルの属性情報 ( 癌 or 正常など ) を使わずに 発現情報のみを用いて発現パターンの類似した遺伝子 ( またはサンプル ) をクラスター ( 群 ) にしていく手法 (Unsupervsed learnng 二群間比較多サンプル時系列解析 B B x 1, 1 x 1, 2 x 1, 2 x 1, 2 B B x 2, 1 x 2, 2 x 2, 2 x 2, 2 x 1,1 x 2,1 x 1,2 x 2,2 x 1,3 x 2,3 x 1,4 x 2,4 x 1,1 x 2,1 x 1,2 x 2,2 x 1,3 x 2,3 x 1,4 x 2,4 x, 1 B B x, 2 x, 2 x, 2 x,1 x,2 x,3 x,4 x,1 x,2 x,3 x,4 B B 2009/08/19 xn, 1 xn, 基礎生物学研究所 2 xn, 2 xn, 2 x n,1 x n,2 x n,3 x n,4 x n,1 x n,2 x n,3 x n,4 87 87
Esen et al., PNS, 1998 クラスタリング ( 教師なし学習 ) 例 1: 遺伝子間クラスタリング 似た機能をもつものは同じクラスターに属すことを確認 88
Bttner et al., Nature, 2000 クラスタリング ( 教師なし学習 ) 例 2: サンプル間クラスタリング 悪性度の高い癌のサブタイプを発見 89
クラスタリング ( 教師なし学習 ) 階層的クラスタリング 発現パターンの類似した遺伝子を集めて系統樹を作成 非階層的クラスタリング K-means クラスタリング K 個のクラスターに分割 (K の数は主観的に決定 ) する と予め指定し 各クラスター内の遺伝子 ( サンプル ) 間の距離の総和が最小になるような K 個のクラスターを作成 自己組織化マップ (SOM) 主成分分析 (PC) 90
距離 ( 類似度 ) の定義 遺伝子 (or サンプル )x と y の発現パターンの距離 D 1) 1 ( ) ( 1 1 ) ( 1 1 ) )( ( 1 1 1 2 1 2 1 xy xy y x y x r y n x n y x n r n n n 相関係数 1 0 1 r r r y x y x y x との発現パターンがほぼ正反対との発現パターンがばらばらとの発現パターンが酷似 2) (0 1 D r 距離 D 2 1) ( 1 1 1 0 1 0 0 1 1 1 D r D r D r 91
階層的クラスタリング 1. 遺伝子間距離を計算 例 :4 遺伝子の場合 距離 D 1 r (0 D 2) 相関係数 r 相関係数 r 相関係数 r... 1,2 1,3 1,4 0.98 0.01 0.78 距離 D 1,2 距離 D 距離 D 1 r 距離 D 2 1,3 1,4 (0 D 1) 1 0.98 0.01 2 1 ( 0.01) 0.50 2 1 ( 0.78) 0.89 2 92
階層的クラスタリング 2. 距離行列を作成 距離 D 距離 D 距離 D... 1,2 1,3 1,4 1 0.98 0.01 2 1 ( 0.01) 0.50 2 1 ( 0.78) 0.89 2 距離行列 1 2 3 4 イメージ 93
階層的クラスタリング 3. 樹形図を作成 距離行列 1 2 3 4 距離 D 1.0 0.5 0.0 D 3,4 二つのクラスター間の距離?! 0.32 94
階層的クラスタリング 3. 樹形図を作成 平均連結法の場合 1 2 3 4 1 2 3 4 D 1.0 0.5 0.0 ( D D D 4) / 4 1, 3 1, 4 2, 3 D2, (0.50 0.89 0.47 0.84) / 4 0.68 単連結法の場合 mn( D1, 3, D1, 4, D2, 3, D2, 4) 0.47 完全連結法の場合 max( D1, 3, D1, 4, D2, 3, D2, 4) 0.89 95
Naka et al., BBB, 2008 階層的クラスタリング例 肝臓 (LIV) 白色脂肪 (WT) 褐色脂肪 (BT) 最適なクラスター数 K は? K=2 K=3 K=5 K=2 222222221111111111111111 K=3 333333332222222211111111 K=4 K=5 4 4 4 4 4 4 4 4 3 3 3 3 3 3 3 3 2 2 2 2 1 1 1 1 5 5 5 5 5 5 5 5 4 4 4 4 3 3 3 3 2 2 2 2 1 1 1 1 96
Ben-Hur et al., PSB, 2002 最適なクラスター数を見積もる方法 様々な K について ( 例えば K=2) 全サンプル (n) のクラスタリング結果を K 個に分割した結果とサブサンプル ( 例えば n*0.7) のクラスタリング結果を K 個に分割した結果の類似度を計算 全サンプルの結果 1 回目 100 回の結果全て LIV とそれ以外を分割できた場合 2 2 2 2 2 2 2 2 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 2 回目 サブサンプリングデータでクラスタリング を例えば 100 回繰り返し 100 回目 97
Ben-Hur et al., PSB, 2002 最適なクラスター数を見積もる方法 K の値をいくつか試して ( 例では 2~9) 最適な K の値を同定 この場合は K=2, 3 が最適なクラスター数 98
分類 ( 教師あり学習 ) 未知サンプルを分類するための様々な方法 K-Nearest Neghbor (K-NN; K- 最近傍法 ) Support Vector Machne (SVM) Neural Network (NN) Naïve Bayesan (NB) Mult-Layer Perceptron (MLP; 多層パーセプトロン ) Weghted Votng (WV; 重みつき多数決法 ) Decson Tree etc 99
K-Nearest Neghbor (K-NN) 法 未知サンプル X からの距離がもっとも近い K 個のサンプルのうち 所属するクラスが最も多いクラスに分類 K=1 2 1 4 3 5 X B2 B1 B3 B5 B4 X は B 群だと分類 ( コシヒカリ ) K=3 2 1 4 3 5 X B2 B1 B3 B5 B4 X は 群だと分類 ( ササニシキ ) 100
参考資料 交差検証法 (Cross-valdaton) 手持ちのデータセットを利用して 用いた分類器 (K-NNなど ) とその中で用いたパラメータ (Kの数) 採用時の分類精度を評価する手段 Leave-one-out (take-one-sample-out or hold-one-out) approach 1. 手持ちのデータセット (nサンプル) の中から一つを ( 本当はクラス既知だが ) 未知のテストサンプルとしてデータセットから除く 2. 残りの (n-1) サンプルからなるデータセットから 分類に用いる遺伝子サブセット (predctor genes) を得る 3. Predctor genesの発現プロファイルを用いて テストサンプルを予測 4. 全サンプルに対して1-3を繰り返し 予測精度を見積もる Cross-fold approach 1. 各クラスから一定 ( 例えば 群からn /2 個 B 群からn B /2 個 ) サンプル数をテストセットとする 2. 残り (n/2) のサンプルからなるデータセットから 分類に用いる遺伝子サブセット (predctor genes) を得る 3. Predctor genesの発現プロファイルを用いて テストサンプルを予測 4. 指定回数 1-3を繰り返し 予測精度を見積もる 101
発現レベル 遺伝子の発現制御ネットワーク推定 時系列データ 遺伝子 D の発現を抑制し 他の遺伝子の挙動を観察 B C D D B t 0 t 1 t 2 t 3 t 4 ネットワーク推定 C 102
発現レベル 参考資料 遺伝子の発現制御ネットワーク推定 時系列データ 遺伝子発現行列の作成 例 ) t 0 に対する log 比などで表現 B C D t 0 t 1 t 2 t 3 t 4 103
参考資料 遺伝子の発現制御ネットワーク推定 時系列データ ( 基本的な ) 線形モデル法 で解いてみる 仮定 : 遺伝子 x k の時間 t における発現レベル x kt は 時間 t-1 における他のすべての遺伝子発現レベルの線形結合で表される x t k N t w x 1, k 1 w,k : x の発現レベルが x k の発現レベルに及ぼす影響を示す重み係数 104
( 基本的な ) 線形モデル法 で解く 行列で表すと以下のような感じになる 1 1 1 1,,,,,,,,,,,,,,,, t t t t D D D C B D D D C C C B C C D B C B B B B D C B t t t t D C B w w w w w w w w w w w w w w w w D C B 遺伝子発現行列 ( 時系列データ ) 目的 :4 2 個の未知の w,k を決める重み行列 相互作用行列 105 参考資料
( 基本的な ) 線形モデル法 で解く 計算結果 N t k t k x w x 1 1, 1 1 1 1,,,,,,,,,,,,,,,, t t t t D D D C B D D D C C C B C C D B C B B B B D C B t t t t D C B w w w w w w w w w w w w w w w w D C B 遺伝子発現行列 ( 時系列データ ) 遺伝子間相互作用行列 B C D 106 参考資料
( 基本的な ) 線形モデル法 で解く 目的 : 重み係数 w,k を解として得る 例 ) 遺伝子 の発現調節を支配している方程式を解く N t k t k x w x 1 1, 3, 3, 3, 3, 4 t D t C t B t t D w C w B w w 2, 2, 2, 2, 3 t D t C t B t t D w C w B w w 1, 1, 1, 1, 2 t D t C t B t t D w C w B w w 0, 0, 0, 0, 1 t D t C t B t t D w C w B w w 107 参考資料
参考資料 ( 基本的な ) 線形モデル法 で解く 目的 : 重み係数 w,k を解として得る 例 ) 遺伝子 の発現調節を支配している方程式を解く 1 w,, ( 1) wb, (0) wc, (1) wd ( 1) 1 w,, ( 1) wb, (0) wc, (0) wd ( 1) 1 w,, (0) wb, (0) wc, (0) wd ( 1) w C w w D, 0, 0, 1 0 w (0) wb, (0) wc, (0) wd,, (0) D は をプラスに制御 108
参考資料 問題点 例題の時系列データ 4 遺伝子 5 tme ponts ネットワークが解けた! 一般論 N 個の遺伝子間相互作用の可能性は N 2 通り存在する N 2 個の未知のパラメータ ( 重み係数 w,k ) を一意に求めるためには 最低でも N 2 個の線形独立な方程式が必要 ( 例題のように ) 時点数 > 遺伝子数であれば 109
問題点 次元の問題 ( 劣決定性の問題 ) 理想 : 遺伝子数 時点数 現実 : 遺伝子数 >> 時点数 例 : 数万遺伝子 ( せいぜい ) 数十時点 のデータ N 2 個あるパラメータを解くための方程式が足りない! ( 解が多数得られてしまう ) 時間解像度の問題 相互作用イベントの起こる順番を明確に分離できる時点間隔となっているか? t 1 t 2 t 3 110
遺伝子の発現制御ネットワーク推定 閾値検定モデル 発現量の変化から 2 遺伝子間の制御関係を推定 Bayesan モデル 実験データから作り出す条件付き確率分布から推定 Imoto et al., J. Bonform. Comput. Bol., 1, 231-252, 2003. S-system モデル 複数の遺伝子が関与する発現プロファイルの時系列データをもとに推定 Tomnaga et al., J. Bonform. Comput. Bol., 4, 503-514, 2006. 多階層有向グラフモデル 2 遺伝子間の関係から遺伝子のグループ化と制御関係を推定 111
トランスクリプトームデータベース 多くの遺伝子発現データは公共データベースに格納されている 112
GEO ID: GSM26978 トランスクリプトームデータベース 用途 検証 異なる解析手法で再解析 異なる視点で再解析 DN マイクロアレイ以外のデータも格納されている 例 )SGE データなど TTCGGTCG という配列が 5 回 sequence された 113
他のトランスクリプトーム解析技術 配列断片タグの sequence に基づく方法 Expressed Sequence Tags (ESTs) Seral nalyss of Gene Expresson (SGE) long SGE Massvely Parallel Sgnature Sequencng (MPSS) Cap nalyss Gene Expresson (CGE) PCR+ 電気泳動に基づく方法 mplfed Fragment Length Polymorphsm (FLP) Introduced FLP (FLP) Hgh-coverage expresson proflng (HCEP) Dfferental Dsplay (DD) 114
他のトランスクリプトーム解析技術 配列断片タグの sequence に基づく方法 沢山発現している遺伝子の配列断片はより多く sequence される sequence された回数がその遺伝子の発現レベルそのもの TTCGGTCG という配列が 5 回 sequence された 115
他のトランスクリプトーム解析技術 PCR+ 電気泳動に基づく方法 サンプル B 2 サンプル B 1 サンプル 2 サンプル 1 電気泳動の波形データ 460 bp の長さの遺伝子はサンプル でのみ発現している サンプル B 2 サンプル B 1 サンプル 2 バンドの濃淡をシグナル強度で表すと サンプル 1 配列断片長 (bp) 116
様々なトランスクリプトーム解析技術 特徴 ( 解析対象の広さ ) 目的生物種の DN マイクロアレイが用意されていないものは解析不可能 例 ) バクテリア 柿 桃などのマイクロアレイはない マイクロアレイがあったとしても 未知遺伝子の解析はできない ( アレイ上に搭載されていないため ) 117
他のトランスクリプトーム解析技術 特徴 ( アノテーション情報 ) 配列断片タグ ( ) 目的の配列情報は分かるが その遺伝子名などは Blast サーチなどを行う必要性あり 配列長が短いため 候補遺伝子群の中からの特定が難しい 118
サンプル サンプル B 他のトランスクリプトーム解析技術 特徴 ( アノテーション情報 ) PCR+ 電気泳動 ( ) 目的遺伝子の塩基配列情報を得る作業が ( 配列断片タグに比べて ) 余分に必要 バンドの切り出し 抽出 PCR 増幅 クローニング ( 塩基配列決定 ) 得られた塩基配列をもとに Blast サーチ 119
他のトランスクリプトーム解析技術 特徴 ( データ解析の簡便さ ) 配列断片タグ ( ) Sequence コストがかかるため それほど多くの sequence ができるわけではない 統計的なデータ解析が難しい 120
他のトランスクリプトーム解析技術 特徴 ( データ解析の簡便さ ) PCR+ 電気泳動 ( ) ピークアラインメント ( 同一遺伝子の認識 ) が難しい 121
他のトランスクリプトーム解析技術 改良に向けた取り組み : マイクロアレイ 短所 : マイクロアレイがあったとしても 未知遺伝子の解析はできない ( アレイ上に搭載されていないため ) タイリングアレイの開発により 未知遺伝子の発現も検出可能に タンパク質をコードする遺伝子 の解析から ゲノム全体 の発現解析へ 122
様々なトランスクリプトーム解析技術 タイリングアレイによる具体的な成果 ヒト 21,22 番染色体の解析により 従来よりはるかに多くの転写物が存在することを確認 (Kapranov et al., Scence, 2002) シロイヌナズナの解析により 既知の約 27,000 遺伝子領域以外に約 5,200 の領域で発現している新たな遺伝子構造を発見 (Toyoda et al., Plant J., 2005) 次期ヒトゲノム計画 (ENCODE 計画 ) でも採用され ゲノム中の大部分の塩基が タンパク質をコードしない転写産物や重複転写産物を含む 一次転写産物になることが示唆 (The ENCODE Project Consortum, Nature, 2007) 123
様々なトランスクリプトーム解析技術 改良に向けた取り組み : 配列断片タグ 短所 : Sequence コストがかかるため それほど多くの sequence ができるわけではない そのため 統計的なデータ解析が難しい 次世代シーケンサーの開発によりコストを大幅に削減可能に マイクロアレイ 配列断片タグ マイクロアレイ 配列断片タグ 現在 将来 124
次世代シーケンサー パンダ ( 大熊猫 ) ゲノム解読 (2008/10) ヒトゲノム解読に 10 年 半年 猫よりも犬 熊に近い動物 アジア人 ( 中国人 ) 一個体の全ゲノム配列決定 (2008/11/6, Nature) 36 倍のカバー率 個人ゲノムとしては J.D. Watson と J.C. Venter に次いで 3 人目 2010 年ごろ発売される予定のものは ヒトゲノムを 8 分程度で解読できるらしい (Levene et al. Scence, 2003) 国際プロジェクト 1000 人ゲノム計画 (1 人 1 人の遺伝情報の違いを詳細に調査 ) 国際癌ゲノムプロジェクト 感染症の同定 125
他のトランスクリプトーム解析技術 改良に向けた取り組み :PCR+ 電気泳動 短所 : ピークアラインメント ( 同一遺伝子の認識 ) が難しい バイオインフォマティクス手法の適用によるアラインメント精度の大幅な向上 実験技術の開発も重要だがバイオインフォマティクス ( 解析手法の開発 ) も重要 126
他のトランスクリプトーム解析技術 アラインメント精度の大幅な向上により 正確な遺伝子発現行列を作成可能になった Kadota et al., BMC Bonformatcs, 2005 Kadota et al., MB, 2007 遺伝子発現行列 B C D E F G H I J K L マイクロアレイ解析用に開発された手法が電気泳動波形データ解析にも利用可能 127
まとめ 様々なマイクロアレイ解析手法を紹介 二群 多群 時系列 クラスタリング 分類 ネットワーク マイクロアレイの位置づけ 長所 ( 解析が容易 ) 短所 ( 搭載されてない遺伝子など ) 他の解析技術によって得られたトランスクリプトームデータへの適用可能性 遺伝子発現行列さえできれば次世代シーケンサーも OK (R で ) マイクロアレイデータ解析 でお幸せに よりよい手法を よりお求めやすく 128