機能ゲノム学（第6回）

マイクロアレイを用いた遺伝子発現解析東京大学大学院農学生命科学研究科アグリバイオインフォマティクス教育研究ユニット門田幸二 ( かどたこうじ ) 1

自己紹介 2002 年 3 月東京大学大学院農学生命科学研究科博士課程修了学位論文 : cdn マイクロアレイを用いた遺伝子発現解析手法の開発 ( 指導教官 : 清水謙多郎教授 ) 2002/4/1~ 産総研生命情報科学研究センター産総研特別研究員 2003/11/1~ 放医研先端遺伝子発現研究センター研究員 2005/2/16~ 東京大学大学院農学生命科学研究科特任助手 2007/4/1~ 現在東京大学大学院農学生命科学研究科特任助教アグリバイオインフォマティクスプログラム 2

講義内容マイクロアレイ解析の流れ ( 一色法と二色法 ) アレイデータの正規化 ( 前処理 ) 発現変動遺伝子 (DEG) の同定二群間比較評価基準評価法および (ffymetrx チップの ) ガイドライン多サンプル間比較組織特異的遺伝子時系列データ概日リズム関連遺伝子薬剤応答遺伝子 3

講義内容機能解析 (GSE 解析 ) クラスタリング分類 (or 診断 ) 遺伝子ネットワーク解析トランスクリプトームデータベース他のトランスクリプトーム解析技術 4

様々な DN マイクロアレイ (DN チップ ) スポット型 (Stanford 大学 ) 搭載 DN:cDN( または olgonucleotde) 解析法 :2 色法 ( 比較したい 2 サンプルを同時に分析 ) プリント型 (glent 社 ) 搭載 DN:olgonucleotde(60mer) 解析法 : 2 色法または1 色法合成オリゴ型 (ffymetrx 社 ) 搭載 DN:olgonucleotde(25mer) 解析法 : 1 色法 ( 調べたい 1 サンプルを分析 ) Stanford 型 ffymetrx 型 5

マイクロアレイ解析の流れ 1 目的の生物種 ( ヒトマウスなど ) のマイクロアレイを入手 ffymetrx 社が GeneChp という製品名で販売遺伝子 1 ( 基本的に ) ゲノム配列が決定されている生物種のみ解析可能遺伝子 4 同じ生物種 ( 例えばヒト ) でも製品のバージョンによって搭載されている遺伝子数 ( や種類 ) が異なる搭載されていない遺伝子の発現量は不明 ( 解析不可能 ) 6

マイクロアレイ解析の流れ 2( 二色法 ) 目的試料中の遺伝子発現レベルを対照試料に対する比として得る目的試料対照試料競合的ハイブリダイゼーション目的試料中の遺伝子 1 の発現レベルは対照試料に比べて高い目的試料中の遺伝子 4 の発現レベルは対照試料に比べて低い 7

マイクロアレイ解析の流れ 1( 一色法 ) 目的試料の遺伝子発現レベルをシグナル強度として得る 8

得られる遺伝子発現データのイメージ二色法の場合 2 一色法の場合目的試料中の遺伝子 4 の発現レベルは対照試料に比べて 2-2 倍高い目的試料中で遺伝子 3 は沢山発現している 9

ffymetrx 製チップ解析戦略 25-mer 程度では本当に目的遺伝子の発現を調べられているのか? 3Gbp(=3 10^9 bp) vs. 4^25 (=1 10^15 bp) 発現量を正確に定量できるのか? 5 3 25-mer 10

ffymetrx 製チップ解析戦略遺伝子の発現量 S を正確に知るために PM/MM プローブ戦略 ( ユニークな配列選択と最適 T m ) 5 3 5 CGTCTTGCTTCCGTGGGTCTCTG 3 CTTGCTTCCGTGGGTC Perfect match (PM,j ) プローブペア CTTGCTTCGGTGGGTC Msmatch (MM,j ) 25 mer 特異的なハイブリダイゼーションと非特異的なハイブリダイゼーションを区別すべく目的遺伝子配列に対して PM と一塩基 MM がペアになっているのが特徴的 11

プローブセット ffymetrx 製チップ解析戦略遺伝子の発現量 S を n (n =11~20) 種類のプローブペアのシグナル強度をもとに計算 5 3 PM PM PM PM PM PM PM PM PM PM PM,1,2,3,4,5,6,7,8,9,10,11, MM, MM, MM, MM, MM, MM, MM, MM, MM,1, MM, MM,2,3,4,5,6,7,8,9,10,11 5 CGTCTTGCTTCCGTGGGTCTCTG 3 CTTGCTTCCGTGGGTC Perfect match (PM,j ) プローブペア CTTGCTTCGGTGGGTC Msmatch (MM,j ) 25 mer 遺伝子の発現量 S ( summary score or expresson ndex ) 発現量 S を算出するための様々な前処理法が存在 12

ffymetrx 製チップ解析戦略 ( 様々な前処理法 ) MBEI (L and Wong, PNS, 98, 31-36, 2001) MS5 (Hubbell et al., Bonformatcs, 18, 1585-92, 2002) RM (Irzarry et al., Bostatstcs, 4, 249-64, 2003) GCRM (Wu et al., Tech. Rep., John Hopkns Unv., 2003) PDNN (Zhang et al., Nat. Botechnol., 21, 818-21, 2003) PLIER (ffymetrx, 2004) SuperNorm (Konsh, T., BMC Bonformatcs, 5, 5, 2004) mult-mgmos (Lu et al., Bonformatcs, 21, 3637-3644, 2005) GL (Zhou and Rocke, Bonformatcs, 21, 3983-3989, 2005) FRMS (Hochreter et al., Bonformatcs, 22, 943-949, 2006) DFW (Chen et al., Bonformatcs, 23, 321-327, 2007) Hook (Bnder et al., MB, 3, 11, 2008) 生データ ( PM, j, MM, ) j n.cel fles バックグラウンド補正 (wthn-array) 正規化 (crossarray) PM 値の補正 Summarzaton 発現量 S 13

アレイデータの正規化 ( 前処理 ) 実験によって得られた生のシグナル強度をそのまま利用することは普通はやりません二色法 : 蛍光色素 (Cy3 and Cy5) の取り込み効率補正一色法 : シグナルゲイン?! の補正こうであるべき! という仮定を置いてそれを満たすような正規化を行った後のデータを利用する 15

グローバル正規化仮定 : 各サンプルから測定された mrn の全体量は一定チップ上の遺伝子数が尐ない場合は非現実的だが数千 ~ 数万種類の遺伝子が搭載されているので妥当 ( だろう ) nomalzaton 2008/7/16 16

Quantle 正規化仮定 : 順位が同じならシグナル強度も同じ正規化前正規化後列ごとにソート行ごとの平均を算出対応する行の要素の元の位置に平均値を代入データセット中のサンプル数が変わると結果が変わる 17

比率 (Rato) log 2 (Cy5/Cy3) log 2 (Cy5/Cy3) Lowess(Locally weghted scatterplot smoothng) 正規化仮定 :log 比の分布はシグナル強度非依存である R-I plot ( 生データ ) R-I plot (Lowess 正規化後 ) 2006/7/12 log 10 (Cy5 Cy3) 強度 (Intensty) log 10 (Cy5 Cy3) 18 18

正規化遺伝子発現行列二群間比較様々な組織 ( 条件 ) 時系列データ B B x 1, 1 x 1, 2 x 1, 2 x 1, 2 B B x 2, 1 x 2, 2 x 2, 2 x 2, 2 x 1,1 x 2,1 x 1,2 x 2,2 x 1,3 x 2,3 x 1,4 x 2,4 x 1,1 x 2,1 x 1,2 x 2,2 x 1,3 x 2,3 x 1,4 x 2,4 x, 1 B B x, 2 x, 2 x, 2 x,1 x,2 x,3 x,4 x,1 x,2 x,3 x,4 B B xn, 1 xn, 2 xn, 2 xn, 2 x n,1 x n,2 x n,3 x n,4 x n,1 x n,2 x n,3 x n,4 発現変動遺伝子の同定が可能な状態 19

二群間比較例 1) 群 : 癌サンプル B 群 : 正常サンプル癌と正常で発現の異なる遺伝子 B B x 1, 1 x 1, 2 x 1, 2 x 1, 2 B B x 2, 1 x 2, 2 x 2, 2 x 2, 2 B B x, 1 x, 2 x, 2 x, 2 B B xn, 1 xn, 2 xn, 2 xn, 2 20

Golub et al., Scence, 1999 二群間比較例 2) 急性白血病群 : リンパ性 (27 サンプル ) B 群 : 骨髄性 (11サンプル) 21

二群間比較 ( 解析手法 ) 倍率変化 (Fold change; FC) に基づくランキング法 2-fold, 3-fold (FC) The lmt fold change model (Mutch et al., BMC Bonformatcs, 2002) Rank product (RP; Bretlng et al., FEBS Lett., 2004) WD (Kadota et al., lgorthm. Mol. Bol., 2008) t- 統計量に基づくランキング法 a sgnal-to-nose statstc (Golub et al., Scence, 1999) Student s (or Welch) t-test SM (samt; Tusher et al., PNS, 2001) Samroc (Broberg, P., Genome Bol., 2003) a moderated t statstc (Smyth, GK., Stat. ppl. Genet. Mol. Bol., 2004) Intensty-based moderated t statstc (IBMT; Sartor et al., BMC Bonformatcs, 2006) Shrnkage t statstc (Opgen-Rhen and Strmmer, Stat. ppl. Genet. Mol. Bol., 2007) その他 Probablty of Postve LogRato (PPLR; Lu et al., Bonformatcs, 2006) FCPC (Qn et al., Bonformatcs, 2008) 22

参考資料二群間比較 (t- 統計量に基づくランキング法 ) 二群間の平均の差が大きく群内のばらつきが小さい遺伝子を抽出 a sgnal-to-nose(s2n) 統計量 R( ) U B U 二群間の平均の差群内のばらつき B 群内のばらつき対数変換 (log2 変換 ) 後のデータ B 標本平均標本分散不偏分散 j1 6.42 4.00 2.41 R(1) 5.64 0.08 0.35 0.43 6.34 3.38 2.96 R(2) 1.35 0.54 1.65 2.20 4.51 5.61 1.11 R(3) 1.26 0.81 0.07 0.88 S U 2 2 1 n n j1 1 n 1 n j 1 n ( j n 6, n 5, n n 統計量の絶対値が大きい候補発現変動遺伝子 n B j1 n ( B j ) 2 ) 2 23

参考資料二群間比較 (t- 統計量に基づくランキング法 ) t 検定 ( 等分散を仮定 ) の統計量 R( ) t 1 n 1 n B ( n 1) U 対数変換 (log2 変換 ) 後のデータ n B 2 ( n n 二群間の平均の差 B 2 1) U R(1) t R(2) t R(3) t 2.41 16.64 0.15 2.96 4.16 0.71 1.11 3.00 0.37 統計量の絶対値が大きい候補発現変動遺伝子 B 2 B 1 2 3 検定統計量 t は自由度 n +n B -2 の t 分布に従うばらつき 24

参考資料二群間比較 (t- 統計量に基づくランキング法 ) t 検定 ( 不等分散を仮定 ) の統計量 R( ) t U n 2 B U n 対数変換 (log2 変換 ) 後のデータ B B 2 二群間の平均の差ばらつき R(1) t R(2) t R(3) t ( U U 2 ) ( n ( U 1) 統計量の絶対値が大きい候補発現変動遺伝子 1 2 3 検定統計量 t は自由度 ν ( にゅー ) のt 分布に従う 2 0.81 / n 2 n 6.42 4.00 2 0.08 / 6 0.35 6.34 3.38 2 0.54 / 6 1.65 4.51 5.61 2 / 6 0.07 U 2 2 2 2 B nb / n 2 B 2 B ) 2 ( n 15.17 / 5 3.83 / 5 B 3.32 / 5 1) 25

多重検定問題ある一つの遺伝子の発現データについて差があるかどうかを検定するという作業を全遺伝子について行う帰無仮説 H 0 : 差がない対立仮説 H 1 : 差がある有意水準 ( 危険率 ;error rate)α を予め設定 Type-I error( 本当は発現に差がないのに差があるとしてしまう誤り ) を制御これを N 回 (N 個の遺伝子について ) 繰り返すと 26

下手な鉄砲も数打ちゃ当たる N=100(α = 0.05) としてみると一連の検定 ( 計 100 回 ) のどこかで第一種の誤り (Type-I error) をおかす確率 (famly-wse error rate; FWER) 1間違わない確率 (1 ) がN回続けて起こる確率 1 (1 ) N 1 (1 0.05) 100 0.994 一連の検定のどこかで間違って帰無仮説を棄却してしまう確率 ( 本当は差がないのに差があるとしてしまう確率 ) はかなり大きいコントロールすべきは α ではなく FWER 27

False Dscovery Rate (FDR) を制御検定によって帰無仮説が棄却された結果の数に占める Type- I error の割合 (FDR; q-value) を制御するという考え方 p-value (FPR) 本当は発現に差がないにもかかわらず差があるとしてしまう確率 q-value (FDR) p p 発現に差があるとされたもののうち本当は発現に差がないものの割合 28

FDR 計算イメージ 1. 統計量を計算 R(1) t R(3) t 例 )t 統計量 ( 不等分散性を仮定 ;Welch 検定 ) 1 R(2) t 2 3 85.50 16.40 2 2 4.68 / 6 3.85 / 5 85.50 16.40 2 29.20 / 6 16.50 25.50 49.00 11.73 2 / 6 2.24 2 2 / 5 26.88 / 5 4.93 4.81 R( ) t U n 2 B U n B B 2 二群間の平均の差ばらつき統計量 1.0 を満たす遺伝子を差があるとすると 5 個あるという意味 29

FDR 計算イメージ 1 回目 2. 並べ替え検定 (random permutaton test) の実行偶然差があるとされる遺伝子数を見積もる 2 回目 3 回目 30

参考資料二群間比較 ( 倍率変化に基づくランキング法 ) log 比 :( 対数変換後のデータなので )t 検定系の数式の分子のみに相当 R ( ) log( FC) B 二群間の平均の差対数変換 (log2 変換 ) 後のデータ R(1) 6.42 4.00 2.41 R(2) 6.34 3.38 2.96 R(3) 4.51 5.61 1.11 統計量の絶対値が大きい候補発現変動遺伝子 31

Kadota K, Naka Y, Shmzu K, MB., 3:8, 2008 二群間比較 ( 倍率変化に基づくランキング法 ) WD:log 比を基本としつつ全体的にシグナル強度の高い遺伝子が上位にくるように重みをかけた統計量 unlogged data log 2 -transformed data verage Dfference (D) 統計量 D xを (0~1) の範囲に規格化 x mn( x) w max( x) mn( x) 平均シグナル強度 B x / 2 B WD 統計量 WD 参考資料 D w D D gene6 B より (6 7) / 2 (1 2 2) / 3 4.83 x x gene6 B (6 7) / 2 (1 2 2) / 3 / 2 4.08 / 2より WD の一位 :gene4, D の一位 :gene6 w w x mn( x) より max( x) mn( x) 4.08 3.00 10.00 3.00 gene6 0.15 32

二群間比較 ( 倍率変化に基づくランキング法 ) Rank products (RP): 群 vs. B 群の総当たりの比を計算しその順位の相乗平均を統計量とする入力データ総当りの発現比を計算 Bretlng et al., FEBS Lett., 2004 (n n B ) = 9 通り参考資料 n = 3 n B = 3 列ごとに Rank を計算した後各行に対して相乗平均値 (RPs) を計算 33

実用化にむけた取り組み国外 Mcrorray Qualty Control (MQC) プロジェクト (2005/2-2006/9) External RN Control (ERC) Consortum MQC-II (2006/9-2009/3) 国内バイオチップコンソーシアム (JMC) 2007 年 10 月に設立バイオ産業分野の業界団体 34

解決すべき課題再現性は本当にあるのか? Group プラットフォーム間 ( メーカーの違い ) の結果プラットフォーム内 ( 実験場所の違い ) どの解析手法がいいか? 前処理 ( 正規化 ) 法 :MS5, RM, MBEI, 発現変動遺伝子検出法組織特異的遺伝子 :Dxon test, ROKU, 二群間比較 ( 癌 vs. 正常 ):t-test, SM, 重視すべき評価基準は? 感度特異度重視派再現性(MQCプロジェクト提唱) 重視派感度特異度と再現性は両立しない?! Group B の結果なんじゃこりゃ!! どれがいいんだ?! 両立しないの?! 35

これまでの流れマイクロアレイ再現性が低いぞやべーこれだけ再現性が低かったら臨床応用とかできるの? Mcrorray Qualty Control (MQC) プロジェクト (2005/2-) 2006 年秋ごろの Nature Botechnology 誌に一連の研究成果を発表再現性が低いのは t- 統計量系の方法 (p 値を出すやつ ) を使っていたからしかもかなりキツメの p 値だったから t- 統計量系の方法は感度特異度は高いかもしれんが再現性がいまいちだな倍率変化に基づく方法は再現性が非常に高いことが分かったよどのメーカーのアレイを使っても発現変動遺伝子を検出するという観点では実用に耐えうる t- 統計量系と倍率変化系の方法は感度特異度と再現性の点においてトレードオフの関係にあるねよって実際の利用として緩めの p 値でカットオフしつつ倍率変化でのランキングすると再現性高く発現変動遺伝子を得られるのでは 36

評価の実際例 :ffymetrx の二群間比較 ( 最もよく研究されている ) Gene Ontology 解析 ( 未知サンプルの ) 分類モチーフ解析パスウェイ解析感度特異度既知の発現変動遺伝子をどれだけ上位にランキング可能か? 再現性同じサンプルの比較結果 ( 発現変動遺伝子リスト ) が場所間でどれだけ一致しているか? 37

感度特異度を UC 値で評価どの前処理法がいい?( 比較例 :MS5 vs. RM) 既知の発現変動遺伝子をどれだけ上位にランキング可能か?(UC 値の高さ ) MS5 の遺伝子発現行列 log 比を計算 log 比でランキング UC 値 =100% RM の遺伝子発現行列 UC 値 =83.3% 38

感度特異度を UC 値で評価どのランキング法がいい?( 比較例 :t- 検定 vs. 倍率変化 ) 既知の発現変動遺伝子をどれだけ上位にランキング可能か?(UC 値の高さ ) 66.7% 83.3% rea Under the ROC Curve (ROC 曲線の下部面積 :UC) ROC 曲線が左上にあるほどよい方法 39

参考資料 ROC 曲線の求め方 40

参考資料 ROC 曲線の求め方 41

参考資料 ROC 曲線の求め方全部発現変動遺伝子です!! 42

参考資料 ROC 曲線の求め方 ROC 曲線 UC = 0.83 43

参考資料 UC 値は R で簡単に計算できます ROC 曲線 UC = 0.83 44

MQC Consortum, Nat. Botechnol., 24:1151-1161, 2006 再現性を一致度で評価 Mcrorray Qualty Control (MQC) プロジェクトで提唱 (0 POG 100%) POG 値が高いランキング結果の頑健性 ( 再現性 ) が高い方法 MS5 WD MS5 WD 45

MQC Consortum, Nat. Botechnol., 24:1151-1161, 2006 POG between 九大 and 東大再現性を一致度で評価 Mcrorray Qualty Control (MQC) プロジェクトで提唱 (0 POG 100%) POG 値が高いランキング結果の頑健性 ( 再現性 ) が高い方法上位 x 個の集合 x = 10 100 1000 前処理法 :MS5, ランキング法 :WD 九大東大前処理法 :MS5, ランキング法 :samt 九大東大 x 再現性 :WD > samt 46

Kadota K, Naka Y, Shmzu K, MB, 4: 7, 2009 再現性解析結果 ( 前処理法 :FRMS) サンプル C 5 例 vs. サンプル D 5 例 Ste1 Ste4 Ste2 上位 100 個の集合 Ste5 Ste3 Ste4 Ste6 17% Ste1 Ste2 x Ste5 Ste6 Ste3 再現性 :WD > MQC 推奨法 (D) 47

Kadota K, Naka Y, Shmzu K, MB, 4: 7, 2009 結論 (ffymetrx データ ; 二群間比較 ) 感度特異度が高い方法 ( 組合せが重要である!) ( 発現変動遺伝子リストの ) 再現性が高い方法 Fold Change に基づく方法従来 :t- 統計量に基づく方法 ( 前処理法によらず )WD 従来 : verage Dfference (D) 法 MQC Consortum, Nat. Botechnol., 24:1151-1161, 2006 No Kadota s gudelnes, no good research! 48

参考資料推奨ガイドラインの比較感度特異度の高いランキング法 t- 検定系の方法 (P 値 ) 再現性の高いランキング法 Fold Change(FC) 系の方法 (D 法 ) MQC MQC Consortum, Nat. Botechnol., 2006 Sh et al., BMC Bonformatcs., 2008 FC 系の方法 (WD or RP) FC 系の方法 (WD) 門田ら Kadota et al., MB., 2008 Kadota et al., MB., 2009 49

参考資料感度特異度の高いランキング法 t- 検定系の方法 (MQC 推奨 ) FC 系の方法 ( 門田推奨 ) Fold Change (FC) 系 t 検定系 Fold Change (FC) 系赤枠の中だけで評価すると t- 検定系がよい t 検定系 50

参考資料再現性の高いランキング法は FC 系で一致 D(MQC 推奨 ) WD( 門田推奨 ) MQC の解析は : 用いた前処理法が PLIER のみ比較したランキング法が D, samt, のみ C vs. D の比較結果に samt が含まれてない x x 門田らの解析は : 用いた前処理法は 9 種類比較したランキング法は 8 種類 51

その他のメーカーではどの方法がいい? そもそも前処理法は ffymetrx 以外はほとんど開発されていないメーカーのデフォルト (or 推奨 ) の前処理法をやる以外にないではランキング法はどれがいい? 一色法の場合 :( 手前味噌ながら )WD 二色法の場合 : わかりません WD の根拠は? ( おそらく )ffymetrx 以外のメーカーはチップごとの正規化法しかない ffymetrx のチップごとの正規化法は MS5 だけで MS5 と最も相性がよかったのは WD だから 52

遺伝子発現行列二群間比較様々な組織 ( 条件 ) 時系列データ B B x 1, 1 x 1, 2 x 1, 2 x 1, 2 B B x 2, 1 x 2, 2 x 2, 2 x 2, 2 x 1,1 x 2,1 x 1,2 x 2,2 x 1,3 x 2,3 x 1,4 x 2,4 x 1,1 x 2,1 x 1,2 x 2,2 x 1,3 x 2,3 x 1,4 x 2,4 x, 1 B B x, 2 x, 2 x, 2 x,1 x,2 x,3 x,4 x,1 x,2 x,3 x,4 B B xn, 1 xn, 2 xn, 2 xn, 2 x n,1 x n,2 x n,3 x n,4 x n,1 x n,2 x n,3 x n,4 53

組織特異的遺伝子検出法ランキングに基づく方法 Dxon test (Greller and Tobn, Genome Res., 9, 282-296, 1999) Pattern matchng(pavlds and Noble, Genome Bol., 2, research0042, 2001) Entropy (Schug et al., Genome Bol., 6, R33, 2005) Tssue specfcty Index (Yana et al., Bonformatcs, 21, 650-659, 2005) 外れ値検出に基づく方法 kake s Informaton Crteron (IC) (Kadota et al., Physol. Genomcs, 12, 251-259, 2003) Sprent s non-parametrc method (Ge et al., Genomcs, 86, 127-141, 2005) その他 Tukey-Kramer s Honest Sgnfcance Dfference (HSD) test (Lang et al., Physol. Genomcs, 26, 158-162, 2006) ROKU (Kadota et al., BMC Bonformatcs, 7, 294, 2006) 54

組織特異的遺伝子検出法 1 2 4 3 様々な前処理 ( 正規化 ) 法様々な二群間での発現変動遺伝子検出法重視すべき評価基準は? 感度特異度再現性推奨ガイドライン結論 : おすすめは ROKU 55

Dxon WJ, Bometrcs, 1953 参考資料組織特異的遺伝子検出法 1Dxon test (0 D 1) x 一組織のみで高発現 ( 低発現 ) しているパターンを検出一般化 x 1 x n1 xn 高発現の場合 : 低発現の場合 : D( x) D( x) xn x x x x x 2 n n x x n1 1 1 1 80 33 80 4 0.618 統計量 D の大きい遺伝子を抽出 56

Dxon WJ, Bometrcs, 1953 参考資料組織特異的遺伝子検出法 1Dxon test の欠点 (0 D 1) 複数の外れ値が互いに外れ値をかばいあう効果 ( マスク効果 ) の影響を受ける遺伝子 x 1 x n1 x n D( x ) xn x x x n n 1 1 0.6 遺伝子 a D( x a ) xn x x x n n 1 1 0.1 遺伝子 b D( x b ) xn x x x Dxon 統計量によるランキングでは複数外れ値に対応不可 n n 1 1 0.03 57

心臓胃大脳心臓胃大脳心臓胃大脳組織特異的遺伝子検出法やりたいこと 1 x 1,1 x 1,2 x 1,3 x 1,4 大脳特異的高発現遺伝子 x 2,1 x 2,2 x 2,3 x 2,4 x,1 x,2 x,3 x,4 x n,1 x n,2 x n,3 x n,4 心臓と大脳特異的高発現遺伝子入力 : 遺伝子発現行列出力 : 任意の組織特異的遺伝子様々な特異的発現パターンを組織特異性の度合いで統一的にランキングしたい 58

組織特異的遺伝子検出法 2 エントロピーによるランキング遺伝子 x = (x 1, x 2,, x n ) のエントロピー H(x) H x ) p log ( p ), where p x H(x) のとりうる範囲 : 0 H(x) log 2 (n) n ( x 1 2 Schug et al., Genome Bol., 2005 H( x) 0 H( x) 1. 40 H( x) 1.45 H ( x) 3. 32 H( x) 3.32 log 2( n) エントロピーが低い組織特異性が高いエントロピーが高い組織特異性が低いエントロピーでランキングすることにより複数外れ値に対応可能 59

Schug et al., Genome Bol., 2005 2 エントロピー計算例遺伝子のエントロピー H(x ) H( x N ) 1 pj log 2( p 0 H log 2 N j j ) p j x j / N j 1 x j 0 H 2.32 特異的発現パターン低いエントロピーそうでないパターン高いエントロピー 60

Schug et al., Genome Bol., 2005 参考資料組織特異的遺伝子検出法 2 エントロピーの短所 1. 組織特異的低発現パターンなどの検出が不可能 0 H(x) log 2 (n) 3.32 H( x) 3.29 H( x) 3. 23 H( x) 3. 22 2. 特異的組織の同定が不可能上位にランキングされない H( x) 0 H( x) 0 H( x) 0 どの組織で特異的なのか分からない 61

Kadota et al., BMC Bonformatcs, 2006 参考資料組織特異的遺伝子検出法 3ROKU 1. 遺伝子発現ベクトル x を変換 : x x by x = x T bw 0 H(x) log 2 (n) 3.32 H( x ) 1.48 H( x ) 1. 64 H( x ) 1. 74 2. IC に基づく外れ値検出法を採用上位にランキングされるどの組織で特異的なのか分かる 62

組織特異的遺伝子検出法 4IC に基づく外れ値検出法 kake s Informaton Crteron (IC) 様々な外れ値の組み合わせモデルからICが最小の組み合わせ (MICE) を探索計算例 : log nn! IC nn log 2 no nn 入力 n n n n o n n o : Outler ( 外れ値 ) の数 : Non - outler の数 ˆ : 標準偏差 ( n) : サンプル数出力上田太一郎, 応用統計学, 1996 Kadota et al., Physol. Genomcs, 2003 低発現側の外れ値 :-1, 高発現の ~:1, それ以外 :0 63

参考資料組織特異的遺伝子検出法 4IC に基づく外れ値検出法様々な外れ値の組み合わせモデルから IC が最小の組み合わせ (MICE) を探索様々な外れ値の組み合わせモデル最大探索範囲 Nmax = n/2 = 5 IC n n n n o n n n n o log ˆ : 標準偏差 2 n ( n) : サンプル数 : Outler ( 外れ値 ) の数 : Non - outler の数 o log n n n n! 64

参考資料実データで比較 22,263 遺伝子 36 組織のデータ (Ge et al., Genomcs, 2005) 全体的な組織特異性の度合いで正しくランキングできるのは? 3 のほうが正しくランキング可能 65

2 目的組織特異性が高いのは? H x ) p log ( p ), where p n ( x x 1 2 参考資料 22,263 遺伝子 36 組織のデータ (Ge et al., Genomcs, 2005) Schug et al., Genome Bology, 2005 Kadota et al., BMC Bonformatcs, 2006 1) 遺伝子 x = (x 1, x 2,, x n ) の全体的な組織特異性度合いを表す統計量 3 1) 遺伝子 x を変換 (x = x T bw ) し変換後のベクトル x のエントロピーを利用 H x) p log ( p ), where x n ( p 2 x 1 p p x 2) 組織 t における特異性度合いを表す統計量 Qt ( x) H( x) log 2( pt ) 全遺伝子について統計量を計算し最低の統計量をもつものが最も t 組織特異的高発現遺伝子入力出力 2) IC に基づく外れ値検出法の適用 t 組織 t のみで 1 それ以外で 0 の遺伝子群を抽出その中で最低の H(x) をもつものが最も t 組織特異的高発現遺伝子 66

2 目的組織特異性が高いのは? 3 参考資料 22,263 遺伝子 36 組織のデータ (Ge et al., Genomcs, 2005) Schug et al., Genome Bology, 2005 Kadota et al., BMC Bonformatcs, 2006 Lung 組織特異的遺伝子 ( 一位 ) Lung 組織特異的遺伝子 ( 一位 ) Fetal-lung 組織特異的遺伝子 ( 一位 ) Fetal-lung 組織特異的遺伝子 ( 一位 ) 目的組織以外でも特異的 : 目的組織のみで特異的 : 67

N genes 参考資料組織特異的遺伝子検出法パターンマッチング法理想的なパターン y との類似度が高い順にランキング y 例 : 心臓特異的パターンを示す遺伝子群の検出 68

N genes 参考資料組織特異的遺伝子検出法パターンマッチング法理想的なパターン y との類似度が高い順にランキング y 例 : 心臓特異的パターンを示す遺伝子群の検出 69

参考資料 IC とパターンマッチング法の比較 MICE 肺 1 肺 2 肺 3 従来法 : : : MICE 従来法 70

Yana et al., Bonformatcs, 21, 650-659, 2005 参考資料組織特異的遺伝子検出法 Tssue specfcty ndex τ Yana et al., Bonformatcs, 21, 650-659, 2005 遺伝子発現行列 x = (x 1, x 2,, x n ) に対し n (1 p ) 1, where p x max( x) n 1 例 : x = (0, 8, 0, 0, 0, 2, 0, 2, 0, 0, 0, 0) p = (0, 1, 0, 0, 0, 0.25, 0, 0.25, 0, 0, 0, 0) τ= (1+0+1+1+1+0.75+1+0.75+1+1+1+1)/(12-1) = 0.95 τ(x) のとりうる範囲 : 0 τ 1 Housekeepng gene Tssue-specfc gene 統計量 τ の大きい遺伝子を抽出 71

Ge et al., Genomcs, 2005 参考資料組織特異的遺伝子検出法 Sprent s non-parametrc method 遺伝子発現ベクトル x = (x 1, x 2,, x n ) に対して x < medan(x) - k MD(x) and x > medan(x) + k MD(x) を満たす x を外れ値とする k = 5 ( 原著論文 ) デフォルトの結果 k が変わると得られる結果が異なることには論文中では触れられていない 72

参考資料 T bw :Tukey s bweght algorthm x = (1, 3, 7, 9, 12, 30) の重みつき平均を求める mean = (1+3+7+9+12+30)/6=10.3 medan M= (7+9)/2=8 x 1 x 2 x 3 x 4 x 5 x 6 外れ値の影響をなるべく受けないようにしたい medan 近辺の数値 (7や9) には1に近い重み遠く離れるほど重みを軽くしたい medan mean Tukey Bweght 73

参考資料 T bw :Tukey s bweght algorthm Medan bsolute Devaton (MD) の計算 ( 全体のバラツキを数値化 ) MD(x) = medan ( x 1 -M, x 2 -M, x 3 -M, x 4 -M, x 5 -M, x 6 -M ) = medan ( 1-8, 3-8, 7-8, 9-8, 12-8, 30-8 ) = medan (7, 5, 1, 1, 4, 22) = (4+5)/2= 4.5 標準化 ( Z-score 化 ) t t 1 2 x1 M x1 M x1 8 0.311 c MD 5 MD 0.0001 5 4.5 0.0001 0.222, t 0.044, t 0.044, t 0.178, t 0.978 3 4 5 6 medan 74

参考資料 T bw :Tukey s bweght algorthm 重み関数 (bsquare weght functon) 2 2 (1 t ),f t 1 w( t ) 0, else 重みつき平均 T b ( x, x 1 2,..., x n ) n 1 n w( t 1 w( t ) x ) 0.816( 0.311) 0.904( 0.222) 0.996( 0.044) 0.9960.044 0.9380.178 0.0020.978 0.816 0.904 0.996 0.996 0.938 0.002 6.62 medan mean Medan(=8) に近いので重みが 1 に近い Medan(=8) より非常に遠い (30) ので重みが限りなく 0 に近い weghted mean 75

n genes 時系列データ経時変化発現亢進発現減弱薬物投与後の発現変化モニタリング概日リズム関連遺伝子探索 ( 機能性食品の量濃度 ) 77

様々な時系列データ解析手法周期性解析 ( 概日リズム細胞周期 ) Lomb-Scargle method (Glynn et al., Bonformatcs, 22, 310-316, 2006) C&G procedure (Chen J., BMC Bonformatcs, 6, 286, 2005) model-based method (Luan and L, Bonformatcs, 20, 332-339, 2004) GeneTS (Wchert et al., Bonformatcs, 20, 5-20, 2004) その他 D Camllo et al., BMC Bonformatcs, 8 (Suppl 1), S10, 2007. hnert et al., Bonformatcs, 22, 1471-1476, 2006. IC (Frgyes et al., BMC Bonformatcs, 7, 290, 2006.) masgpro (Conesa et al., Bonformatcs, 22, 1096-1102, 2006.) dynamc model-based clusterng (Wu et al., J. Bonform. Comput. Bol., 3, 821-836, 2005.) Step-down quadratc regresson (Lu et al., BMC Bonformatcs, 6, 106, 2005) 78

a genes 機能解析 (GSE 解析 ) この種の解析法の論文が出る前のメジャーな機能解析手段例 : 二群間比較 1. 何らかの手段で発現変動の度合いでランキング 2. 上位 x 個を抽出し XXX( 例 : 酸化的リン酸化 ) 関連遺伝子群 (Gene Set: 遺伝子セット ) がどれだけ濃縮 (Enrchment) されているのかを解析 (nalyss) 3. 遺伝子セット (XXX に相当 ) をいろいろ変えて二群間で発現変動している群 B 群遺伝子セットを探索群 B 群酸化的リン酸化関連遺伝子 ( チップ中に b 個 ) の位置帰無仮説 : チップ中の全遺伝子数 (a) に対する酸化的リン酸化関連遺伝子数 (b) の割合 (b/a) と酸化的リン酸化関連遺伝子数 (b) に対する上位 x 個の中に占める酸化的リン酸化関連遺伝子数 (c) の割合 (c/x) は等しい 79

a genes 機能解析 (GSE 解析 ) この種の解析法の論文が出る前のメジャーな機能解析手段の問題点 1 上位 x 個の x 次第で結果が変わる群 B 群群 B 群酸化的リン酸化関連遺伝子 ( チップ中に b 個 ) の位置 80

a genes 機能解析 (GSE 解析 ) この種の解析法の論文が出る前のメジャーな機能解析手段の問題点 2 下図のように全体としては XXX( 例 : 酸化的リン酸化 ) 関連遺伝子群が有意差があるといえるような場合でも上位 x 個の中に一つも含まれないので有意差があるといえなくなる現実の解析ではXXX( 例 : 酸化的リン酸化 ) 関連遺伝子群の重要性を見落とす群 B 群群 B 群酸化的リン酸化関連遺伝子 ( チップ中に b 個 ) の位置 81

様々な機能解析手法 GSE (Subramanan et al., PNS, 2005) PGE (Km and Volsky, BMC Bonformatcs, 2005) GS (Efron and Tbshran, nn. ppl. Stat., 2007) GeneTral (Backes et al., NR, 2007) SM-GS (Dnu et al., BMC Bonformatcs, 2007) GSE-P (Subramanan et al., Bonformatcs, 2007) 82

Km and Volsky, BMC Bonformatcs, 2005 PGE 法の概略 Parametrc nalyss of Gene set Enrchment の略 1. 各遺伝子について対数変換後のデータのverage Dfference (D ) を計算 D B ( 1,2,..., 2. D の平均 μ と標準偏差 σ を計算 3. 興味ある遺伝子セット ( 例 :=5,89, 684, 2543, に相当する計 m 個の遺伝子 ) のDの平均 S m を計算 5 89 684 2543 S m ( D D D D...) / m 4. Z スコアを計算 Z ( Sm ) m / Z スコアの絶対値が大きい遺伝子セットほど二群間でより発現変動していると解釈, n) 83

a genes (R で ) マイクロアレイの PGE( 現状 ) 群 B 群群 B 群 D >>0 酸化的リン酸化関連遺伝子の位置 β 酸化関連遺伝子の位置 Z スコアの絶対値が大きい遺伝子セットほど二群間でより発現変動していると解釈 D <<0 S m 0 S m >>0 Z 0 この遺伝子セットは二群間で変動してない Z >>0 この遺伝子セットは二群間で変動している 84

様々な機能解析手法なぜ次々と提案されるのか? ns.1: 発現変動遺伝子のランキング法はいくらでもある PGE:verage Dfference (D) 倍率変化そのもの GSE:S2N 統計量など Rank products, WD, SM など ns.2: 興味ある遺伝子セットの偏り度合い ( 濃縮度 ) を見積もる方法はいくらでもある PGE:Z 検定 GSE:Kolmogorov-Smrnov 統計量の改良版平均 % 順位, UC, t 検定など 85

機能解析手法を使えるのはごく一部の生物種アノテーション情報が豊富な生物種は Gene Ontology やパスウェイの情報が豊富多くの遺伝子セットを用意できる機能解析手法を適用可能それ以外の生物種はまずは様々な発現変動遺伝子をひたすら同定しまくるなどして地道にアノテーション情報を増やしていく以外にない ( のではないだろうか ) 86

クラスタリング ( 教師なし学習 ) サンプルの属性情報 ( 癌 or 正常など ) を使わずに発現情報のみを用いて発現パターンの類似した遺伝子 ( またはサンプル ) をクラスター ( 群 ) にしていく手法 (Unsupervsed learnng 二群間比較多サンプル時系列解析 B B x 1, 1 x 1, 2 x 1, 2 x 1, 2 B B x 2, 1 x 2, 2 x 2, 2 x 2, 2 x 1,1 x 2,1 x 1,2 x 2,2 x 1,3 x 2,3 x 1,4 x 2,4 x 1,1 x 2,1 x 1,2 x 2,2 x 1,3 x 2,3 x 1,4 x 2,4 x, 1 B B x, 2 x, 2 x, 2 x,1 x,2 x,3 x,4 x,1 x,2 x,3 x,4 B B 2009/08/19 xn, 1 xn, 基礎生物学研究所 2 xn, 2 xn, 2 x n,1 x n,2 x n,3 x n,4 x n,1 x n,2 x n,3 x n,4 87 87

Esen et al., PNS, 1998 クラスタリング ( 教師なし学習 ) 例 1: 遺伝子間クラスタリング似た機能をもつものは同じクラスターに属すことを確認 88

Bttner et al., Nature, 2000 クラスタリング ( 教師なし学習 ) 例 2: サンプル間クラスタリング悪性度の高い癌のサブタイプを発見 89

クラスタリング ( 教師なし学習 ) 階層的クラスタリング発現パターンの類似した遺伝子を集めて系統樹を作成非階層的クラスタリング K-means クラスタリング K 個のクラスターに分割 (K の数は主観的に決定 ) すると予め指定し各クラスター内の遺伝子 ( サンプル ) 間の距離の総和が最小になるような K 個のクラスターを作成自己組織化マップ (SOM) 主成分分析 (PC) 90

距離 ( 類似度 ) の定義遺伝子 (or サンプル )x と y の発現パターンの距離 D 1) 1 ( ) ( 1 1 ) ( 1 1 ) )( ( 1 1 1 2 1 2 1 xy xy y x y x r y n x n y x n r n n n 相関係数 1 0 1 r r r y x y x y x との発現パターンがほぼ正反対との発現パターンがばらばらとの発現パターンが酷似 2) (0 1 D r 距離 D 2 1) ( 1 1 1 0 1 0 0 1 1 1 D r D r D r 91

階層的クラスタリング 1. 遺伝子間距離を計算例 :4 遺伝子の場合距離 D 1 r (0 D 2) 相関係数 r 相関係数 r 相関係数 r... 1,2 1,3 1,4 0.98 0.01 0.78 距離 D 1,2 距離 D 距離 D 1 r 距離 D 2 1,3 1,4 (0 D 1) 1 0.98 0.01 2 1 ( 0.01) 0.50 2 1 ( 0.78) 0.89 2 92

階層的クラスタリング 2. 距離行列を作成距離 D 距離 D 距離 D... 1,2 1,3 1,4 1 0.98 0.01 2 1 ( 0.01) 0.50 2 1 ( 0.78) 0.89 2 距離行列 1 2 3 4 イメージ 93

階層的クラスタリング 3. 樹形図を作成距離行列 1 2 3 4 距離 D 1.0 0.5 0.0 D 3,4 二つのクラスター間の距離?! 0.32 94

階層的クラスタリング 3. 樹形図を作成平均連結法の場合 1 2 3 4 1 2 3 4 D 1.0 0.5 0.0 ( D D D 4) / 4 1, 3 1, 4 2, 3 D2, (0.50 0.89 0.47 0.84) / 4 0.68 単連結法の場合 mn( D1, 3, D1, 4, D2, 3, D2, 4) 0.47 完全連結法の場合 max( D1, 3, D1, 4, D2, 3, D2, 4) 0.89 95

Naka et al., BBB, 2008 階層的クラスタリング例肝臓 (LIV) 白色脂肪 (WT) 褐色脂肪 (BT) 最適なクラスター数 K は? K=2 K=3 K=5 K=2 222222221111111111111111 K=3 333333332222222211111111 K=4 K=5 4 4 4 4 4 4 4 4 3 3 3 3 3 3 3 3 2 2 2 2 1 1 1 1 5 5 5 5 5 5 5 5 4 4 4 4 3 3 3 3 2 2 2 2 1 1 1 1 96

Ben-Hur et al., PSB, 2002 最適なクラスター数を見積もる方法様々な K について ( 例えば K=2) 全サンプル (n) のクラスタリング結果を K 個に分割した結果とサブサンプル ( 例えば n*0.7) のクラスタリング結果を K 個に分割した結果の類似度を計算全サンプルの結果 1 回目 100 回の結果全て LIV とそれ以外を分割できた場合 2 2 2 2 2 2 2 2 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 2 回目サブサンプリングデータでクラスタリングを例えば 100 回繰り返し 100 回目 97

Ben-Hur et al., PSB, 2002 最適なクラスター数を見積もる方法 K の値をいくつか試して ( 例では 2~9) 最適な K の値を同定この場合は K=2, 3 が最適なクラスター数 98

分類 ( 教師あり学習 ) 未知サンプルを分類するための様々な方法 K-Nearest Neghbor (K-NN; K- 最近傍法 ) Support Vector Machne (SVM) Neural Network (NN) Naïve Bayesan (NB) Mult-Layer Perceptron (MLP; 多層パーセプトロン ) Weghted Votng (WV; 重みつき多数決法 ) Decson Tree etc 99

K-Nearest Neghbor (K-NN) 法未知サンプル X からの距離がもっとも近い K 個のサンプルのうち所属するクラスが最も多いクラスに分類 K=1 2 1 4 3 5 X B2 B1 B3 B5 B4 X は B 群だと分類 ( コシヒカリ ) K=3 2 1 4 3 5 X B2 B1 B3 B5 B4 X は群だと分類 ( ササニシキ ) 100

参考資料交差検証法 (Cross-valdaton) 手持ちのデータセットを利用して用いた分類器 (K-NNなど ) とその中で用いたパラメータ (Kの数) 採用時の分類精度を評価する手段 Leave-one-out (take-one-sample-out or hold-one-out) approach 1. 手持ちのデータセット (nサンプル) の中から一つを ( 本当はクラス既知だが ) 未知のテストサンプルとしてデータセットから除く 2. 残りの (n-1) サンプルからなるデータセットから分類に用いる遺伝子サブセット (predctor genes) を得る 3. Predctor genesの発現プロファイルを用いてテストサンプルを予測 4. 全サンプルに対して1-3を繰り返し予測精度を見積もる Cross-fold approach 1. 各クラスから一定 ( 例えば群からn /2 個 B 群からn B /2 個 ) サンプル数をテストセットとする 2. 残り (n/2) のサンプルからなるデータセットから分類に用いる遺伝子サブセット (predctor genes) を得る 3. Predctor genesの発現プロファイルを用いてテストサンプルを予測 4. 指定回数 1-3を繰り返し予測精度を見積もる 101

発現レベル遺伝子の発現制御ネットワーク推定時系列データ遺伝子 D の発現を抑制し他の遺伝子の挙動を観察 B C D D B t 0 t 1 t 2 t 3 t 4 ネットワーク推定 C 102

発現レベル参考資料遺伝子の発現制御ネットワーク推定時系列データ遺伝子発現行列の作成例 ) t 0 に対する log 比などで表現 B C D t 0 t 1 t 2 t 3 t 4 103

参考資料遺伝子の発現制御ネットワーク推定時系列データ ( 基本的な ) 線形モデル法で解いてみる仮定 : 遺伝子 x k の時間 t における発現レベル x kt は時間 t-1 における他のすべての遺伝子発現レベルの線形結合で表される x t k N t w x 1, k 1 w,k : x の発現レベルが x k の発現レベルに及ぼす影響を示す重み係数 104

( 基本的な ) 線形モデル法で解く行列で表すと以下のような感じになる 1 1 1 1,,,,,,,,,,,,,,,, t t t t D D D C B D D D C C C B C C D B C B B B B D C B t t t t D C B w w w w w w w w w w w w w w w w D C B 遺伝子発現行列 ( 時系列データ ) 目的 :4 2 個の未知の w,k を決める重み行列相互作用行列 105 参考資料

( 基本的な ) 線形モデル法で解く計算結果 N t k t k x w x 1 1, 1 1 1 1,,,,,,,,,,,,,,,, t t t t D D D C B D D D C C C B C C D B C B B B B D C B t t t t D C B w w w w w w w w w w w w w w w w D C B 遺伝子発現行列 ( 時系列データ ) 遺伝子間相互作用行列 B C D 106 参考資料

( 基本的な ) 線形モデル法で解く目的 : 重み係数 w,k を解として得る例 ) 遺伝子の発現調節を支配している方程式を解く N t k t k x w x 1 1, 3, 3, 3, 3, 4 t D t C t B t t D w C w B w w 2, 2, 2, 2, 3 t D t C t B t t D w C w B w w 1, 1, 1, 1, 2 t D t C t B t t D w C w B w w 0, 0, 0, 0, 1 t D t C t B t t D w C w B w w 107 参考資料

参考資料 ( 基本的な ) 線形モデル法で解く目的 : 重み係数 w,k を解として得る例 ) 遺伝子の発現調節を支配している方程式を解く 1 w,, ( 1) wb, (0) wc, (1) wd ( 1) 1 w,, ( 1) wb, (0) wc, (0) wd ( 1) 1 w,, (0) wb, (0) wc, (0) wd ( 1) w C w w D, 0, 0, 1 0 w (0) wb, (0) wc, (0) wd,, (0) D はをプラスに制御 108

参考資料問題点例題の時系列データ 4 遺伝子 5 tme ponts ネットワークが解けた! 一般論 N 個の遺伝子間相互作用の可能性は N 2 通り存在する N 2 個の未知のパラメータ ( 重み係数 w,k ) を一意に求めるためには最低でも N 2 個の線形独立な方程式が必要 ( 例題のように ) 時点数 > 遺伝子数であれば 109

問題点次元の問題 ( 劣決定性の問題 ) 理想 : 遺伝子数時点数現実 : 遺伝子数 >> 時点数例 : 数万遺伝子 ( せいぜい ) 数十時点のデータ N 2 個あるパラメータを解くための方程式が足りない! ( 解が多数得られてしまう ) 時間解像度の問題相互作用イベントの起こる順番を明確に分離できる時点間隔となっているか? t 1 t 2 t 3 110

遺伝子の発現制御ネットワーク推定閾値検定モデル発現量の変化から 2 遺伝子間の制御関係を推定 Bayesan モデル実験データから作り出す条件付き確率分布から推定 Imoto et al., J. Bonform. Comput. Bol., 1, 231-252, 2003. S-system モデル複数の遺伝子が関与する発現プロファイルの時系列データをもとに推定 Tomnaga et al., J. Bonform. Comput. Bol., 4, 503-514, 2006. 多階層有向グラフモデル 2 遺伝子間の関係から遺伝子のグループ化と制御関係を推定 111

トランスクリプトームデータベース多くの遺伝子発現データは公共データベースに格納されている 112

GEO ID: GSM26978 トランスクリプトームデータベース用途検証異なる解析手法で再解析異なる視点で再解析 DN マイクロアレイ以外のデータも格納されている例 )SGE データなど TTCGGTCG という配列が 5 回 sequence された 113

他のトランスクリプトーム解析技術配列断片タグの sequence に基づく方法 Expressed Sequence Tags (ESTs) Seral nalyss of Gene Expresson (SGE) long SGE Massvely Parallel Sgnature Sequencng (MPSS) Cap nalyss Gene Expresson (CGE) PCR+ 電気泳動に基づく方法 mplfed Fragment Length Polymorphsm (FLP) Introduced FLP (FLP) Hgh-coverage expresson proflng (HCEP) Dfferental Dsplay (DD) 114

他のトランスクリプトーム解析技術配列断片タグの sequence に基づく方法沢山発現している遺伝子の配列断片はより多く sequence される sequence された回数がその遺伝子の発現レベルそのもの TTCGGTCG という配列が 5 回 sequence された 115

他のトランスクリプトーム解析技術 PCR+ 電気泳動に基づく方法サンプル B 2 サンプル B 1 サンプル 2 サンプル 1 電気泳動の波形データ 460 bp の長さの遺伝子はサンプルでのみ発現しているサンプル B 2 サンプル B 1 サンプル 2 バンドの濃淡をシグナル強度で表すとサンプル 1 配列断片長 (bp) 116

様々なトランスクリプトーム解析技術特徴 ( 解析対象の広さ ) 目的生物種の DN マイクロアレイが用意されていないものは解析不可能例 ) バクテリア柿桃などのマイクロアレイはないマイクロアレイがあったとしても未知遺伝子の解析はできない ( アレイ上に搭載されていないため ) 117

他のトランスクリプトーム解析技術特徴 ( アノテーション情報 ) 配列断片タグ ( ) 目的の配列情報は分かるがその遺伝子名などは Blast サーチなどを行う必要性あり配列長が短いため候補遺伝子群の中からの特定が難しい 118

サンプルサンプル B 他のトランスクリプトーム解析技術特徴 ( アノテーション情報 ) PCR+ 電気泳動 ( ) 目的遺伝子の塩基配列情報を得る作業が ( 配列断片タグに比べて ) 余分に必要バンドの切り出し抽出 PCR 増幅クローニング ( 塩基配列決定 ) 得られた塩基配列をもとに Blast サーチ 119

他のトランスクリプトーム解析技術特徴 ( データ解析の簡便さ ) 配列断片タグ ( ) Sequence コストがかかるためそれほど多くの sequence ができるわけではない統計的なデータ解析が難しい 120

他のトランスクリプトーム解析技術特徴 ( データ解析の簡便さ ) PCR+ 電気泳動 ( ) ピークアラインメント ( 同一遺伝子の認識 ) が難しい 121

他のトランスクリプトーム解析技術改良に向けた取り組み : マイクロアレイ短所 : マイクロアレイがあったとしても未知遺伝子の解析はできない ( アレイ上に搭載されていないため ) タイリングアレイの開発により未知遺伝子の発現も検出可能にタンパク質をコードする遺伝子の解析からゲノム全体の発現解析へ 122

様々なトランスクリプトーム解析技術タイリングアレイによる具体的な成果ヒト 21,22 番染色体の解析により従来よりはるかに多くの転写物が存在することを確認 (Kapranov et al., Scence, 2002) シロイヌナズナの解析により既知の約 27,000 遺伝子領域以外に約 5,200 の領域で発現している新たな遺伝子構造を発見 (Toyoda et al., Plant J., 2005) 次期ヒトゲノム計画 (ENCODE 計画 ) でも採用されゲノム中の大部分の塩基がタンパク質をコードしない転写産物や重複転写産物を含む一次転写産物になることが示唆 (The ENCODE Project Consortum, Nature, 2007) 123

様々なトランスクリプトーム解析技術改良に向けた取り組み : 配列断片タグ短所 : Sequence コストがかかるためそれほど多くの sequence ができるわけではないそのため統計的なデータ解析が難しい次世代シーケンサーの開発によりコストを大幅に削減可能にマイクロアレイ配列断片タグマイクロアレイ配列断片タグ現在将来 124

次世代シーケンサーパンダ ( 大熊猫 ) ゲノム解読 (2008/10) ヒトゲノム解読に 10 年半年猫よりも犬熊に近い動物アジア人 ( 中国人 ) 一個体の全ゲノム配列決定 (2008/11/6, Nature) 36 倍のカバー率個人ゲノムとしては J.D. Watson と J.C. Venter に次いで 3 人目 2010 年ごろ発売される予定のものはヒトゲノムを 8 分程度で解読できるらしい (Levene et al. Scence, 2003) 国際プロジェクト 1000 人ゲノム計画 (1 人 1 人の遺伝情報の違いを詳細に調査 ) 国際癌ゲノムプロジェクト感染症の同定 125

他のトランスクリプトーム解析技術改良に向けた取り組み :PCR+ 電気泳動短所 : ピークアラインメント ( 同一遺伝子の認識 ) が難しいバイオインフォマティクス手法の適用によるアラインメント精度の大幅な向上実験技術の開発も重要だがバイオインフォマティクス ( 解析手法の開発 ) も重要 126

他のトランスクリプトーム解析技術アラインメント精度の大幅な向上により正確な遺伝子発現行列を作成可能になった Kadota et al., BMC Bonformatcs, 2005 Kadota et al., MB, 2007 遺伝子発現行列 B C D E F G H I J K L マイクロアレイ解析用に開発された手法が電気泳動波形データ解析にも利用可能 127

まとめ様々なマイクロアレイ解析手法を紹介二群多群時系列クラスタリング分類ネットワークマイクロアレイの位置づけ長所 ( 解析が容易 ) 短所 ( 搭載されてない遺伝子など ) 他の解析技術によって得られたトランスクリプトームデータへの適用可能性遺伝子発現行列さえできれば次世代シーケンサーも OK (R で ) マイクロアレイデータ解析でお幸せによりよい手法をよりお求めやすく 128