機能ゲノム学（第6回）

Size: px

Start display at page:

Download "機能ゲノム学（第6回）"

さみしどり
5 years ago
Views:

1 トランスクリプトームデータの解析戦略とその周辺東京大学大学院農学生命科学研究科アグリバイオインフォマティクス教育研究ユニット門田幸二 ( かどたこうじ ) hp://.u.a.u-okyo.ac.jp/~kadoa/ kadoa@u.a.u-okyo.ac.jp

2 オーム (Ome) 研究 ome : 総体 DN 遺伝子 (Gene) + ome Genome ゲノム研究 : ヒトのもつ遺伝子情報の総体を研究 RN 転写 (Transcrpon) + ome Transcrpome 転写 : 遺伝子 DN の情報を RN に写すことタンパク質翻訳 (Translaon) + ome Translaome 翻訳 : 転写された RN 情報をもとにタンパクを作ること ( タンパク質 (Proen) + ome Proeome)

3 転写レベルの情報量は豊富 DN 転写 RN 翻訳タンパク質全ゲノムショットガン法 DN マイクロアレイ二次元電気泳動法 Translaome Transcrpome Genome ( 遺伝子数 : 数万種類 ) 3

4 トランスクリプトームとはある特定の状態の組織や細胞中に存在する全 mrn( ないしは一次転写産物 ranscrps) の総体様々なトランスクリプトーム解析技術マイクロアレイ cdn マイクロアレイ ffymerx GeneChp など配列決定に基づく方法 EST SGE など電気泳動に基づく方法 Dfferenal Dsplay FLP など調べたい組織でどの遺伝子がどの程度発現しているのかを一度に観察 4

5 内容様々なトランスクリプトーム解析技術概要特徴長所短所全て共通の遺伝子発現行列形式で取り扱いが可能遺伝子発現行列データ解析戦略発現変動遺伝子の同定 Gene Se Enrchmen nalyss クラスタリング分類ネットワーク推定 5

6 トランスクリプトーム解析技術マイクロアレイ配列既知遺伝子を搭載したチップ上に調べたいサンプルから抽出合成した蛍光標識済み cdn をハイブリダイゼーションさせることによって得られる蛍光シグナル強度を mrn の発現量として観測比較する条件間で発現の異なる遺伝子の同定などの目的に利用されるゲノム配列決定済みの生物種を対象 6

7 得られる遺伝子発現データのイメージ二色法の場合一色法の場合目的試料中の遺伝子 4 の発現レベルは対照試料に比べて - 倍高い目的試料中で遺伝子 3 は沢山発現している 7

8 遺伝子発現行列二群間比較様々な組織 ( 条件 ) 時系列データ x x x x x x x x x x x x x 3 x 3 x 4 x 4 x x x x x 3 x 3 x 4 x 4 x x x x x x x 3 x 4 x x x 3 x 4 xn xn xn xn x n x n x n3 x n4 x n x n x n3 x n4 発現変動遺伝子の同定クラスタリング Gene Onology 解析パスウェイ解析 8

9 トランスクリプトーム解析技術配列決定に基づく方法調べたい目的サンプルから抽出合成した cdn の一部を sequencer で読みまくるその配列をもつ転写物が沢山発現しているほどその配列が多数読まれることを利用 EST(Expressed Sequence Tag) 3 or 5 側から数百塩基程度の配列を読んだもの SGE(Seral nalyss of Gene Expresson) 特定の位置から数十塩基の配列 (SGE タグ ) を分離し他の転写物由来のタグを sequencer で読める程度まで連結して配列決定ゲノム配列未知のサンプルを対象新規遺伝子の発見が原理的に可能 9

10 得られる発現データのイメージ TTCGGTCG という配列が 5 回 sequence された 0

11 トランスクリプトーム解析技術 3 電気泳動に基づく方法目的サンプルから得られた転写物由来 DN 配列 ( 断片 ) を PCR 増幅して電気泳動にかけるサンプルの状態によって得られる電気泳動パターンが異なる ( フィンガープリント ) 得られるバンドの濃さ ( シグナル強度の高さ ) が転写物の発現レベルに ( 大まかに ) 対応ゲノム配列未知のサンプルを対象新規遺伝子の発見が原理的に可能

12 得られる発現データのイメージサンプルサンプルサンプルサンプル電気泳動の波形データ 460 bp の長さの転写物はサンプルでのみ発現しているサンプルサンプルサンプルバンドの濃淡をシグナル強度で表すとサンプル配列断片長 (bp)

13 長所短所解析対象の広さ目的生物種の DN マイクロアレイが用意されていないものは解析不可能例 ) バクテリア柿桃などのマイクロアレイはないマイクロアレイがあったとしてもアレイ上に搭載されていない ( 未知 ) 遺伝子の発現は観測不可能 3

14 長所短所アノテーション情報配列決定 ( ) 目的の配列情報をもとに las 検索などを行う必要性あり配列長が短いため候補遺伝子群の中からの特定が難しい 4

15 サンプルサンプル長所短所アノテーション情報電気泳動 ( ) 目的遺伝子の塩基配列情報を得る作業が ( 配列決定に基づく方法に比べて ) 余分に必要バンドの切り出し抽出 PCR 増幅クローニング ( 塩基配列決定 ) 得られた塩基配列を las 検索 5

16 長所短所データ解析の簡便さ配列決定 ( ) Sequence コストがかかるためそれほど多くの sequence ができるわけではない統計的なデータ解析が難しい 6

17 長所短所データ解析の簡便さ電気泳動 ( ) ピークアラインメント ( 同一遺伝子の認識 ) が難しい 7

18 他のトランスクリプトーム解析技術改良に向けた取り組み : マイクロアレイ短所 : マイクロアレイがあったとしてもアレイ上に搭載されていない ( 未知 ) 遺伝子の発現は観測不可能タイリングアレイの開発により未知遺伝子の発現も検出可能にタンパク質をコードする遺伝子の解析からゲノム全体の発現解析へ 8

19 様々なトランスクリプトーム解析技術タイリングアレイによる具体的な成果ヒト番染色体の解析により従来よりはるかに多くの転写物が存在することを確認 (Kapranov e al. Scence 00) シロイヌナズナの解析により既知の約 7000 遺伝子領域以外に約 500 の領域で発現している新たな遺伝子構造を発見 (Toyoda e al. Plan J. 005) 次期ヒトゲノム計画 (ENCODE 計画 ) でも採用されゲノム中の大部分の塩基がタンパク質をコードしない転写産物や重複転写産物を含む一次転写産物になることが示唆 ( The ENCODE Projec Consorum Naure 007) 9

20 様々なトランスクリプトーム解析技術改良に向けた取り組み : 配列決定短所 : Sequence コストがかかるためそれほど多くの sequence ができるわけではないそのため統計的なデータ解析が難しい新型 ( 次世代 ) シーケンサーの開発によりコストを大幅に削減可能にマイクロアレイ配列決定マイクロアレイ配列決定現在近未来 0

21 新型 ( 次世代 ) シーケンサーパンダ ( 大熊猫 ) ゲノム解読 (008/0) ヒトゲノム解読に 0 年半年猫よりも犬熊に近い動物アジア人 ( 中国人 ) 一個体の全ゲノム配列決定 ( 008//6 Naure) 36 倍のカバー率個人ゲノムとしては J.D. Wason と J.C. Vener に次いで 3 人目国際プロジェクト 000 人ゲノム計画 ( 人人の遺伝情報の違いを詳細に調査 ) 国際癌ゲノムプロジェクト感染症の同定

トランスクリプトーム解析例出芽酵母のトランスクリプトームの全体像 Nagalakshm e al. Scence 30 344-349 008.

22 トランスクリプトーム解析例出芽酵母のトランスクリプトームの全体像 Nagalakshm e al. Scence poly RN のトランスクリプトームデータ (RN-seq) Illumna 社の平均 35bp の塩基配列公共遺伝子発現データベース (GEO) に登録済 GSE09 新型 ( 次世代 ) シーケンサー

23 新型 ( 次世代 ) シーケンサートランスクリプトームデータ解析戦略ゲノム配列へのマッピングゲノム配列新規転写物の同定 Unranslaed regon (UTR) の同定予測されていたイントロンの確認選択的開始コドンの同定 ec... GEO ID: GSM SRR :7::446:60 lengh=33 :7::883:74 lengh=33 TTCTTTTTTGGTTTT +SRR :7::883:74 lengh=33 :7::568:594 lengh=33 TCGGGGCTCGTTGCCGTCTTCTGCTTTC +SRR :7::568:594 lengh=33 :7::845:77 lengh=33 TTTTTTTGTGCGCCTTGGTTT +SRR :7::845:77 lengh=33 :7::303:68 lengh=33 TCTTGCCCTCGTGCTGGCCTT... 大量の短い配列 (shor read) をいかに正しく高速にゲノム配列にマップするか? 3

24 新型 ( 次世代 ) シーケンサートランスクリプトームデータ解析戦略大量の短い配列を一つのゲノム配列にマップするための専用のアルゴリズム開発の必要性 LST(lschul e al. 997) などは非現実的単一のクエリ配列を多数の配列データに問い合わせることを想定 LT(Ken 00) なども非現実的大量のそこそこ長い配列を一つのゲノム配列にマップすることを想定新型シーケンサーデータ解析専用アルゴリズム PaMaN (Prufer e al. onformacs 008) RMP (Smh e al. MC onformacs 008) MQ (L e al. Genome Res. 008) SeqMap (Jang and Wong onformacs 008) SOP (L e al. onformacs 008) PSS (Campagna e al. onformacs 009) SOP (L e al. onformacs 009) 4

25 マップできた read 数計算時間 Campagna e al. onformacs 009 どのアルゴリズムを採用するか? PSS(P) vs. SOP(S) PSS のほうがより多くマッピング可能 PSS のほうが高速日進月歩 5

26 解析技術 ( 実験側 ) も日進月歩現在のマイクロアレイや市販の新型シーケンサーは逆転写酵素を用いた cdn 合成などいくつかのステップを経る必要があるためバイアスが入り込む恐れがあった RN を直接配列決定する方法の開発 (009 年 0 月 ) Ozsolak e al. Naure RN 分子個の塩基配列を (cdn 合成などのステップを挟まずに ) 直接決定今後のスケールアップによりバイアスのないハイスループットトランスクリプトーム解析法になりうると期待 6

27 様々なトランスクリプトーム解析技術改良に向けた取り組み : 電気泳動短所 : ピークアラインメント ( 同一遺伝子の認識 ) が難しい遺伝子発現行列 C D E F G H I J K L M N H I 実験技術の開発も重要だがバイオインフォマティクス ( 解析手法の開発 ) も重要 7

28 Kadoa e al. MC onformacs 005 Kadoa e al. M 007 様々なトランスクリプトーム解析技術バイオインフォマティクス技術の適用によりアラインメント精度の大幅な向上を達成遺伝子発現行列 C D E F G H I J K L マイクロアレイ解析用に開発された手法が電気泳動波形データ解析にも利用可能 8

29 Ish e al. J. Mcrobol. Mehods 009 Cluserng-based peak algnmen 計算例 9

30 全てのトランスクリプトームデータは遺伝子発現行列の形式に変換可能電気泳動波形データ新型シーケンサーデータ刺激前ゲノム配列遺伝子発現行列 h 後 4h 後ゲノム配列ゲノム配列 30

31 様々な遺伝子発現行列二群間比較様々な組織 ( 条件 ) 時系列データ x x x x x x x x x x x x x 3 x 3 x 4 x 4 x x x x x 3 x 3 x 4 x 4 x x x x x x x 3 x 4 x x x 3 x 4 xn xn xn xn x n x n x n3 x n4 x n x n x n3 x n4 発現変動遺伝子の同定クラスタリング Gene Onology 解析パスウェイ解析 3

32 Golub e al. Scence 999 二群間比較解析例 ) 急性白血病群 : リンパ性 (7 サンプル ) 群 : 骨髄性 (サンプル) 白血病のタイプで発現の異なる遺伝子群を同定 3

33 Golub e al. Scence 999 参考資料二群間比較解析戦略二群間の平均の差が大きく群内のばらつきが小さい遺伝子を抽出 a sgnal-o-nose(sn) 統計量 R( ) U U 二群間の平均の差群内のばらつき群内のばらつき対数変換 (log 変換 ) 後のデータ標本平均標本分散不偏分散 j R() R() R(3) S U n n j n n j n ( j n 6 n 5 n n 統計量の絶対値が大きい候補発現変動遺伝子 n j n ( j ) ) 33

34 参考資料二群間比較解析戦略検定 ( 不等分散を仮定 ) の統計量 R( ) U n U n 対数変換 (log 変換 ) 後のデータ二群間の平均の差ばらつき R() R() R(3) ( U U ) ( n ( U ) 統計量の絶対値が大きい候補発現変動遺伝子 3 検定統計量は自由度 ν ( にゅー ) の分布に従う 0.8 / n n / / / U n / n ) ( n 5.7 / / / 5 ) 34

-ransformed daa verage Dfference (D) 統計量 D xを (0~) の範囲に規格化 x mn( x) max( x) mn( x) 平均シグナル強度 x

35 Kadoa K Naka Y Shmzu K M. 3:8 008 参考資料二群間比較解析戦略 WD:log 比を基本としつつ全体的にシグナル強度の高い遺伝子が上位にくるように重みをかけた統計量 unlogged daa log -ransformed daa verage Dfference (D) 統計量 D xを (0~) の範囲に規格化 x mn( x) max( x) mn( x) 平均シグナル強度 x / WD 統計量 WD D D D gene6 より (6 7) / ( ) / x x gene6 (6 7) / ( ) / 3 / 4.08 / より統計量の絶対値が大きい候補発現変動遺伝子 x mn( x) より max( x) mn( x) gene

36 二群間比較解析 ( 様々な検出法 ) 倍率変化 (Fold change; FC) に基づくランキング法 -fold 3-fold (FC) The lm fold change model (Much e al. MC onformacs 00) Rank produc (RP; relng e al. FES Le. 004) WD (Kadoa e al. lgorhm. Mol. ol. 008) - 統計量に基づくランキング法 a sgnal-o-nose sasc (Golub e al. Scence 999) Suden s (or Welch) -es SM (samt; Tusher e al. PNS 00) Samroc (roberg P. Genome ol. 003) a moderaed sasc (Smyh GK. Sa. ppl. Gene. Mol. ol. 004) Inensy-based moderaed sasc (IMT; Saror e al. MC onformacs 006) Shrnkage sasc (Opgen-Rhen and Srmmer Sa. ppl. Gene. Mol. ol. 007) その他 Probably of Posve LogRao (PPLR; Lu e al. onformacs 006) FCPC (Qn e al. onformacs 008) 個々の遺伝子の発現変動の度合いを調べる研究 36

37 二群間比較解析戦略発現変動遺伝子 ( マーカー遺伝子 ) の同定個々の遺伝子について統計量を算出しランキング手法選択のガイドライン (Kadoa e al. M 009) 感度特異度重視の場合再現性重視の場合 Gene Se Enrchmen nalyss (GSE) アノテーション情報が豊富な生物種用の解析手段同じセットに属する遺伝子をひとまとめにして解析例 : 酸化的リン酸化に関係する遺伝子セット (KEGG: hsa0090) 例 : 脂肪酸 β 酸化に関係する遺伝子セット ( GO: ) 比較する二群間でその遺伝子セットが動いたかどうかを評価帰無仮説 : 動いてない対立仮説 : 動いた沢山の遺伝子セットについて解析を行い動いた遺伝子セットを列挙 posonal gene ses pahay gene ses mof gene ses 様々な視点での解析が可能 GO gene ses ec... 37

38 様々な遺伝子セットは MSgD からゲット例 :KEGG Pahay 遺伝子セット Pahay ID Name Gene symbols 行につきセット 38

39 様々な GSE 系の解析手法 GSE (Subramanan e al. PNS 005) PGE (Km and Volsky MC onformacs 005) Hoellng s T -es (Kong e al. onformacs 006) GS (Efron and Tbshran nn. ppl. Sa. 007) GeneTral (ackes e al. NR 007) SM-GS (Dnu e al. MC onformacs 007) GSE-P (Subramanan e al. onformacs 007) GlobalNCOV (Hummell e al. onformacs 008) 39

40 Km and Volsky MC onformacs 005 PGE 法 Paramerc nalyss of Gene se Enrchmen の略. 各遺伝子について対数変換後のデータのverage Dfference (D ) を計算 D (.... D の平均 μ と標準偏差 σ を計算 3. 興味ある遺伝子セット ( 例 := に相当する計 m 個の遺伝子 ) のDの平均 S m を計算 S m ( D D D D...) / m 4. Z スコアを計算 Z ( Sm ) m / Z スコアの絶対値が大きい遺伝子セットほど二群間でより発現変動していると解釈 a) 40

41 a genes GSE 以前の解析手段例 : 酸化的リン酸化関連遺伝子セット. verage Dfferenceのような統計量を各遺伝子について算出. 上位 x 個を抽出し酸化的リン酸化関連遺伝子群のバックグラウンド (b/a) に対する濃縮度合い (c/x) を評価群群群群酸化的リン酸化関連遺伝子 ( チップ中に b 個 ) の位置帰無仮説 : チップ中の全遺伝子数 (a) に対する酸化的リン酸化関連遺伝子数 (b) の割合 (b/a) と酸化的リン酸化関連遺伝子数 (b) に対する上位 x 個の中に占める酸化的リン酸化関連遺伝子数 (c) の割合 (c/x) は等しい 4

42 a genes GSE 以前の解析手段の問題点上位 x 個の x 次第で結果が変わる群群群群酸化的リン酸化関連遺伝子 ( チップ中に b 個 ) の位置 4

43 a genes GSE 以前の解析手段の問題点下図のように全体としては酸化的リン酸化関連遺伝子セットが有意差があるといえるような場合でも上位 x 個の中に一つも含まれないので有意差があるといえなくなる現実の解析では酸化的リン酸化関連遺伝子セットが動いていることを見落とす群群群群酸化的リン酸化関連遺伝子 ( チップ中に b 個 ) の位置 43

44 様々な GSE 系手法なぜ次々と提案されるのか? ns.: 発現変動遺伝子のランキング法 (gene-level sascs) はいくらでもある PGE:verage Dfference (D) 倍率変化そのもの GSE:SN 統計量などその他 :Rank producs WD SM など ns.: 興味ある遺伝子セットの偏り度合い ( 濃縮度 ) を見積もる統計量 (gene se sascs) はいくらでもある PGE:Z 検定 GSE:Enrchmen Score その他 : 平均 % 順位 UC medan など ns.3: 有意性を評価する手段もいくつか考えられる sample label permuaon gene resamplng 極論 : 論文になっていない組合せを新規手法だ! とすることも可能... 44

45 ckermann and Srmmer MC onformacs 009 手法選択のガイドラインはない ( に等しい ) どの遺伝子セットが動いているいないという正解情報 ( 地上の真実 ) を知るすべがない論文でありがちなプレゼンテーション既知の遺伝子セットはちゃんと上位にあった我々はさらに他に動いている遺伝子セットを見つけた ( 感度の高さをアピール ) 感度の高さという点については正しいのかもしれないが特異度は低いのかも... ( 本当は動いていない遺伝子セットまで動いていると判断してしまうこと ) シミュレーションで本当は動いていないデータセットを作成することはできるがその結果と現実の結果には相当のギャップがある 45

46 GSE 系手法を使えるのはごく一部の生物種アノテーション情報が豊富な生物種は Gene Onology やパスウェイの情報が豊富多くの遺伝子セットを用意できる GSE 系手法を適用可能それ以外の生物種はまずは様々な発現変動遺伝子をひたすら同定しまくるなどして地道にアノテーション情報を増やしていく以外にない ( のではないだろうか ) 46

47 クラスタリング ( 教師なし学習 ) サンプルの属性情報 ( 癌 or 正常など ) を使わずに発現情報のみを用いて発現パターンの類似した遺伝子 ( またはサンプル ) をクラスター ( 群 ) にしていく手法 (Unsupervsed learnng 二群間比較多サンプル時系列解析 x x x x x x x x x x x x x 3 x 3 x 4 x 4 x x x x x 3 x 3 x 4 x 4 x x x x x x x 3 x 4 x x x 3 x 4 009/08/9 xn xn 基礎生物学研究所 xn xn x n x n x n3 x n4 x n x n x n3 x n

48 Esen e al. PNS 998 クラスタリング ( 教師なし学習 ) 例 : 遺伝子間クラスタリング Tme 似た機能をもつものは同じクラスターに属すことを確認 48

49 ner e al. Naure 000 クラスタリング ( 教師なし学習 ) 例 : サンプル間クラスタリング悪性度の高い癌のサブタイプを発見 49

50 クラスタリング ( 教師なし学習 ) 階層的クラスタリング発現パターンの類似した遺伝子を集めて系統樹を作成非階層的クラスタリング K-means クラスタリング K 個のクラスターに分割 (K の数は主観的に決定 ) すると予め指定し各クラスター内の遺伝子 ( サンプル ) 間の距離の総和が最小になるような K 個のクラスターを作成自己組織化マップ (SOM) 主成分分析 (PC) 50

51 距離 ( 類似度 ) の定義遺伝子 (or サンプル )x と y の発現パターンの距離 D ) ( ) ( ) ( ) )( ( xy xy y x y x r y n x n y x n r n n n 相関係数 0 r r r y x y x y x との発現パターンがほぼ正反対との発現パターンがばらばらとの発現パターンが酷似 ) (0 D r 距離 D ) ( D r D r D r 5

階層的クラスタリング. 遺伝子間距離を計算例 :4 遺伝子の場合距離 D r (0 D ) 相関係数 r 相関係数 r 相関係数 r... 3 4 0.

52 階層的クラスタリング. 遺伝子間距離を計算例 :4 遺伝子の場合距離 D r (0 D ) 相関係数 r 相関係数 r 相関係数 r 距離 D 距離 D 距離 D r 距離 D 3 4 (0 D ) ( 0.0) 0.50 ( 0.78)

53 階層的クラスタリング. 距離行列を作成距離 D 距離 D 距離 D ( 0.0) 0.50 ( 0.78) 0.89 距離行列 3 4 イメージ 53

54 階層的クラスタリング 3. 樹形図を作成距離行列 3 4 距離 D D 34 二つのクラスター間の距離?!

55 階層的クラスタリング 3. 樹形図を作成平均連結法の場合 D ( D D D 4) / D ( ) / 単連結法の場合 mn( D 3 D 4 D 3 D 4) 0.47 完全連結法の場合 max( D 3 D 4 D 3 D 4)

56 Naka e al. 008 階層的クラスタリング例肝臓 (LIV) 白色脂肪 (WT) 褐色脂肪 (T) 最適なクラスター数 K は? K= K=3 K=5 K= K= K=4 K=

57 en-hur e al. PS 00 最適なクラスター数を見積もる方法様々な K について ( 例えば K=) 全サンプル (n) のクラスタリング結果を K 個に分割した結果とサブサンプル ( 例えば n*0.7) のクラスタリング結果を K 個に分割した結果の類似度を計算全サンプルの結果回目 00 回の結果全て LIV とそれ以外を分割できた場合回目サブサンプリングデータでクラスタリングを例えば 00 回繰り返し 00 回目 57

58 en-hur e al. PS 00 最適なクラスター数を見積もる方法 K の値をいくつか試して ( 例では ~9) 最適な K の値を同定この場合は K= 3 が最適なクラスター数 58

59 分類 ( 教師あり学習 ) 未知サンプルを分類するための様々な方法 K-Neares Neghbor (K-NN; K- 最近傍法 ) Suppor Vecor Machne (SVM) Neural Neork (NN) Naïve ayesan (N) 冬学期開講科目 : ゲノム知識情報処理論 Mul-Layer Percepron (MLP; 多層パーセプトロン ) Weghed Vong (WV; 重みつき多数決法 ) Decson Tree ec 59

60 K-Neares Neghbor (K-NN) 法未知サンプル X からの距離がもっとも近い K 個のサンプルのうち所属するクラスが最も多いクラスに分類 K= ササニシキコシヒカリ X X は群だと分類 ( コシヒカリ ) K=3 ササニシキコシヒカリ X X は群だと分類 ( ササニシキ ) 60

61 発現レベル遺伝子の発現制御ネットワーク推定時系列データ遺伝子 D の発現を抑制し他の遺伝子の挙動を観察 C D D ネットワーク推定 C 6

62 発現レベル参考資料遺伝子の発現制御ネットワーク推定時系列データ遺伝子発現行列の作成例 ) 0 に対する log 比などで表現 C D

63 参考資料遺伝子の発現制御ネットワーク推定時系列データ ( 基本的な ) 線形モデル法で解いてみる仮定 : 遺伝子 x k の時間における発現レベル x k は時間 - における他のすべての遺伝子発現レベルの線形結合で表される x k N x k k : x の発現レベルが x k の発現レベルに及ぼす影響を示す重み係数 63

64 ( 基本的な ) 線形モデル法で解く行列で表すと以下のような感じになる D D D C D D D C C C C C D C D C D C D C 遺伝子発現行列 ( 時系列データ ) 目的 :4 個の未知の k を決める重み行列相互作用行列 64 参考資料

65 ( 基本的な ) 線形モデル法で解く計算結果 N k k x x D D D C D D D C C C C C D C D C D C D C 遺伝子発現行列 ( 時系列データ ) 遺伝子間相互作用行列 C D 65 参考資料

66 ( 基本的な ) 線形モデル法で解く目的 : 重み係数 k を解として得る例 ) 遺伝子の発現調節を支配している方程式を解く N k k x x D C D C 3 D C D C D C D C D C D C 66 参考資料

67 参考資料 ( 基本的な ) 線形モデル法で解く目的 : 重み係数 k を解として得る例 ) 遺伝子の発現調節を支配している方程式を解く ( ) (0) C () D ( ) ( ) (0) C (0) D ( ) (0) (0) C (0) D ( ) C D (0) (0) C (0) D (0) D はをプラスに制御 67

68 参考資料問題点例題の時系列データ 4 遺伝子 5 me pons ネットワークが解けた! 一般論 N 個の遺伝子間相互作用の可能性は N 通り存在する N 個の未知のパラメータ ( 重み係数 k ) を一意に求めるためには最低でも N 個の線形独立な方程式が必要 ( 例題のように ) 時点数 > 遺伝子数であれば 68

69 問題点次元の問題 ( 劣決定性の問題 ) 理想 : 遺伝子数時点数現実 : 遺伝子数 >> 時点数例 : 数万遺伝子 ( せいぜい ) 数十時点のデータ N 個あるパラメータを解くための方程式が足りない! ( 解が多数得られてしまう ) 時間解像度の問題相互作用イベントの起こる順番を明確に分離できる時点間隔となっているか? 3 69

70 まとめ様々なトランスクリプトーム解析技術概要特徴長所短所全て共通の遺伝子発現行列形式で取り扱いが可能遺伝子発現行列データ解析戦略発現変動遺伝子の同定 ( 二群間 ) Gene Se Enrchmen nalyss クラスタリング分類ネットワーク推定 70

71 マイクロアレイ解析に特化したセミナーは /0 or /4 に開催予定 7

72 アグリバイオインフォマティクス教育研究プログラムのフォーラム活動について本プログラムでは研究課題ごとにフォーラムを形成しセミナーシンポジウムの開催から企業との共同研究学位論文の指導などを行い当該課題の研究教育の活性化を図りますフォーラムのメンバーは本研究科の教員のほか他大学企業試験研究機関の方々から構成されますこれらのメンバーから農学生命情報科学実習 II の受講を通して学位論文の研究におけるバイオインフォマティクスに関係した研究の指導を受けることができますバイオインフォマティクスを利用した農学生命科学の研究あるいはバイオインフォマティクスそのものの研究を行って学位を取得した人には修了認定証を発行します修了の認定は各専攻の学位審査とは別にフォーラムのメンバーが審査会を開いて行います研究指導は研究室の指導教員との合意に基づいて行いますので希望する人は指導教員と相談の上アグリバイオインフォマティクス教育研究プログラム事務局までご連絡下さい現在のところ以下の 4 つのフォーラムが形成されています : 微生物インフォマティクスフォーラム基盤バイオインフォマティクスフォーラムアグリ / バイオセンシングと空間情報学フォーラム食品インフォマティクスフォーラム 7

機能ゲノム学（第6回）

機能ゲノム学（第6回）トランスクリプトーム解析手法の開発東京大学大学院農学生命科学研究科アグリバイオインフォマティクス人材養成ユニット門田幸二 2008/12/08 トランスクリプトーム (transcrptome) とは細胞中に存在する転写物全体 (transcrpt + ome) トランスクリプトーム解析技術 DNA マイクロアレイ Affymetrx GeneChp, cdna アレイ, 電気泳動に基づく方法