生物学者のための マイクロアレイと次世代シークエンス データ解析の実際 2011 年 11 月 15 日帝京大学 東京医科歯科大学大学院疾患生命科学研究部ゲノム構造制御田中裕二郎 chromatinstructure.wordpress.com
なぜ次世代シークエンス (NGS) か 1. ヒストンメチル基転移酵素 ASH1 2. ストレス応答の転写制御因子ネットワーク マイクロアレイとNGSのデータ解析 1. 遺伝子発現プロファイリング a. マイクロアレイ データから興味ある遺伝子を探索する b. RNA seq 2. ChIP 解析 a. ChIP on chip b. ChIP seq
trxg に属する ASH1 の分子機能 ASH1: discs absent, small, or homeotic 1 histone chaperone homology region SET Bromo PHD BAH 2958 Shearn, A. et al. Imaginal disc abnormalities in lethal mutants of Drosophila. PNAS 68, 2594, 1971. Beisel, C. et al. Histone methylation by the Drosophila epigenetic transcriptional regulator Ash1. Nature 419, 857, 2002. Methylation of H3 K4, K9, H4 K20 Byrd, K.N. and Shearn, A. ASH1, a Drosophila trithorax group protein, is required for methylation of lysine 4 residues on histone H3. PNAS 100, 11535, 2003. Methylation of H3 K4 Global reduction of methyl K4 in ash1 / embryos
哺乳類の 31 の SET ドメインメチル基転移酵素 pre SET domain post SET domain Target SETD7 SETD8 H3K4 H4K20 EZH1 EZH2 H3K27 H3K27 SETDB1 H3K9 SUV39H1 SUV39H2 SETMAR G9a GLP H3K9 H3K9 ND H3K9 H3K9 ASH1 NSD1 NSD2 NSD3 SET2 H3K36 H3K36 H3K36 H3K36 H3K36 MLL1 MLL4 MLL2 MLL3 SET1A SET1B H3K4 H3K4 H3K4 H3K4 H3K4 H3K4 MLL5 KIAA1757 ND ND Smyd1 Smyd2 Smyd3 Smyd4 Smyd5 ND H3K36 H3K4 ND ND
1. Dual function of histone H3 lysine 36 methyltransferase ASH1 in regulation of Hox gene expression. Tanaka Y, Kawahashi K, Katagiri Z, Nakayama Y, Mahajan M, Kioussis D. PLoS ONE, 2011 (in press) 2. Regulation of early T cell development by the PHD finger of histone lysine methyltransferase ASH1. Tanaka Y, Nakayama Y, Taniguchi M, Kioussis D. Biochem Biophys Res Commun 18:588 594, 2008. 3. Trithorax group protein ASH1 methylates histone H3 lysine 36. Tanaka Y, Katagiri Z, Kawahashi K, Kioussis D, Kitajima S. Gene 397:161 168, 2007.
ASH1 のゲノム標的を知りたい ChIP seq 解析 ASH1 K4me3 K27me3 K36me3 Control
ストレス反応に於けるゲノムスケールでの転写応答 マイクロアレイ ChIP on chip 解析
モチーフ スキャン
http://chromatinstructure.wordpress.com/protocol/
プラットフォーム マイクロアレイ ChIP on chip エクソンアレイ NGS ChIP seq RNA seq データ処理 蛍光画像解析 配列情報解析 発現レベルまたはピークの一覧 パターンの相似性または違いで分類 遺伝子リスト パスウェイ解析 GO GSEA モチーフ解析
基本はデータの整形 ほとんど Excel でやってしまいます ばらつきを補正する 使えるデータを選別する 各種解析ツールが読み込める形式に変換する
マイクロアレイによる遺伝子発現プロファイリング
マイクロアレイの種類 GeneChip (Affymetrix) Human Genome U133 Plus 2.0 Array( 約 47,000 の転写産物 / 約 54,000 のプローブセット ) Mouse Genome 430 2.0 Array( 約 34,000 の確認されたマウス遺伝子を含む ) Agilent Array SurePrint G3 Human Gene Expression 8x60K(27,958 の Entrez Gene RNA を含む 34,127 の転写産物および 7,419 の lincrna) Whole Human Genome 4x44K v2(27,958 の Entrez Gene RNA を含む 34,127 の転写産物 ) SurePrint G3 Mouse Gene Expression 8x60K(39,430 Entrez Gene RNA および 16,251 の lincrna) Whole Mouse Genome 4x44K v2(39,430 Entrez Gene RNA) アレイ間の差が小さいことが特長 1 種類の遺伝子に対して 11~20 種類の 25mer のプローブを設計することで信頼性の高いデータ total RNA 2 μg 以上 (100~500 ng/μl) 新試薬 Low Input Quick Amp Labeling Kit(LIQA) により 少ない total RNA( 数十 ng) からの解析が可能 設計 ハイブリ条件を最適化することで 5 ケタのダイナミックレンジ SurePrint テクノロジーで印刷された 60 mer の高品質カスタムオリゴアレイプローブ total RNA 1 μg 以上 (100~500 ng/μl)
Agilent Array Low Input Quick Amp Labeling Kit (1カラー用)24 反応分 198,000 8x15Kアレイフォーマット用消耗品 ( ガスケットスライド ) 20,000 RNA Spike In Kit(1カラー用 ) 67,000 SurePrint G3 Human/Mouse GEマイクロアレイキット 8x60K x 3 枚 513,000 Gene Expression Hybridization Kit 22,400 Gene Expression Wash Pack 32,000
アレイ間の補正 ばらつきの原因はプローブの作成効率ハイブリ条件 GeneSpring の補正法は percentile median housekeeping genes 1. 遺伝子名の順に並び替える Excel> データ > 並べ替え 2. House Keeping 遺伝子のデータを集める 3. House Keeping 遺伝子の倍率の平均で割る 4. 補正したシグナル値の順に並び替える Excel> データ > 並べ替え 5. 度数分布を描く Excel> データ > データ分析 > ヒストグラム 6. 発現していない遺伝子を分ける (ratioの分母にしない)
Evidence based selection of housekeeping genes de Jonge HJ et al. PLoS One. 2007 Sep 19;2(9):e898.
Frequency Frequency Log 2 (normalized signals) Log 2 (normalized signals)
発現データから興味ある遺伝子を見つける 発現パターンの違いに着目 Fold Change p 値の評価によっていろいろ ( 多重比較の補正 ) 発現パターンの類似性に着目クラスター分析階層的クラスター vs. 非階層的クラスター遺伝子間の ( 非類似度 ) の尺度クラスター同士を結合する基準
これからは RNA-seq
RNA-seq のメリット ダイナミックレンジが広い 高感度 正確 相似配列や変異の識別 マイクロアレイではバイアスが避けられない allele の識別 1bp 単位の解像度 事前の知識や仮説が必要ないこと 生物学的に意味のある情報 (splicing, editing, UTR) ハイスループット 安い (?)
Ribominus (Invitrogen) Oligo(dT) beads (Dynabeads)
RNA の品質チェック
RNA-seq データ解析ツール Broad Institute GenePattern TopHat (Bowtie) 参照ゲノムへのアラインメント Cufflinks 発現量の計算
遺伝子リストから機能を見つける Gene Ontology パスウェイ解析 (KEGG, BioCarta) 遺伝子セット発現解析転写因子モチーフ スキャン GO DAVID GSEA TRANSFAC Pro JASPAR MAPPER
GenePattern と DAVID によるパスウェイ解析
ChIP on chip 解析
ChIP seq 解析
ChIP-seq 実験 1. Covaris 超音波破砕 2. ChIP seq Sample Prep Kit ライブラリー作成 3. クラスター形成 (cbot)
画像処理 (Base Calling) GA L 22 8 83 16482 16048 0 1 TGCATAAAGTGCTTCCACCCACATCTCACTGGTCCAAATCTAGTCATGTGGCCACAATTAACTACAAGGAAGGT gghhfhhhgfhhhhhhehghbgdfefgchdba`dc_]a_eabaad^^aa_aad_a a_^acaaa_g _[U [U chr8.fa 118054696 R 74 346 Y BWA MACS
ChIP-seq データ解析ツール BWA (Burrow Wheeler Transform Aligner) Bowtie 参照ゲノムへのアラインメント MACS (Model Based Analysis of ChIP Seq) ピーク検出
Evaluation of Algorithm Performance in ChIP Seq Peak Detection. PLoS ONE, 2010
UCSC ゲノムブラウザーの使い方
次世代シークエンス解析ソフト SEQAnsweres A reasonably thorough table of next gen seq software available in the commercial and public domain http://seqanswers.com/forums/showthread.php?t=43