Rでトランスクリプトーム解析 - PDF 無料ダウンロード

R でトランスクリプトーム解析東京大学大学院農学生命科学研究科アグリバイオインフォマティクス教育研究ユニット門田幸二 ( かどたこうじ ) http://www.iu.a.u-tokyo.ac.jp/~kadota/ kadota@iu.a.u-tokyo.ac.jp 1

自己紹介 1995 年 3 月高知工業高等専門学校工業化学科卒業 1997 年 3 月東京農工大学工学部物質生物工学科卒業 1999 年 3 月東京農工大学大学院工学研究科物質生物工学専攻修士課程修了 2002 年 3 月東京大学大学院農学生命科学研究科応用生命工学専攻博士課程修了学位論文 : cdna マイクロアレイを用いた遺伝子発現解析手法の開発 ( 指導教官 : 清水謙多郎教授 ) 2002/4/1~ 産総研生命情報科学研究センター (CBRC) 産総研特別研究員 2003/11/1~ 放医研先端遺伝子発現研究センター研究員 2005/2/16~ 東京大学大学院農学生命科学研究科特任助手 2

参考 URL http://www.iu.a.u-tokyo.ac.jp/~kadota/r_seq.html 自前 PC でやる場合はここを参考にして必要なパッケージを予めインストールしておかねばなりません ( 数時間程度かかります ) 3

トランスクリプトームとはある特定の状態の組織や細胞中に存在する全 RNA( 転写物 transcripts) の総体様々なトランスクリプトーム解析技術マイクロアレイ cdna マイクロアレイ Affymetrix GeneChip タイリングアレイなど配列決定に基づく方法 EST SAGE など次世代シーケンサー (NGS) 電気泳動に基づく方法 Differential Display AFLP など調べたい組織でどの遺伝子がどの程度発現しているのかを一度に観察 4

トランスクリプトームとはある状態のあるサンプル ( 例 : 目 ) のあるゲノムの領域ヒト遺伝子 1 遺伝子 2 遺伝子 3 遺伝子 4 遺伝子全体 ( ゲノム ) どの染色体上のどの領域にどの遺伝子があるかは調べる個体 ( 例 : ヒト ) が同じなら不変 ( 目だろうが心臓だろうが ) AAAAAAA AAAAAAA AAAAAAA AAAAAAA AAAAAAA AAAAAAA AAAAAAA AAAAAAA AAAAAAA AAAAAAA AAAAAAA AAAAAAA AAAAAAA AAAAAAA AAAAAAA AAAAAAA AAAAAAA 転写物全体 ( トランスクリプトーム ) 遺伝子 1 は沢山転写されている ( 発現している ) 遺伝子 4 はごくわずかしか転写されてない 5

トランスクリプトームとはある状態のあるサンプル ( 例 : 目 ) のあるゲノムの領域光刺激ヒト遺伝子 1 遺伝子 2 遺伝子 3 遺伝子 4 遺伝子全体 ( ゲノム ) どの染色体上のどの領域にどの遺伝子があるかは調べる個体 ( 例 : ヒト ) が同じなら不変 ( 目だろうが心臓だろうが ) AAAAAAA AAAAAAA AAAAAAA AAAAAAA AAAAAAA AAAAAAA AAAAAAA AAAAAAA AAAAAAA AAAAAAA AAAAAAA AAAAAAA AAAAAAA AAAAAAA AAAAAAA AAAAAAA AAAAAAA AAAAAAA AAAAAAA AAAAAAA AAAAAAA AAAAAAA AAAAAAA AAAAAAA AAAAAAA AAAAAAA AAAAAAA AAAAAAA AAAAAAA AAAAAAA AAAAAAA AAAAAAA AAAAAAA AAAAAAA 転写物全体 ( トランスクリプトーム ) 遺伝子 2 は光刺激に応答して発現亢進遺伝子 4 も光刺激に応答して発現亢進 6

トランスクリプトーム情報を得る手段光刺激前 (T1) の目のトランスクリプトーム遺伝子 1 遺伝子 2 遺伝子 3 遺伝子 4 これがいわゆる遺伝子発現行列光刺激後 (T2) の目のトランスクリプトーム遺伝子 1 遺伝子 2 遺伝子 3 遺伝子 4 マイクロアレイ電気泳動に基づく方法配列決定に基づく方法 7

トランスクリプトーム取得 ( マイクロアレイ ) よく研究されている生き物は多数の遺伝子 ( の配列情報 ) がわかっている遺伝子 1 遺伝子 2 遺伝子 3 遺伝子 4 光刺激前 (T1) の目のトランスクリプトーム蛍光標識ハイブリダイゼーション ( 二本鎖形成 ) わかっている遺伝子 ( の配列の相補鎖 ) を搭載したチップメーカーによって搭載されている遺伝子の種類が異なる搭載されていない遺伝子 ( 未知遺伝子含む例 : 遺伝子 4) の発現情報は測定不可 8

トランスクリプトーム取得 ( マイクロアレイ ) 光刺激前 (T1) の目のトランスクリプトーム蛍光標識光刺激後 (T2) の目のトランスクリプトームハイブリダイゼーション ( 二本鎖形成 ) 専用の検出器で各遺伝子に対応する領域の蛍光シグナル強度を測定ハイブリダイゼーションとシグナル検出 9

トランスクリプトーム取得 (NGS) 次世代シーケンサー (Illumina 社の場合 ) 光刺激前 (T1) の目のトランスクリプトーム配列決定ペアードエンド法断片配列の両末端が数百塩基以内の対の二種類の配列が得られる数百塩基程度に断片化シングルエンド法約 50-250 塩基二種類のアダプター配列を両末端に付加シングルエンド法の場合アダプター 1 アダプター 2 数百塩基程度 10

FASTQ 形式 ( と FASTA 形式 ) FASTA 形式 > ではじまる一行の description 行と配列情報からなる形式 NGS の read 長は短いので実質的に一つのリードを二行で表現 >SEQ_ID GATTTGGGGTTCAAAGCAGTATCGATCAAATAGTAAATCCATTTGTTCAACTCACAGTTT FASTQ 形式一行目 : @ ではじまる一行の description 行二行目 : 配列情報三行目 : + からはじまる一行 ( の description 行 ) 四行目 : クオリティ情報 @SEQ_ID GATTTGGGGTTCAAAGCAGTATCGATCAAATAGTAAATCCATTTGTTCAACTCACAGTTT +!''*((((***+))%%%++)(%%%%).1***-+*''))**55CCF>>>>>>CCCCCCC65 http://en.wikipedia.org/wiki/fastq_format 11

データ解析のスタート地点 NGS から得られた FASTQ 形式ファイルデータ取得完了! A1.fq A2.fq B1.fq B2.fq なんじゃこの変な記号は! 何をどうすれば... 12

様々な Motivation ~ の原因遺伝子 ( ガン関連遺伝子とか ) を同定したい FASTQ 以降の一通りの解析ができるようになりたい (Windows の )R でできることとできないことモデル生物と非モデル生物の解析戦略の違い倍率変化で解析 vs. 分布を使って解析いろんな R パッケージがあるけれど RNA-seq で二つのサンプルを比較し発現変動遺伝子同定までを行うまでの流れを一通り紹介 A 群腎臓正常組織 wildtype B 群肝臓腫瘍組織 mutant 13

比較トランスクリプトーム解析の流れ複数の FASTQ ファイル Linux マシンリファレンス配列の作成 A1.fq, A2.fq, B1.fq, B2.fq 複数サンプルの混合アセンブルにより RefSeq のような転写物配列集合 (multi-fasta ファイル ) を得るイメージマッピングどの転写物にどれだけの数のリードがマップされたかといういわゆる遺伝子発現行列を得るイメージデータ解析発現変動遺伝子のリストアップや作図などすべてが (Windows の )R で完結するというわけではありません 14

比較トランスクリプトーム解析の流れ複数の FASTQ ファイル Linux マシンリファレンス配列の作成クオリティチェックアセンブル結果 (multi-fasta) ファイルから平均長やトータルの長さなどの基本情報を抽出マッピングマッピング結果 (BED 形式 ) ファイルを入力として転写物ごとのマップされたリード数をカウントデータ解析発現変動遺伝子のリストアップや作図など大規模計算部分以外は一通りできます 15

Linux マシン使用部分の解決策自前で大容量メモリ計算サーバ (Linux) を購入し必要なソフトのインストールからスタート特徴 : 難易度は高いが思い通りの解析が可能 Linux サーバをもつバイオインフォ系の人にお願いする特徴 : 気軽に頼める知り合いがいればいいがその人次第 DDBJ Read Annotation Pipeline を利用特徴 : 一番お手軽な選択肢だがサポートしているプログラムのみデータ登録が前提?! だが手取り足取り丁寧に教えてくれるので個人的にはこちらを推奨 16

比較トランスクリプトーム解析の流れ複数の FASTQ ファイルクオリティチェックリファレンス配列の作成アセンブル結果 (multi-fasta) ファイルから平均長やトータルの長さなどの基本情報を抽出マッピングマッピング結果 (BED 形式 ) ファイルを入力として転写物ごとのマップされたリード数をカウントデータ解析発現変動遺伝子のリストアップや作図など 17

様々な de novo アセンブリプログラム de novo genome assembly 用プログラム Velvet (Zerbino and Birney, Genome Res., 18: 821-829, 2008) ABySS (Simpson et al., Genome Res., 19: 1117-1123, 2009) EULER-SR (Chaisson et al., Genome Res., 19: 336-46, 2009) Platanus (unpublished) de novo transcriptome assembly 用プログラム ( 特に Illumina) Multiple-k (Surget-Groba and Montoya-Burgos, Genome Res., 20: 1432-1440, 2010) Trans-ABySS (Robertson et al., Nat. Methods, 7: 909-912, 2010) Rnnotator (Martin et al., BMC Genomics, 11: 663, 2010) Trinity (Grabherr et al., Nat. Biotechnol., 29: 644-652, 2011) Oases (Schulz et al., Bioinformatics, 28: 1086-1092, 2012) 18

ゲノム用とトランスクリプトーム用の違い 1 Sequencing depth 情報の利用法ゲノムの場合 ( 例えば ) 配列長の 10 倍読んだデータなら平均的にゲノムのどの領域も 10 回程度読まれていると仮定される (10X coverage) k-mer 出現頻度分布に基づくエラー補正が原理的に可能 ( 実際によく用いられる ) 多くのアセンブラは sequencing depth 情報をリピート配列の認識に利用トランスクリプトーム (RNA-seq) の場合 Martin and Wang, Nature Reviews Genet., 12: 671-682, 2011 転写物ごとに大きく異なる ( 低発現転写物は low coverage, 高発現転写物は high coverage) アセンブル前の段階でどの k-mer がどの転写物由来かはわからないので k-mer 出現頻度の外れ値として artifacts を除去する戦略は ( 低発現転写物がターゲットの場合には ) 不可能ただし low coverage なものはたとえ除去していなくてもアセンブルされにくい 19

ゲノム用とトランスクリプトーム用の違い 2 ストランド情報ゲノムの場合 + 鎖と - 鎖の両方が sequence されるため heterozygosity( 対立遺伝子の塩基配列が異なる ) がある場合にアセンブルがうまくいかないトランスクリプトーム (RNA-seq) の場合昔は (Illumina の場合 )strand specificity はなかったが最近の Illumina はストランド ( 方向性 ) の情報を利用可能アイソフォーム (isoforms or transcript variants) の存在ゲノムの場合は気にする必要はない Martin and Wang, Nature Reviews Genet., 12: 671-682, 2011 ある遺伝子領域 (ORF) から全ての可能な転写物 (transcripts) を RNA-seq データのみから再構築するのは困難 20

multi-fasta ファイルからの各種情報抽出 multi-fasta って何? 22

multi-fasta ファイルからの各種情報抽出 R で multi-fasta ファイルを読み込んで自在に解析できます 23

R の起動デスクトップにある hoge フォルダ中のファイルを解析 24

作業ディレクトリの変更 1 2 3 4 5 6 25

getwd() と打ち込んで確認 26

コピー & ペースト 1 2 1 一連のコマンド群をコピーして 2R Console 画面上でペースト hoge フォルダに hoge1.txt が作成されているはず 27

結果ファイルを眺めて動作確認 N50 って何? 28

N50 アセンブルがどれだけうまくいっているかを表す指標の一つ長いコンティグから足していって Total_length の 50% に達したときのコンティグの長さ contig_2 (103 bp) Total_length / 2 (120.5 bp) contig_3 (65 bp) contig_4 (49 bp) contig_1 (24 bp) Total_length (241 bp) average だと外れ値の影響を受けやすく median だと短いコンティグが多くを占める場合に不都合らしい 29

multi-fasta ファイルからの各種情報抽出 width 関数を使えば配列長情報を取り出せるようだ 30

multi-fasta ファイルからの各種情報抽出 50 bp 以上のコンティグからなるサブセットの抽出ができそうだ! 31

情報抽出手順 ( の一部 ) 指定した配列長以上のものを抽出できます 32

情報抽出手順 ( の一部 ) 入力ファイル :sample1.fasta >kadota AGTGACGGTCTT 出力ファイル :tmp1.fasta >kadota TGACGGT 33

情報抽出手順 ( の一部 ) 入力ファイル :sample1.fasta >kadota AGTGACGGTCTT 出力ファイル :tmp1.fasta >kadota TGACGGT subseq 関数は塩基配列, start, end という形式で使うようだ 34

関数の使用法について? 関数名で使用法を記したウェブページが開くページの下のほうに ( 大抵の場合 ) 使用例が掲載されている使用法既知の関数のマニュアルをいくつか読んで慣れておく 35

入力ファイル :sample1.fasta >kadota AGTGACGGTCTT 出力ファイル :tmp1.fasta >kadota TGACGGT マニュアルの使用例をいくつか試してステップアップ 36

list_sub2.txt 出力ファイル :tmp4.fasta >contig_4 CGTGCTGATT >contig_2 CTGCCT 37

配列ごとの GC 含量を計算したいとき 38

マッピングの基本的なイメージ基本的なマッピングプログラム (basic aligner) を用いた場合リファレンス配列 : ゲノム count T1 サンプルの RNA-Seq データ mapping 遺伝子 1 遺伝子 2 遺伝子 3 遺伝子 4 リファレンス配列 : トランスクリプトーム count 遺伝子 1 遺伝子 2 遺伝子 3 遺伝子 4 ゲノム配列へのマッピングの場合複数のエクソンにまたがるリード (spliced reads) はマップされないので 40

対策 ( リードが短かったころ ;<50bp) 既知の splice junction 周辺配列を予め組み込んだリファレンスゲノム配列側にマッピング遺伝子 1 リファレンスゲノム配列への組み込み後のイメージ >chr1 GGGGTTCAAAGCAGTATCGATCAAATAGTA >chr2 GTTCAAAGCAGTATCGATCAAATAGTAAAT > 遺伝子 1 の Exon1 の end-20bp から exon2 の start+20bp ACGATGCAGCCTTAACGATGGTCCACAATT > 遺伝子 1 の Exon2 の end-20bp から exon3 の start+20bp ( 少なくとも ) 既知の exon 間をまたぐリードのマッピングは可能 41

RNA-MATE (Cloonan et al., Bioinformatics, 25: 2615-2616, 2009) 対策 ( 一リード >75bp 程度の現在 ) 再帰的にマッピングする戦略 (recursive mapping strategy) ( 通常のマッピングプログラムでマップされなかったものに対して ) リードを短くしてマップされるかどうかを繰り返す >75bp 程度のマップされなかったリードの集団 mapping 遺伝子 1 マップされない遺伝子 1 マップされない遺伝子 1 マップされた splice-aware aligner を用いることで ( 既知遺伝子構造情報を参照することもないので ) 新規アイソフォームの同定も可能 42

Garber et al., Nat. Methods, 8: 469-477, 2011 の Fig. 1 Splice-aware aligner の様々な戦略詳細を知りたいヒトは右上論文の Review を参照 43

雑感一口にトランスクリプトーム解析といっても目的や手段は多様トランスクリプトーム配列取得ゲノム配列既知の場合 Cufflinks などを用いて遺伝子構造推定 ( アノテーション ) ゲノム配列未知の場合 Trinity などのトランスクリプトーム用アセンブラを実行遺伝子 (or isoform) ごとの発現量推定 RSEM などを利用して発現量情報を得るある特定のサンプル内での遺伝子間の発現量の大小関係を知りたい Length bias や GC 含量 bias などの各種補正がポイント遺伝子レベルの発現量 isoform レベルの発現量の正確な推定比較するサンプル間で発現変動している遺伝子 (or isoform) の同定 TCC パッケージ ( など ) を利用して発現変動遺伝子 (DEG) を得る Sequence depth やサンプル間で発現している遺伝子の composition bias の補正がポイント (GO 解析など )DEG 結果を用いる多くの下流解析結果に影響を及ぼす 44

定量化 : 遺伝子レベル isoform レベル復習 RNA-seq データは転写物 (transcripts) を断片化して sequencing したもの一つの遺伝子領域 (locus) から複数の splice variants(or isoforms or transcripts) が生成されうる特定の isoform のみで使われている exon もあれば ( 例 :isoform1 だけが exon5 を使っている ) 転写されるすべての isoforms で共通して使われている exon もある ( 例 :exons 1, 2, and 4) し ( 以下の図にはないが ) 特定の isoform のみで使われている exon がない場合もある exon1 2 3 4 5 a gene (or a locus) isoform1 isoform2 isoform3 exon1 2 3 4 5 1 2 3 4 1 2 4 isoform レベルの定量化も様々な戦略があります 45

isoform レベルの定量化 ALEXA-seq の場合 ALEXA-seq (Griffith et al., Nat. Methods, 7: 843-847, 2010) 戦略 : そのisoformだけにマップされたリード数 (unique reads) をカウント短所 :unique exonを持たないisoformの定量化はできない exon1 2 3 4 5 a gene (or a locus) isoform1 isoform2 isoform3 exon1 2 3 4 5 1 2 3 4 1 2 4 isoform2 と 3 の定量化ができない 46

isoform レベルの定量化 Cufflinks(Trapnell, 2010) や MISO(Katz, 2010) の場合戦略 : 複数の isoforms にマップされるリード (multi reads) の割り当てについてそれ以外のマップされたリードの ( 長さなどを考慮した ) 割合などを考慮して割り当てる説明のための仮定ある遺伝子領域から二つの転写物ができている (transcript1 と transcript2) 真実 : 発現レベルは transcript1 のほうが 4 倍高い exon1,2,3 の長さ比は 2:2:1 Garber et al., Nat. Methods, 8: 469-477, 2011 の Fig. 3b exon1 2 3 全部で 114 reads transcript1 transcript2 発現比 4:1 RNA-seq 結果の組成比は 16:3 transcript1 transcript2 47

isoform レベルの定量化戦略 : 複数のisoformsにマップされるリード (multi reads ) の割り当てについてそれ以外のマップされたリードの ( 長さなどを考慮した ) 割合などを考慮して割り当てるマッピング結果? exon1にマップされたリード数 :60 reads exon2にマップされたリード数 :48 reads exon3 にマップされたリード数 :6 reads 問題 :exon1 にマップされた 60 reads を transcript1 と 2 にどのように分配するか? マップされたリード数の比 (48 : 6 = 8 : 1) は長さも考慮した比 (48/2 : 6 = 4 : 1) は Garber et al., Nat. Methods, 8: 469-477, 2011 の Fig. 3b exon1 2 3 exon1 transcript1 transcript2 transcript1 transcript2 exon1 にマップされた 60 reads の 80% を isoform1 へ残りの 20% を isoform2 へ分配 48

定量化 : 遺伝子レベル isoform レベル全体的な流れとしては遺伝子レベル isoform レベル例 : 新規 splice variant の発見 (Twine et al., PLoS One, 6: e16266, 2011) 今ここにあるデータを様々な視点で解析可能な解像度は遺伝子レベルのデータ例 : 遺伝子セット解析 (Gene Ontology 解析やパスウェイ解析など ) のための基本情報は遺伝子レベルの解像度 isoform レベルの情報遺伝子レベルの情報への要約戦略 exon union method (Mortazavi et al., Nat. Methods, 5: 621-628, 2008) 全ての isoforms 間で用いられている exon の情報 (union: 和集合 ) を利用 exon intersection method (Bullard et al., BMC Bioinformatics, 11: 94, 2010) 複数 isoforms 間で共通して用いられている exon の情報のみ (intersection: 積集合 ) を利用論点 :count 情報を得る際にどの exon の情報を用いるか? 49

どの exon のカウント情報を用いるか? 算出された生リードカウント結果 Garber et al., Nat. Methods, 8: 469-477, 2011 の Fig. 3c exon union method( 和集合 ) の場合 :20 reads Exon intersection method( 積集合 ) の場合 :11 reads 様々な思想があります当然その後の解析結果に影響を及ぼします 50

発現レベルの定量化を行うプログラムたち ( おそらく ) ゲノムマップデータを入力とするもの Scripture (Guttman et al., Nat. Biotechnol., 28: 503-510, 2010) Cufflinks (Trapnell et al., Nat. Biotechnol., 28: 511-515, 2010) rquant (Bohnert and Ratsch, Nucleic Acids Res., 38: W358-W351, 2010) ALEXA-seq (Griffith et al., Nat. Methods, 7: 843-847, 2010) MISO (Katz et al., Nat. Methods, 7: 1009-1015, 2010) IsoformEx (Kim et al., BMC Bioinformatics, 12: 305, 2011) RSEM (Li and Dewey, BMC Bioinformatics, 12: 323, 2011) SLIDE (Li et al., PNAS, 108: 19867-19872, 2011) ( おそらく ) トランスクリプトームマップデータを入力とするもの NEUMA (Lee et al., Nucleic Acids Res., 39: e9, 2011) IsoEM (Nicolae et al., Algorithms Mol. Biol., 6: 9 2011) RSEM (Li and Dewey, BMC Bioinformatics, 12: 323, 2011) 51

Reference-based strategy 1. Splice-aware aligner(or spliced aligner) を用いてゲノムマッピング BLAT (Kent WJ, Genome Res., 12: 656-664, 2002) QPALMA (De Bona et al., Bioinformatics, 24: i174-i180, 2008) TopHat (Trapnell et al., Bioinformatics, 25: 1105-1111, 2009) GSNAP (Wu et al., Bioinformatics, 26: 873-881, 2010) SpliceMap (Au et al., Nucleic Acids Res., 38: 4570-4578, 2010) MapSplice (Wang et al., Nucleic Acids Res., 38: e178, 2010) HMMSplicer (Dimon et al., PLoS One, 5: e13875, 2010) X-MATE (Wood et al., Bioinformatics, 27: 580-581, 2011) RNASEQR (Chen et al., Nucleic Acids Res., 40: e42, 2012) PASSion (Zhang et al., Bioinformatics, 28: 479-486, 2012) ContextMap (Bonfert et al., BMC Bioinformatics, 13 Suppl 6: S9, 2012) これらのプログラム出力結果を利用して最終的な遺伝子構造を構築するのが Cufflinks や Scripture などのプログラム TopHat と Cufflinks を使って実際の作業を行うプロトコルもあります Trapnell et al., Nat. Protocols, 7: 562-578, 2012 52

Basic aligner について splice-aware aligner (spliced aligner) の多く?! は内部的に basic aligner (unspliced aligner) を利用しているアルゴリズム的な観点から大きく二つに大別可能 Seed-and-extend methods MAQ (Li et al., Genome Res., 18: 1851-1858, 2008) SHRiMP2 (David et al., Bioinformatics, 27: 1011-1012, 2011) Burrows-Wheeler transformation (BWT) methods Bowtie (Langmead et al., Genome Biol., 10: R25, 2009) BWA-SW (Li and Durbin, Bioinformatics, 26: 589-595, 2010) Schbath et al., J. Comput. Biol., 19: 796-813, 2012 BWT 系は mismatch や indel に弱いが速いなどの特徴があったが両者ともに改良されている模様昔ながらのプログラムの結果が不満なら最新のプログラムを試してみるのもありだろう 53

Garber et al., Nat. Methods, 8: 469-477, 2011 の Fig. 1 Splice-aware aligner の様々な戦略 TopHat SpliceMap MapSplice BLAT QPALMA GSNAP 54

比較トランスクリプトーム解析の流れ複数の FASTQ ファイルクオリティチェックリファレンス配列の作成アセンブル結果 (multi-fasta) ファイルから平均長やトータルの長さなどの基本情報を抽出マッピングマッピング結果 (BED 形式 ) ファイルを入力として遺伝子ごとのマップされたリード数をカウントデータ解析発現変動遺伝子のリストアップや作図など発現変動解析の入力データとして用いる遺伝子発現行列中の数値は一意に決まるわけではない ( 様々なバリエーションがあります ) 55

マッピング = ( 大量高速 ) 文字列検索マップされる側の配列 :4 コンティグ (or 4 遺伝子 or 4 染色体 ) マップする側の NGS 由来塩基配列データ : AGG 出力ファイル :hoge2.txt R でやってみよう 56

パターンマッチング 57

基本はコピペ 1 一連のコマンド群をコピーして 2R Console 画面上でペースト 58

実行結果実行前の hoge フォルダ実行後の hoge フォルダ 59

エクセルで開くとき ( ドラッグ & ドロップで開こうとすると ) エラーが出て一回目は開けないことがあるがその後もう一度同じ作業を繰り返すと開けます 60

ありがちなミス 1 作業ディレクトリの変更を忘れている 61

ありがちなミス 2 必要な入力ファイルが作業ディレクトリ中に存在しない 62

ありがちなミス 3 出力予定のファイル名と同じものを別のプログラムで開いているため最後の write.table 関数のところでエラーが出る 63

ありがちなミス 4 実行スクリプトをコピーする際最後の行のところで改行を含ませずに R Console 画面上でペーストしたため最後のコマンドが実行されない ( 出力ファイルが生成されない ) 64

----- ここまで ----- の一つ上の空行にはスクリプト最終行のコマンドを確実に実行するためという深い意味があります 65

色についての説明 66

hoge4.fa ファイルに対して NGS 由来塩基配列データ ( 例 : CCT ) のマッピング (or 文字列検索 ) を行い一致領域情報を任意のファイル名 ( 例 : hoge3.txt ) で出力したいときは? 67

1 テンプレートのスクリプトをコピーして 2 メモ帳などのテキストエディタにペーストして 3 必要な箇所を変更して 68

4 変更後のスクリプトをまたコピーして 5( 入力ファイルがあるフォルダの場所になっているかどうかをちゃんと確認して ) ペースト 69

実行結果実行前の hoge フォルダ実行後の hoge フォルダ 70

より現実に近い解析 data_reads.txt >seq1 TTT >seq2 GGG >seq3 ACT >seq4 ACA 複数個のリードからなるファイルを読み込んで一度にマッピング結果を返すことも可能です 71

パターンマッチング data_reads.txt >seq1 TTT >seq2 GGG >seq3 ACT >seq4 ACA 出力ファイル :hoge4.txt 72

出力結果ファイルと発現量の関係出力ファイル :hoge4.txt data_reads.txt >seq1 TTT >seq2 GGG >seq3 ACT >seq4 ACA contig_1 contig_2 contig_3 contig_4 multi mapper( 複数個所にマップされるリード ) の取り扱いは? 73

よく見かけるカウントデータ取得条件 basic aligner の一つである Bowtie プログラムを利用してリファレンス配列 ( ゲノム or トランスクリプトーム ) の一カ所とのみ ( 最大 2 塩基ミスマッチまで許容して ) 一致するリード ( uniquely mapped reads or unique mapper) 数をカウント Marioni et al., Genome Res., 18:1509-1517, 2008 Bullard et al., BMC Bioinformatics, 11:94, 2010 Risso et al., BMC Bioinformatics, 12:480, 2011 ReCount (Frazee et al., BMC Bioinformatics, 12:449, 2011) 74

Unique mapper のみにすると出力ファイル :hoge4.txt data_reads.txt >seq1 TTT >seq2 GGG >seq3 ACT >seq4 ACA contig_1 contig_2 contig_3 contig_4 75

1. をやってみましょう 76

入力ファイルと目的のおさらい入力ファイル 1:sample_1.bed BED 形式ファイル 1 列目の情報のみを用いてコンティグ ( 遺伝子 ID) ごとのカウント ( 出現回数 ) 情報取得のために利用入力ファイル 2:hoge4.fa マップに用いたリファレンス配列 multi-fasta 形式ファイル Description 行のコンティグ名 (ID) の並びで結果を出力させるために利用出力ファイル :output1.txt 77

BED 形式 http://genome.ucsc.edu/faq/faqformat.html#format1 78

マッピング結果の出力ファイル形式 ( ゲノム配列の場合 ) どの染色体上のどの位置に ( どのリードが ) マッピングされたかあるいは ( トランスクリプトーム配列の場合 ) どの転写物配列上のどの位置に ( どのリードが ) マッピングされたかを表すファイル形式 ( フォーマット ) は複数あります : BED (Browser Extensible Data) format BEDtools (Quinlan et al., Bioinformatics, 26: 841-842, 2010) GFF (General Feature Format) format SAM (Sequence Alignment/Map) format SAMtools (Li et al., Bioinformatics, 25: 2078-2079, 2009) 79

実行結果出力ファイル :output1.txt 80

研究目的別留意点ある特定のサンプル内での遺伝子間の発現量の大小関係を知りたい場合配列長由来 bias: 長いほど沢山 sequence される GC 含量由来 bias: カウント数の分布が GC 含量依存的であるサンプル間比較 (sample A vs. B など ) で発現変動遺伝子 ( DEG) を調べたい場合 sequence depth の違い : 総リード数が x 倍違うと全体的に x 倍変動組成の違い : サンプル特異的高発現遺伝子の存在で比較困難に RPM(CPM) 正規化 TMM 正規化 TbT 正規化 ideges 正規化総リード数を揃えるだけ DEG を ( 正確には見積もらないので ) 多めにトリム正規化の手順の中で同定した DEG をトリムすることでより頑健に律速であった DEG 同定部分の改良によりより頑健且つ高速に 82

Garber et al., Nat. Methods, 8: 469-477, 2011 の Fig. 3a 配列長を考慮した発現量推定のイメージ gene1: 3 exons (middle length), 14 reads mapped (low coverage) gene2: 3 exons (middle length), 56 reads mapped (high coverage) gene3: 2 exons (short length), 12 reads mapped (middle coverage) gene4: 2 exons (long length), 31 reads mapped (middle coverage) マップされたリード分布生リードカウント結果補正度の発現量長さが同じならリード数の多い方が発現量高い (gene 1 vs. 2) 長いほどマップされるリード数が多くなる効果を補正する必要がある (gene 3 vs. 4) 一つのサンプル内で転写物 ( 遺伝子 ) 間の発現レベルの大小を比較したい場合には配列長を考慮すべきである 83

少ないカウント数多い GC bias の実例 Risso et al., BMC Bioinformatics, 12: 480, 2011 の Fig.1 GC 含量が多い遺伝子や少ない遺伝子上にマップされたリードカウント数は GC 含量が中程度の遺伝子に比べて少ない傾向にある少ない多い 84

GC bias 補正 (EDASeq パッケージ ) Quantile 正規化 GC bias が緩和されていることがわかる 85

Sequence depth 周辺の正規化法 RPM (Mortazavi et al., Nat. Methods, 5: 621-628, 2008) RPKM(Reads per kilobase of exon per million mapped reads) の長さ補正を行わないバージョン Reads per million mapped reads の略 TMM 正規化 (Robinson and Oshlack, Genome Biol., 11: R25, 2010) Trimmed Mean of M values の略発現変動遺伝子 (DEG) のデータ正規化時の悪影響を排除すべく M-A plot 上で周縁部にあるデータを使わずに正規化係数を決定する方法 TbT 正規化 (Kadota et al., Algorithms Mol. Biol., 7: 5, 2012) TMM 法の改良版で TMM-baySeq-TMM という 3 ステップで正規化を行う方法 1st step で得られた TMM 正規化係数を用いて 2nd step (bayseq) で DEG 同定を行い 3rd step (TMM) では DEG を排除した残りのデータで TMM 正規化 DEG の影響を排除しつつもできるだけ多くの non-deg データを用いて頑健に正規化係数を決めるという思想 (DEG elimination strategy 提唱論文 ) ideges 正規化 (Sun et al., submitted) DEG elimination strategy (DEGES) を一般化しより高速且つ頑健にしたもの TbT は複製ありのデータのみにしか対応していなかったが複製なしデータにも対応 ideges/edger 正規化法 : 複製ありデータ正規化用 TMM-(edgeR-TMM) n パイプライン ideges/deseq 正規化法 : 複製なしデータ正規化用 DESeq-(DESeq-DESeq) n パイプライン二群間比較用 87

RPM の問題点仮定全 4 遺伝子配列長は同じ遺伝子 4だけが発現変動遺伝子 (DEG) サンプル A (all reads = 15) 遺伝子 1 遺伝子 2 遺伝子 3 遺伝子 4 サンプル A (all reads = 30) 遺伝子 1 遺伝子 2 遺伝子 3 遺伝子 4 補正サンプルB (all reads = 30) 遺伝子 1 遺伝子 2 遺伝子 3 遺伝子 4 サンプルB (all reads = 30) 遺伝子 1 遺伝子 2 遺伝子 3 遺伝子 4 補正後の解析結果 :A で高発現が 3 個, B で高発現が 1 個 88

M=log(B)-log(A) -2-1 0 1 2 M 0-2 -1 1 2 M-A plot 総リード数が 30 になるように補正した後のデータ A 群 < B 群 B 群で高発現 A 群 = B 群 A 群 > B 群 A 群で高発現 1 2 3 4 5 Ave. 低発現全体的に高発現 1 2 3 4 5 Ave. (B 群で ) 高発現の発現変動遺伝子の存在が悪影響を及ぼしている 89

TMM 正規化法 (Robinson and Oshlack, Genome Biol., 11:R25, 2010) おさらい (RPM の正規化手順 ) サンプルごとの library size(= 総リード数 ) を算出し遺伝子 ( 行 ) ごとの生リードカウントを library size で割る ( さらにその結果 100 万を掛ける ) 総リード数は一定という仮定に基づいてデータの正規化を行う RPM 補正 ( 全体の平均値を揃える ) は高発現の発現変動遺伝子の悪影響を受けるやりたいこと : 発現変動していない遺伝子 ( ピンク以外 ;non Differentially Expressed Genes (non-deg)) の発現比 (M 値に相当 ) の要約統計量 ( 平均とか中央値のこと ) が正規化後のデータでできるだけ 0 になるようにしたい RPM 補正では -1 になっており 0 から大きく外れていることがわかる 90

M 0-2 -1 1 2 3 Robinson and Oshlack, Genome Biol., 11:R25, 2010 TMM 正規化法 ( 発現比に相当する )M 値の要約統計量の上位下位それぞれ 30% をトリムした後の平均値 (trimmed mean) が揃うような正規化係数 (TMM 正規化係数 ) を library size に掛けることで effective library size を算出しその値で割る RPM 法 : 生リードカウントを library size で割る TMM 法 : library size TMM 正規化係数で割る Ave. 92

Trimmed mean の計算イメージある 10 個の要素からなる数値ベクトル (0,1,1,5,5,5, 6,10,100,1000) があったときに上位下位それぞれ x% を除いて ( トリムして ) 計算する平均値のこと x=20% の場合 x=10% の場合 93

TMM 補正の有無で結論が異なることも得られた発現変動遺伝子 (DEG) セット中の割合 TMM 補正なし (Marioni et al., Genome Res., 18: 1509-1517, 2008) サンプル A(Kidney):78% サンプル B(Liver):22% TMM 補正あり (Robinson and Oshlack, Genome Biol., 11:R25, 2010) サンプル A(Kidney):53% サンプル B(Liver):47% TMM 法で使用されているパラメータ ( 一部 ) log 2 (B/A) で発現変動順にランキングし全体で全遺伝子数の60% 分をTrim (P DEG = 60%) その内訳はサンプルA 側とサンプルB 側で高発現なものを各 50% とする (P A = 50%) A 群 B 群 Trim 後に残ったデータのみを用いて正規化係数を決定 PDEG P A P DEG ( 100 PA ) 94

32000 行 A 群 vs. B 群の二群間比較 Marioni et al., Genome Res., 18: 1509-1517, 2008 ( 当時は常識だった )RPM 補正後のデータを用いて二群で発現の異なる遺伝子 (Differentially Expressed Genes; DEGs) を同定した kidney( 腎臓 ) liver( 肝臓 ) 得られた DEG セットを眺めてみると A 群 (kidney) で高発現なものが 78% を占め B 群 (liver) で高発現なものが 22% しかなかった hoge フォルダ中の SupplementaryTable2_changed.txt ファイル 95

M 0-2 -1 1 2 3 偏りの原因は TMM 正規化法 (Robinson and Oshlack, Genome Biol., 11:R25, 2010) ごく一部の B 群 (liver) で高発現の発現変動遺伝子 (DEG) が存在していたため真実 ( 遺伝子 4 のみ DEG) をうまく反映 (liver で超高発現の ) 少数の DEG の影響によりその他の 3 遺伝子の発現レベルが過小評価されている A 群 (kidney) で高発現の DEG が多く検出される結果になっていた! Ave. 96

TMM 論文の実際の図 A 群 (kidney) < B 群 (liver) Robinson and Oshlack, Genome Biol., 11:R25, 2010 のFig. 1c このあたりのB 群 (liver) で高発現のDEGの存在によりそれ以外がA 群 (kidney) で高発現側に偏っていることがわかる A 群 = B 群 A 群 (kidney) > B 群 (liver) 97

Sequence depth 周辺の正規化法 RPM (Mortazavi et al., Nat. Methods, 5: 621-628, 2008) RPKM(Reads per kilobase of exon per million mapped reads) の長さ補正を行わないバージョン Reads per million mapped reads の略 TMM 正規化 (Robinson and Oshlack, Genome Biol., 11: R25, 2010) Trimmed Mean of M values の略発現変動遺伝子 (DEG) のデータ正規化時の悪影響を排除すべく M-A plot 上で周縁部にあるデータを使わずに正規化係数を決定する方法 TbT 正規化 (Kadota et al., Algorithms Mol. Biol., 7: 5, 2012) TMM 法の改良版で TMM-baySeq-TMM という 3 ステップで正規化を行う方法 1st step で得られた TMM 正規化係数を用いて 2nd step (bayseq) で DEG 同定を行い 3rd step (TMM) では DEG を排除した残りのデータで TMM 正規化 DEG の影響を排除しつつもできるだけ多くの non-deg データを用いて頑健に正規化係数を決めるという思想 (DEG elimination strategy 提唱論文 ) ideges 正規化 (Sun et al., submitted) Dillies et al., Brief. Bioinform., 2012 Sep 17 DEG elimination strategy (DEGES) 発現変動遺伝子の影響を排除した後に正規化を行うという戦略 DEG elimination strategy (DEGES) を一般化しより高速且つ頑健にしたもの TbT は複製ありのデータのみにしか対応していなかったが複製なしデータにも対応 ideges/edger 正規化法 : 複製ありデータ正規化用 TMM-(edgeR-TMM) n パイプライン ideges/deseq 正規化法 : 複製なしデータ正規化用 DESeq-(DESeq-DESeq) n パイプライン 98

DEGES って何デゲス? 概念図 ~ アラフォー達の略称に関する議論 ~ 門田 : DES で行くデス西山 : DEGES はいかが? 門田 : 面白くないので却下! 西山 : 左様デゲスか DEGES って何デゲス? 門田 : 採用! RNA-seq などから得られるタグカウントデータの正規化を multi-step で行う概念の総称 DEG 同定を正確に行うのが正規化の目的の一つではあるが正規化時に DEG の存在自体が DEG として同定されるのを阻むことがわかった ( 自爆テロ ) それゆえ正規化時に DEG の検出を行って non-deg のみ利用するのがポイント 99

DEGES って何デゲス? DEGES の step1-3 で内部的に用いる方法は実用上なんでも?! よい正規化 DEG 検出正規化 STEP 1 STEP 2 STEP 3 http://cran.r-project.org/web/packages/tcc/ TbT 正規化法 (Kadota et al., 2012) TMM-baySeq-TMM パイプライン step2 で bayseq パッケージ中の DEG 同定法 ( 経験ベイズ ) を利用しているため遅い Iterative TbT(step2-3 を繰り返してより頑健な正規化係数を得る ) は非現実的 ideges/edger 正規化法 (Sun et al., submitted) TMM-(edgeR-TMM) n パイプライン Step2 で edger パッケージ中の DEG 同定法 (exact test) を利用しているため速い! TMM bayseq TMM iteration? TMM edger TMM iteration? DEGES を iterative に行う頑健な ideges( 愛デゲス ) パイプラインを利用可能 YES YES NO NO TCC パッケージ (ver. 1.0.0) に実装済み 100

どういうデータのときに有効デゲスか? 仮想データ (10,000 genes 6 samples) 2,000 DEGs (20% が DEG) Group1 (G1) で高発現 :gene1~1000 (50%) Group2 (G2) で高発現 :gene1001~2000 (50%) 1,000 DEGs (10% が DEG) Group1 (G1) で高発現 :gene1~500 (50%) Group2 (G2) で高発現 :gene501~1000 (50%) 500 DEGs (5% が DEG) Group1 (G1) で高発現 :gene1~250 (50%) Group2 (G2) で高発現 :gene251~500 (50%) DEG 数の Group 間での偏りがない場合 TMM 正規化法と DEGES 系の正規化法の理論上の性能は互角デゲス G1 3 replicates G2 3 replicates 101

どういうデータのときに有効デゲスか? 仮想データ (10,000 genes 6 samples) 2,000 DEGs (20% が DEG) Group1 (G1) で高発現 :gene1~1800 (90%) Group2 (G2) で高発現 :gene1801~2000 (10%) 1,500 DEGs (15% が DEG) Group1 (G1) で高発現 :gene1~900 (60%) Group2 (G2) で高発現 :gene901~1500 (40%) 1,000 DEGs (10% が DEG) Group1 (G1) で高発現 :gene1~200 (20%) Group2 (G2) で高発現 :gene201~1000 (80%) http://www.almob.org/content/7/1/5/figure/f1 G1 3 replicates G2 3 replicates DEGES 系正規化法は DEG 数の Group 間での偏りが大きいほど有効なんデゲス! 102

研究目的別留意点ある特定のサンプル内での遺伝子間の発現量の大小関係を知りたい場合配列長由来 bias: 長いほど沢山 sequence される GC 含量由来 bias: カウント数の分布が GC 含量依存的であるサンプル間比較 (sample A vs. Bなど ) で発現変動遺伝子 ( DEG) を調べたい場合 DEGES 系の方法が有効であるという根拠は? sequence depth の違い : 総リード数が x 倍違うと全体的に x 倍変動組成の違い : サンプル特異的高発現遺伝子の存在で比較困難に RPM(CPM) 正規化 TMM 正規化 TbT 正規化 ideges 正規化総リード数を揃えるだけ DEG を ( 正確には見積もらないので ) 多めにトリム正規化の手順の中で同定した DEG をトリムすることでより頑健に律速であった DEG 同定部分の改良によりより頑健且つ高速に 103

DEG non-deg G2 で高発現 DEG 正規化後のデータの non-deg の分布よりよい正規化法ほど正規化後にnon-DEGデータ (2,001-10,000 行目 ) の分布が揃っているはずデスクトップ hoge - data_hypodata_3vs3.txt G1 3 replicates G2 3 replicates non-deg G1 で高発現 non-deg の log 2 (G2/G1) の中央値が 0 に近いほどよい正規化法 log 2 (G2/G1) = (M-A plot の )M 値 104

Sequence depth 周辺の正規化法 RPM (Mortazavi et al., Nat. Methods, 5: 621-628, 2008) RPKM(Reads per kilobase of exon per million mapped reads) の長さ補正を行わないバージョン Reads per million mapped reads の略 TMM 正規化 (Robinson and Oshlack, Genome Biol., 11: R25, 2010) Trimmed Mean of M values の略発現変動遺伝子 (DEG) のデータ正規化時の悪影響を排除すべく M-A plot 上で周縁部にあるデータを使わずに正規化係数を決定する方法 TbT 正規化 (Kadota et al., Algorithms Mol. Biol., 7: 5, 2012) TMM 法の改良版で TMM-baySeq-TMM という 3 ステップで正規化を行う方法 1st step で得られた TMM 正規化係数を用いて 2nd step (bayseq) で DEG 同定を行い 3rd step (TMM) では DEG を排除した残りのデータで TMM 正規化 DEG の影響を排除しつつもできるだけ多くの non-deg データを用いて頑健に正規化係数を決めるという思想 (DEG elimination strategy 提唱論文 ) ideges 正規化 (Sun et al., submitted) ideges/edger 正規化後のデータから得られるnon-DEG 由来 median(m) 値 vs. TMM 正規化後のデータから得られるnon-DEG 由来 median(m) 値 0に近いのは? DEG elimination strategy (DEGES) を一般化しより高速且つ頑健にしたもの TbT は複製ありのデータのみにしか対応していなかったが複製なしデータにも対応 ideges/edger 正規化法 : 複製ありデータ正規化用 TMM-(edgeR-TMM) n パイプライン ideges/deseq 正規化法 : 複製なしデータ正規化用 DESeq-(DESeq-DESeq) n パイプライン 105

ファイルに出力までをコピペすれば ideges/edger 正規化後のデータが得られます 106

出力ファイル ( の一部 ) ちなみに出力ファイルは行名部分と正規化後のデータ部分を cbind 関数を用いて列方向で結合したものなので 107

出力ファイル ( の一部 ) gege.txt 正規化後のデータ部分に round 関数を適用した結果を出力することによって最も近い整数値に丸めることができます 108

DEG non-deg G2 で高発現 DEG 正規化後のデータで M-A plot よりよい正規化法ほど正規化後にnon-DEGデータ (2,001-10,000 行目 ) の分布が揃っているはず data_hypodata_3vs3_idegesedger.txt G1 3 replicates G2 3 replicates non-deg G1 で高発現 non-deg の log 2 (G2/G1) の中央値が 0 に近いほどよい正規化法 log 2 (G2/G1) = (M-A plot の )M 値 109

M-A plot( 基本形 ) data_hypodata_3vs3_idegesedger.txt の M-A plot を作成どちらかの群で 0 になっているものは ( 特に M 値が -Inf or +Inf となるので ) M-A plot 不可能 110

M-A plot(tcc パッケージの 0 カウント対策 ) data_hypodata_3vs3_idegesedger.txt の M-A plot を作成 2 3 1 4 1 各群についてゼロでない平均発現量の最小値を取得 20 だったところをその値で置換 3M 値を再計算 4M-A plot の左側に再計算して得られた M 値をプロット 111

1. の最後の三行分をコピペして M-A plot を描画 112

性能評価 ( 仮想データ : 偏りあり ) データ :non-deg: 8000 個 G1 で高発現の DEG: 1800 個 G2 で高発現の DEG: 200 個評価基準 :non-deg の median(m) 値が 0 に近いほどよい正規化法 ideges/edger 法 median(m) = 0.033 計算時間 = 8.77 sec. TbT 法 median(m) = 0.049 計算時間 = 1468 sec. TMM 法 median(m) = 0.152 計算時間 = 0.1 sec. iterative DEGES (ideges) 正規化法は高精度かつ高速 113

性能評価 ( 仮想データ : 偏りなし ) データ :non-deg: 8000 個 G1 で高発現の DEG: 1000 個 G2 で高発現の DEG: 1000 個評価基準 :non-deg の median(m) 値が 0 に近いほどよい正規化法 ideges/edger 法 median(m) = -0.004 計算時間 = 8.28 sec. TbT 法 median(m) = -0.003 計算時間 = 1414 sec. TMM 法 median(m) = -0.008 計算時間 = 0.25 sec. DEG の分布に偏りがない場合には ( 理論上 ) 同じパフォーマンス 114

TCC(ver. 1.0.0) の主な機能 Sun et al., submitted DEG elimination strategy (DEGES) に基づくデータ正規化法を実装複製ありデータ用 TbT 正規化法 (Kadota et al., 2012): TMM-baySeq-TMM パイプライン ideges/edger 正規化法 :TMM-(edgeR-TMM) n パイプライン複製なしデータ用 ideges/deseq 正規化法 :DESeq-(DESeq-DESeq) n パイプライン既存パッケージ中の DEG 検出法を呼び出して利用可能 ( 正規化のところと同じく )edger, bayseq, DESeqパッケージ中の関数群を内部的に利用シミュレーションデータ作成機能二群 ( 複製あり and/or なし ) 三群四群多群発現変動の度合いを調整可能 (Fold-Change, gamma 分布 ) TCC の売りは ( 既存の手法を組み合わせることで ) データ正規化部分の精度向上に貢献 115

二群間比較用 R パッケージ DEGSeq (Wang et al., Bioinformatics, 26: 136-138, 2010) edger (Robinson et al., Bioinformatics, 26: 139-140, 2010) GPseq (Srivastava and Chen, Nucleic Acids Res., 38: e170, 2010) bayseq (Hardcastle and Kelly, BMC Bioinformatics, 11: 422, 2010) DESeq (Anders and Huber, Genome Biol., 11: R106, 2010) NBPSeq (Di et al., SAGMB, 10: article24, 2011) NOISeq (Tarazona et al., Genome Res., 21: 2213-2223, 2011) BitSeq (Glaus et al., Bioinformatics, 28: 1721-1728, 2012) TCC (Sun et al., submitted) R 以外 (TCC 中で利用可能な )TbT 正規化法と edger, DESeq, bayseq, NBPSeq 中の DEG 検出法との組合せが有効であることは既に実証済み (Kadota et al., 2012) GFOLD (Feng et al., Bioinformatics, 28: 2782-2788, 2012) Cuffdiff 2 (Trapnell et al., Nat. Biotechnol., 31: 46-54, 2013) 116

TCC で正規化 DEG 同定まで ( 複製あり ) ideges/edger 正規化後に edger パッケージ中の DEG 同定法を利用する場合 1. をやってみましょう 117

コピペ 118

出力ファイルの説明入力データ p-value とその順位 M-A plot の A 値と M 値 q-value (param_fdr で指定した )FDR 閾値 (<0.05) を満たす DEG q-value < 0.05 のものが 0 以外の値をとる 1: G1 で高発現 2:G2 で高発現 119

TCC 関連参考ウェブページ http://www.iu.a.u-tokyo.ac.jp/~kadota/tcc/ Bioconductor like な User s Guide (Vignette) もあります 120

その他 121

理想的な実験デザイン ( 二群間比較 ) サンプル A vs. B の比較 (Kidney vs. Liver; 腎臓 vs. 肝臓 ) 生のリードカウントのデータ ( 整数値 ) Biological replicates のデータ生物学的なばらつき ( 個体間の違い ) を考慮すべし A1: ある生物の腎臓 A2: 同じ生物種の別個体の腎臓 A3: 同じ生物種のさらに別個体の腎臓 B1: ある生物の肝臓 B2: 同じ生物種の別個体の肝臓 122

分布の話例題 :Marioni et al., Genome Res., 18: 1509-1517, 2008 のデータ ( の一部 ) kidney( 腎臓 ) liver( 肝臓 ) Technical replicates のデータサンプル内の技術的なばらつき ( 例 : レーン間の違い ) の度合いを調べるためのデータでありこのようなデータで二群間比較し発現変動遺伝子がどの程度あるかといった数に関する議論は無意味解析例 : アリエナイ?! 数 (50% とか ) が発現変動遺伝子として検出される理由 :Biological variation > Technical variation 123

分布の話例題 :Marioni et al., Genome Res., 18: 1509-1517, 2008 のデータ ( の一部 ) kidney( 腎臓 ) RPM 正規化 1,000,000 12,685 1,804,977 7027.8 124

分布の話例題 :Marioni et al., Genome Res., 18: 1509-1517, 2008 のデータ ( の一部 ) kidney( 腎臓 ) adjusted R-squared: 0.897 y = x y = a + bx Technical replicates のデータは : ( 遺伝子の )VARIANCE はその MEAN で説明可能である VARIANCE MEAN ポアソン分布に従うポアソンモデルが適用可能 125

分布の話生物アイコン (http://biosciencedbc.jp/taxonomy_icon/taxonomy_icon.cgi) 例題 :Cumbie et al., PLoS ONE, 6: e25279, 2011 のデータ ( の一部 ) Arabidopsis( シロイヌナズナ ) adjusted R-squared: 0.815 y = a + bx y = x Biological replicates のデータは : VARIANCE > MEAN 負の二項 (NB) 分布に従う NB モデルが適用可能 126

倍率変化がだめな理由をデモ例題 :Marioni et al., Genome Res., 18: 1509-1517, 2008 のデータ kidney( 腎臓 ) liver( 肝臓 ) 発現変動遺伝子がないデータで二群間比較をしてみる A 群 B 群 127

倍率変化がだめな理由をデモ例題 :Marioni et al., Genome Res., 18: 1509-1517, 2008 のデータ ( の一部 ) (A1, A2) vs. (A3, A4) の二群間比較結果 edger で FDR < 0.01 を満たすものは 0 個 (edger で )2 倍以上発現変動しているものは 3814 個 Rcode_edgeR_tech_rep_fdr001.txt Rcode_edgeR_tech_rep_fc2.txt 低発現領域で log 比が大きくなる現象をうまくモデル化することが重要 128

26,221 genes Biological replicates の 3 vs. 3 サンプル例題 :Cumbie et al., PLoS ONE, 6: e25279, 2011 の Arabidopsis データ A 群 B 群 data_arab.txt オリジナルは AT4G32850 のものが重複して存在していたため 19520 行目のデータを予め除去している 129

サンプル間クラスタリングも重要です 130

サンプル間クラスタリングも重要ですデータ中に発現変動遺伝子がありそうかどうかはクラスタリング結果を眺めるだけでかなりわかる 131

東大生以外の方も受講可能です ( 平成 25 年度もやります ) 132

謝辞共同研究者清水謙多郎先生 ( 東京大学大学院農学生命科学研究科 ) 西山智明先生 ( 金沢大学学際科学実験センター ) 孫建強氏 ( 東京大学大学院農学生命科学研究科修士課程 1 年 ) グラント基盤研究 (C)(H24-26 年度 ): シークエンスに基づく比較トランスクリプトーム解析のためのガイドライン構築 ( 代表 ) 新学術領域研究 ( 研究領域提案型 )(H22 年度 -): 非モデル生物におけるゲノム解析法の確立 ( 分担 ; 研究代表者 : 西山智明 ) 挿絵や TCC のロゴなど ( 妻の ) 門田雅世さま作 ( 有能な秘書の ) 三浦文さま作 133