特論I

Size: px

Start display at page:

Download "特論I"

そうすけほうねん
7 years ago
Views:

1 講義室後ろにある USB メモリ中の hoge フォルダをデスクトップにコピーしておいてください農学生命情報科学特論 I 第 4 回東京大学大学院農学生命科学研究科アグリバイオインフォマティクス教育研究ユニット門田幸二 [email protected] 1

2 前回の課題と正答アダプター配列除去前後の small RNA-seq データをカイコゲノムにマップしマップ率 ( マップされたリード数 ) を比較する 1. マッピング前の総リード数を示せアダプター配列除去前のSRR fastq.gz: 11,928,428 リードアダプター配列除去後のhoge4.fastq.gz: 11,928,428 リード 2. マッピング後のマップされたリード数を示せアダプター配列除去前のSRR fastq.gz: アダプター配列除去後のhoge4.fastq.gz: 3. 結果の考察 2,257 リード 1,308,126 リードマッピング後の総リード数ではなくマップされたリード数が正解ですね失礼しました 2

3 Contents( 第 4 回 ) 新規転写物同定 ( ゲノム情報を利用 ) 基本的な考え方 Tophat-Cufflinks パイプライン可視化 ( ゲノムブラウザや Viewer) 発現量推定 ( 遺伝子レベルと転写物レベル ) RPKM の基本的な考え方計算時間短縮戦略 ( トランスクリプトーム情報のみを利用 ) カウントデータを用いたサンプル間比較解析イントロ ( カウントデータ取得まで ) サンプル間クラスタリング発現変動遺伝子検出分布やモデル課題 3

4 トランスクリプトーム解析の目的は様々トランスクリプトーム配列取得ゲノム配列既知の場合 :Cufflinksなどを用いて遺伝子構造推定( アノテーション ) ゲノム配列未知の場合 :Trinityなどのトランスクリプトーム用アセンブラを実行遺伝子または転写物 (isoform) ごとの発現量の正確な推定 RSEMなどを利用して発現量情報を得るある特定のサンプル内での遺伝子間の発現量の大小関係を知りたい配列長やGC biasなどの各種補正がポイント比較するサンプル間で発現変動している遺伝子または転写物の同定 TCCパッケージなどを利用して発現変動遺伝子 (DEG) を得るライブラリサイズ ( 総リード数 ) や発現している遺伝子の組成の補正がポイント (GO 解析など )DEG 結果を用いる多くの下流解析結果に影響を及ぼす 4

5 マッピングの基本的なイメージ基本的なマッピングプログラム (bowtie など ) を用いた場合教科書 p81-89 リファレンス配列 : ゲノム count T1 サンプルの RNA-Seq データ mapping 遺伝子 1 遺伝子 2 遺伝子 3 遺伝子 4 リファレンス配列 : トランスクリプトーム count 遺伝子 1 遺伝子 2 遺伝子 3 遺伝子 4 ゲノム配列へのマッピングの場合複数のエクソンにまたがるリード (spliced reads) はマップされないので 5

6 RNA-MATE (Cloonan et al., Bioinformatics, 25: , 2009) 対策 ( リード長が 75bp 程度以上の現在 ) 再帰的にマッピングする戦略 (recursive mapping strategy) 通常のマッピングプログラムでマップされなかったものに対してリードを短くしてマップされるかどうかを繰り返すというイメージ >75bp 程度のマップされなかったリードの集団 mapping 遺伝子 1 マップされない遺伝子 1 マップされない遺伝子 1 マップされた splice-aware aligner (spliced aligner) を用いることで新規転写物の同定も可能理由は既知遺伝子構造情報を参照しなくてもどうにかなるから 6

7 Splice-aware aligner の様々な戦略 Garber et al., Nat. Methods, 8: , 2011 の Fig. 1 exon-first 系は高速だがアルゴリズム的に processed pseudogene 存在下で正確な構造推定が困難になる 7

8 Basic aligner (unspliced aligner) Windows でマッピング可能な R パッケージ内部的に basic aligner の bowtie と splice-aware aligner の SpliceMap を利用可能比較的よく使われているもの 8

9 Splice-aware aligner (spliced aligner) Windows でマッピング可能な R パッケージ内部的に basic aligner の bowtie と splice-aware aligner の SpliceMap を利用可能比較的よく使われているもの Tophat は内部的に Bowtie を利用 ( 今は Bowtie 2 かも ) 9

10 Reference-based strategy Splice-aware aligner 出力結果をもとに遺伝子構造推定 Scripture (Guttman et al., Nat. Biotechnol., 28: , 2010) Cufflinks (Trapnell et al., Nat. Biotechnol., 28: , 2010) STM (Surget-Groba and Montoya-Burgos, Genome Res., 20: , 2010) ALEXA-seq (Griffith et al., Nat. Methods, 7: , 2010) ARTADE2 (Kawaguchi et al., Bioinformatics, 28: , 2012) この transcriptome reconstruction 作業は結構大変理由 1: 広いダイナミックレンジ ( 低発現のものとノイズとの区別 ) 理由 2:off-targetの存在 (mature mrna 以外のprecursor RNAなど ) 理由 3: 一つの遺伝子から複数のisoforms( どのisoform 由来のリードか?!) exon a gene (or a locus) isoform1 isoform2 isoform3 10

11 Martin and Wang, Nature Reviews Genet., 12: , 2011 の Fig. 2 遺伝子構造推定のイメージ 11

12 Bowtie や Tophat が多く引用されるのは Cufflinks など他のソフトウェア上でもよく実装されているためであろう 12

13 Bowtie-Tophat-Cufflinks パイプライン basic aligner splice-aware aligner Trapnell et al., Nat. Protoc., 7: , 2012 Fig. 1 Fig. 2 RNA-seq データとリファレンス配列情報を入力として遺伝子構造推定から発現量発現変動解析描画までの一連の解析を提供 13

14 Bowtie-Tophat-Cufflinks パイプライン Fig. 2 Trapnell et al., Nat. Protoc., 7: , 2012 Fig. 3 RNA-seq データとリファレンス配列情報を入力として遺伝子構造推定から発現量発現変動解析描画までの一連の解析を提供 14

サーバをもつバイオインフォ系の人にお願いする気軽に頼める知り合いがいればいいがその人次第 DDBJ

15 NGS データ解析手段自前で大容量メモリ計算サーバ (Linux) を購入し必要なソフトのインストールからスタート難易度は高いが思い通りの解析が可能 Linux サーバをもつバイオインフォ系の人にお願いする気軽に頼める知り合いがいればいいがその人次第 DDBJ Read Annotation Pipeline を利用一番お手軽な選択肢であり有名どころはカバーされている Cufflinks もできます 15

16 可視化 ( ゲノムブラウザや Viewer) 私は ( 数値解析系なので ) 可視化ツールは全く使いません比較的よく使われているもの 16

17 可視化 ( ゲノムブラウザや Viewer) 私は ( 数値解析系なので ) 可視化ツールは全く使いません比較的よく使われているもの 17

18 Contents( 第 4 回 ) 新規転写物同定 ( ゲノム情報を利用 ) 基本的な考え方 Tophat-Cufflinks パイプライン可視化 ( ゲノムブラウザや Viewer) 発現量推定 ( 遺伝子レベルと転写物レベル ) RPKM の基本的な考え方計算時間短縮戦略 ( トランスクリプトーム情報のみを利用 ) カウントデータを用いたサンプル間比較解析イントロ ( カウントデータ取得まで ) サンプル間クラスタリング発現変動遺伝子検出分布やモデル課題 18

19 マップされたリード数 = 発現量ではないが基本的なマッピングプログラム (bowtie など ) を用いた場合リファレンス配列 : ゲノム count G G1 サンプルの RNA-Seq データ mapping 遺伝子 1 遺伝子 2 遺伝子 3 遺伝子 4 リファレンス配列 : トランスクリプトーム count G 遺伝子 1 遺伝子 2 遺伝子 3 遺伝子 4 マップされたリード数のカウント情報は発現量推定の基本情報です 19

20 研究目的別留意点 : 遺伝子間比較教科書 p 発現量補正の基本形 : RPK (Reads per kilobase) RPM (Reads per million) RPKM (Reads per kilobase per million) 定数カウント数配列長総リード数同一サンプル内での異なる遺伝子間の発現レベル比較の場合配列長由来 bias: 長いほど沢山 sequence される RPKM や FPKM などの配列長を考慮して正規化されたデータで解析 GC 含量由来 bias: カウント数の分布が GC 含量依存的である Risso et al., BMC Bioinformatics, 12: 480, 2011 Benjamini and Speed, Nucleic Acids Res., 40: e72, 2012 Filloux et al., BMC Bioinformatics, 15: 188, 2014 総リード数 ( ライブラリサイズ or sequence depth) 補正は不必要理由 : 遺伝子間の発現レベルの大小関係は定数倍しても不変 20

21 研究目的別留意点 : サンプル間比較発現量補正の基本形 : RPK (Reads per kilobase) RPM (Reads per million) RPKM (Reads per kilobase per million) 異なるサンプル間での同一遺伝子間の発現レベル比較の場合総リード数の違い : 総リード数が x 倍違うと全体的に x 倍変動 RPM 正規化で全体を揃えることは基本定数カウント数配列長総リード数組成の違い : サンプル特異的高発現遺伝子の存在で比較困難に TMM 正規化法 (Robinson and Oshlack, Genome Biol., 11: R25, 2010) TbT 正規化法 (Kadota et al., Algorithms Mol. Biol., 7: 5, 2012) DEGES に基づく正規化法 (Sun et al., BMC Bioinformatics, 14: 219, 2013) 配列長や GC bias 補正は少なくとも理論上は不必要理由 : 同一遺伝子に対して掛かる係数はサンプル間で同じ教科書 p

22 配列長の補正教科書 p Mortazavi et al., Nat. Methods, 5: , 2008 配列長が長い遺伝子ほど沢山 sequence されるそれらの遺伝子上にマップされる生のリード数が増加傾向配列長が長い遺伝子ほど発現レベルが高い傾向になる発現レベルが同じで長さの異なる二つの mrnas AAAAAAA AAAAAAA 断片化して sequence マップされたリード数をカウント AAAAAAA AAAAAAA 1 つのサンプル内で異なる遺伝子間の発現レベルの大小関係を配列長を考慮せずに比較することはできない 22

23 教科書 p 配列長を考慮した発現量推定のイメージ gene1: 3 exons (middle length), 14 reads mapped (low coverage) gene2: 3 exons (middle length), 56 reads mapped (high coverage) gene3: 2 exons (short length), 12 reads mapped (middle coverage) gene4: 2 exons (long length), 31 reads mapped (middle coverage) マップされたリード分布生リードカウント結果補正度の発現量 Garber et al., Nat. Methods, 8: , 2011 の Fig. 3a 長さが同じならリード数の多い方が発現量高い (gene 1 対 2) 長いほどマップされるリード数が多くなる効果を補正する必要がある (gene 3 対 4) 1 つのサンプル内で転写物または遺伝子間の発現レベルの大小を比較したい場合には配列長を考慮すべきである 23

24 配列長とカウント数の関係を眺める入力ファイル読み込み時にrow.names=1 としているので dataオブジェクトの1 列目がwidth 列 ( 配列長情報 ) 2 列目がKidney 列 ( 腎臓サンプルのカウント情報 ) となる 24

25 配列長とカウント数の関係を眺める数値のダイナミックレンジが広いので x 軸 y 軸ともに log10 変換してプロットしている 0 カウントのものは log をとれない関係上プロットできないという警告が出ています確かに水平ではなく全体的に右斜め上になっている傾向が見られます 25

26 配列長とカウント数の関係を眺めるただの検証ですがゼロカウントデータが相当数存在することが分かります 26

27 配列長順にソートしカウント数を 20 分割したものを boxplot で示したもの様々な表現手段があります 27

配列長の補正前提条件 : 配列長が既知補正の基本戦略 : 配列長で割る 1 / 配列長を掛ける場合教科書 p130-133 塩基あたりの平均のリード数の計算に相当 1000 / 配列長を掛ける場合 Mortazavi et al., Nat.

28 配列長の補正前提条件 : 配列長が既知補正の基本戦略 : 配列長で割る 1 / 配列長を掛ける場合教科書 p 塩基あたりの平均のリード数の計算に相当 1000 / 配列長を掛ける場合 Mortazavi et al., Nat. Methods, 5: , 2008 AAAAAAA AAAAAAA その遺伝子の配列長が 1000bp だったときのリード数 (or カウント数 ) に相当 Reads Per Kilobase (RPK) Counts Per Kilobase (CPK) 28

29 マイクロアレイデータの正規化参考各サンプルから測定されたシグナル強度の和は一定アレイ上の遺伝子数が少ない場合は非現実的だが数千 ~ 数万種類の遺伝子が搭載されているので妥当という思想グローバル正規化背景 : サンプルごとにシグナル強度の総和は異なる対策 : 総和が任意の値 ( 例では 100) になるような正規化係数を掛ける例 :sample1 の正規化係数 = 100 /

RNA-Seq データの正規化の一部発現している RNA 量の総和はサンプル間で一定教科書 p134-135 参考遺伝子 1 遺伝子 2 遺伝子 3 遺伝子 4 RPM 正規化 Reads

30 RNA-Seq データの正規化の一部発現している RNA 量の総和はサンプル間で一定教科書 p 参考遺伝子 1 遺伝子 2 遺伝子 3 遺伝子 4 RPM 正規化 Reads Per Million mapped reads(rpm) 正規化後の総リード数が 100 万 (one million) になるように補正例 :T1 の正規化係数 = / 67 30

RPKM 教科書 p136-137 Reads per kilobase (of exon) per million (mapped

カウント数配列長総リード数 1,000,000,000 カウント数配列長総リード数 sample_length_count.

31 RPKM 教科書 p Reads per kilobase (of exon) per million (mapped reads) 配列長が 1,000 bp かつ総リード数が 100 万だったときのカウント数 RPKM 1,000 1,000,000 カウント数配列長総リード数 1,000,000,000 カウント数配列長総リード数 sample_length_count.txt hoge1.txt 総リード数 = 教科書の説明もみながら RPK, RPM, RPKM の例題を実行しておきましょう 31

32 少ないカウント数多い EDASeq(Risso et al., BMC Bioinformatics, 12: 480, 2011) の Fig.1 GC bias 補正の必要性も提唱されている参考 GC 含量が多い遺伝子や少ない遺伝子上にマップされたリードカウント数は GC 含量が中程度の遺伝子に比べて少ない傾向にある少ない多い 32

33 EDASeq(Risso et al., BMC Bioinformatics, 12: 480, 2011) の Fig.1 参考 GC bias 補正の必要性も提唱されている Quantile 正規化パッケージ中のサンプルファイルを解析してみると確かに GC bias が緩和されていることがわかる 33

34 Contents( 第 4 回 ) 新規転写物同定 ( ゲノム情報を利用 ) 基本的な考え方 Tophat-Cufflinks パイプライン可視化 ( ゲノムブラウザや Viewer) 発現量推定 ( 遺伝子レベルと転写物レベル ) RPKM の基本的な考え方計算時間短縮戦略 ( トランスクリプトーム情報のみを利用 ) カウントデータを用いたサンプル間比較解析イントロ ( カウントデータ取得まで ) サンプル間クラスタリング発現変動遺伝子検出分布やモデル課題 34

トランスクリプトーム転写物配列にマッピング :NEUMA, IsoEM, RSEM k-mer を用いた alignment-free

35 高速に発現量推定するための様々な戦略ゲノム配列を利用するがアノテーション情報も同時に読み込んで発現量を得たい特定の領域のみにマッピングして高速化 :Cufflinks トランスクリプトーム転写物配列にマッピング :NEUMA, IsoEM, RSEM k-mer を用いた alignment-free な方法 :Sailfish, RNA-Skim トランスクリプトーム配列へのマッピングは bowtie のような basic aligner で必要十分しかしマッピングが律速であるため alignmentfree な方法が注目されはじめている 35

36 転写物配列にマップして高速に発現量推定 Bowtie + express で高精度な結果を追求 (~days) RNA-Skim で超高速にそこそこの精度で定量化 (~min) 1 day = 60*60*24 = 86,400 seconds Zhang and Wang, Bioinformatics, 30: i283-i292, 2014 の Table 3 36

37 Contents( 第 4 回 ) 新規転写物同定 ( ゲノム情報を利用 ) 基本的な考え方 Tophat-Cufflinks パイプライン可視化 ( ゲノムブラウザや Viewer) 発現量推定 ( 遺伝子レベルと転写物レベル ) RPKM の基本的な考え方計算時間短縮戦略 ( トランスクリプトーム情報のみを利用 ) カウントデータを用いたサンプル間比較解析イントロ ( カウントデータ取得まで ) サンプル間クラスタリング発現変動遺伝子検出分布やモデル課題 37

38 カウントデータを用いたサンプル間比較解析複製あり 2 群間比較用ヒト RNA-seq データ (3 Ras 対 3 Proliferative) カウントデータ 59,857 genes データ解析の基本イメージ発現変動遺伝子 (DEG) 同定サンプル間クラスタリング G1 群 G2 群 38

39 イントロ ( カウントデータ取得まで ) Step1: SRAdb を用いた gzip 圧縮 FASTQ 形式ファイルのダウンロード Neyret-Kahn et al., Genome Res., 23: , 2013 複製あり 2 群間比較用ヒト RNA-seq データ (3 Ras vs. 3 Proliferative) FileName SampleName SRR fastq.gz Pro_rep1 SRR fastq.gz Pro_rep2 SRR fastq.gz Pro_rep3 SRR fastq.gz Ras_rep1 SRR fastq.gz Ras_rep2 SRR fastq.gz Ras_rep3 G1 群 G2 群 1 つの論文中で ChIP-seq もやっており RNA-seq データのみダウンロードする際にちょっと困る例を紹介 39

, 23: 1563-1579, 2013 複製あり 2 群間比較用ヒト RNA-seq データ (3 Ras vs.

40 イントロ ( カウントデータ取得まで ) Step1: SRAdb を用いた gzip 圧縮 FASTQ 形式ファイルのダウンロード Neyret-Kahn et al., Genome Res., 23: , 2013 複製あり 2 群間比較用ヒト RNA-seq データ (3 Ras vs. 3 Proliferative) もちろん主観ですが ENA (ArrayExpress) よりも GEO のほうがわかりやすいという特殊事例です 40

41 実データ解析例 :SRP ChIP-seq と RNA-seq 両方を 1 つの論文中でやっている場合には論文と 1 対 1 対応の GSE42213 以外にさらに下の階層の GSE ID が付与されている GSE42211:ChIP-seq データ GSE42212:RNA-seq データ 41

42 ENA (ArrayExpress) の場合は Step1: SRAdb を用いた gzip 圧縮 FASTQ 形式ファイルのダウンロード Neyret-Kahn et al., Genome Res., 23: , 2013 複製あり2 群間比較用ヒトRNA-seqデータ (3 Ras vs. 3 Proliferative) ArrayExpressで眺めるとサブシリーズのGSE ID (GSE42211 とGSE42212) が見当たらない 42

43 ENA (ArrayExpress) の場合は Neyret-Kahn et al., Genome Res., 23: , 2013 複製あり 2 群間比較用ヒト RNA-seq データ (3 Ras vs. 3 Proliferative) ChIP-seq データと RNA-seq データ (GSE42211 と GSE42212) をサブシリーズに分割せずに一覧可能にしたのはいいと思うがなぜ 26 サンプルが 34 になっているのか不明 43

イントロ ( カウントデータ取得まで ) Step1: 計 6 ファイル (2 群間比較用 ) FileName SampleName SRR616151.fastq.gz Pro_rep1 SRR616152.fastq.gz Pro_rep2 SRR616153.

44 イントロ ( カウントデータ取得まで ) Step1: 計 6 ファイル (2 群間比較用 ) FileName SampleName SRR fastq.gz Pro_rep1 SRR fastq.gz Pro_rep2 SRR fastq.gz Pro_rep3 SRR fastq.gz Ras_rep1 SRR fastq.gz Ras_rep2 SRR fastq.gz Ras_rep3 G1 群 G2 群 44

45 イントロ ( カウントデータ取得まで ) Step2: QuasR を用いたヒトゲノムへのマッピングリファレンス配列として BSgenome.Hsapiens.UCSC.hg19 という R パッケージを利用約 18 生物種のゲノム配列が R パッケージとして利用可能シロイヌナズナ :BSgenome.Athaliana.TAIR.TAIR9 ショウジョウバエ :BSgenome.Dmelanogaster.UCSC.dm3 45

46 ゲノム配列の R パッケージがあります R および Bioconductor の最新版をインストールしたヒトが mm10 などゲノム配列の最新版も利用できます定期的なバージョンアップの意義 46

47 Contents( 第 4 回 ) 新規転写物同定 ( ゲノム情報を利用 ) 基本的な考え方 Tophat-Cufflinks パイプライン可視化 ( ゲノムブラウザや Viewer) 発現量推定 ( 遺伝子レベルと転写物レベル ) RPKM の基本的な考え方計算時間短縮戦略 ( トランスクリプトーム情報のみを利用 ) カウントデータを用いたサンプル間比較解析イントロ ( カウントデータ取得まで ) サンプル間クラスタリング発現変動遺伝子検出分布やモデル課題 47

48 教科書 p サンプル間クラスタリング Pro 群と Ras 群に明瞭に分かれているので発現変動遺伝子 (DEG) は存在すると判断フィルタリングの思想は教科書を参照 48

49 教科書 p 発現変動遺伝子検出発現変動遺伝子 (DEG) と判定されたものが多数存在することがわかる 49

50 教科書 p 発現変動遺伝子検出 5% 偽物を含むのを許容すると DEG 数は 5,669 個 20% の偽物混入を許容すると 8,110 DEGs FDR 閾値が 30% の場合は 9,151 個このデータセット中に存在する本物の DEG は 9, = 6,405.7 個程度だと判断できる論文に記載すべきデータ解析環境の情報 50

M = log 2 G2 - log 2 G1-2 -1 0 1 2 M-A plot 教科書 p145-157 Dudoit et al., Stat.

51 M = log 2 G2 - log 2 G M-A plot 教科書 p Dudoit et al., Stat. Sinica, 12: , 群間比較用横軸が全体的な発現レベル縦軸がlog 比からなるプロット名前の由来はおそらく対数の世界での縦軸が引き算 (Minus) 横軸が平均(Average) G1 群 < G2 群 G2 群で高発現 G1 群 = G2 群 G1 群 > G2 群 G1 群で高発現 A = (log 2 G2 + log 2 G1)/2 低発現全体的に高発現 DEG が存在しないデータの M-A plot を眺めることで縦軸の閾値のみに相当する倍率変化を用いた DEG 同定の危険性が分かります 51

52 発現変動遺伝子検出結果 TCC を用いた DEG 同定結果ファイル p-value とその順位 G2 群で高発現 M-A plot の A 値と M 値 q-value FDR 閾値判定結果 q-value < 0.05 を満たす DEG が 1 non-deg が 0 G1 群で高発現基本的にはこれらが解析結果です 1 位は Ras 群 (G2 群 ) で高発現の DEG 52

53 発現変動遺伝子検出結果 TCC を用いた DEG 同定結果ファイル p-value とその順位 G2 群で高発現 M-A plot の A 値と M 値 q-value FDR 閾値判定結果 q-value < 0.05 を満たす DEG が 1 non-deg が 0 G1 群で高発現 2 位も Ras 群 (G2 群 ) で高発現の DEG 53

54 発現変動遺伝子検出結果 TCC を用いた DEG 同定結果ファイル p-value とその順位 G2 群で高発現 M-A plot の A 値と M 値 q-value FDR 閾値判定結果 q-value < 0.05 を満たす DEG が 1 non-deg が 0 G1 群で高発現 3,4 位も Ras 群 (G2 群 ) で高発現の DEG 54

55 発現変動遺伝子検出結果 TCC を用いた DEG 同定結果ファイル p-value とその順位 G2 群で高発現 M-A plot の A 値と M 値 q-value FDR 閾値判定結果 q-value < 0.05 を満たす DEG が 1 non-deg が 0 G1 群で高発現 5 位は Pro 群 (G1 群 ) で高発現の DEG 55

56 発現変動遺伝子検出結果 TCC を用いた DEG 同定結果ファイル p-value とその順位 G2 群で高発現 M-A plot の A 値と M 値 q-value FDR 閾値判定結果 q-value < 0.05 を満たす DEG が 1 non-deg が 0 G1 群で高発現指定した FDR 閾値 (0.05) をギリギリ満たす 5,669 位の遺伝子 56

57 発現変動遺伝子検出結果 TCC を用いた DEG 同定結果ファイルハイライトさせたい Gene ID の位置情報を論理値ベクトル obj として取得後 points 関数を用いて obj が TRUE となる要素のみ pch, cex, col オプションを駆使して追加で描画している rcode_srp017142_highlight.txt( の一部 ) G2 群で高発現 G1 群で高発現 57

58 テンプレートとの違いは赤矢印部分のみ rcode_srp017142_highlight.txt( の一部 ) G2 群で高発現 G1 群で高発現 58

59 Contents( 第 4 回 ) 新規転写物同定 ( ゲノム情報を利用 ) 基本的な考え方 Tophat-Cufflinks パイプライン可視化 ( ゲノムブラウザや Viewer) 発現量推定 ( 遺伝子レベルと転写物レベル ) RPKM の基本的な考え方計算時間短縮戦略 ( トランスクリプトーム情報のみを利用 ) カウントデータを用いたサンプル間比較解析イントロ ( カウントデータ取得まで ) サンプル間クラスタリング発現変動遺伝子検出分布やモデル課題 59

60 59,857 genes 教科書 p 分布やモデルのイントロ TCC を用いた DEG 同定 G1 群 G2 群 M-A plot の M 値は倍率変化 (log 比 ) に相当 ( 倍 G2 群で高発現 ) 60

61 DEG 同定結果 :FDR 閾値の違い TCC を用いた DEG 同定 2,314 DEGs (FDR 0.01%) 5,669 DEGs (FDR 5%) 10,053 DEGs (FDR 40%) FDR 閾値を緩めると得られる DEG 数は増える傾向厳しめ FDR 閾値緩め 61

62 分布やモデル TCC を用いた DEG 同定 2,314 DEGs (FDR 0.01%) 5,669 DEGs (FDR 5%) 10,053 DEGs (FDR 40%) 黒の分布は non-deg の分布に相当 62

63 59,857 genes 分布やモデル同一群 (G1 群 ) 同一群 (G2 群 ) Pro 群 vs. Ras 群 G1 群 G2 群 Pro_rep1 群 vs. Pro_rep3 群黒の分布は non-deg の分布に相当 63

64 59,857 genes 分布やモデル同一群 (G1 群 ) 同一群 (G2 群 ) Pro 群 vs. Ras 群 G1 群 G2 群 Ras_rep2 群 vs. Ras_rep3 群黒の分布は non-deg の分布に相当 64

65 59,857 genes 分布やモデル同一群 (G1 群 ) 同一群 (G2 群 ) Pro 群 vs. Ras 群 G1 群 G2 群 Ras_rep1 群 vs. Ras_rep2 群黒の分布は non-deg の分布に相当 65

66 59,857 genes 分布やモデル同一群 (G1 群 ) 同一群 (G2 群 ) Pro 群 vs. Ras 群 G1 群 G2 群 G1 群 G2 群 G1 群 G2 群同一群内のばらつきの分布 (non-deg 分布 ) 以外のものが DEG と判定されるのが統計的手法の結果... 66

67 統計的手法とは同一群内の遺伝子のばらつきの程度を把握し帰無仮説に従う分布の全体像を把握しておく ( モデル構築 ) non-deg のばらつきの程度を把握しておくことと同義実際に比較したい 2 群の遺伝子のばらつきの程度が non-deg 分布のどのあたりに位置するかを評価同一群内のばらつきの分布 (non- DEG 分布 ) から遠く離れたところに位置するものは 0 に近い p-value 67

68 統計的手法とは同一群内の遺伝子のばらつきの程度を把握し帰無仮説に従う分布の全体像を把握しておく ( モデル構築 ) non-deg のばらつきの程度を把握しておくことと同義実際に比較したい 2 群の遺伝子のばらつきの程度が non-deg 分布のどのあたりに位置するかを評価同一群内のばらつきの分布 (non- DEG 分布 ) のど真ん中に位置するものは 1 に近い p-value 68

69 59,857 genes 倍率変化の結果同一群 (G1 群 ) 同一群 (G2 群 ) Pro 群 vs. Ras 群 9,233 DEGs G1 群 G2 群 G1 群 G2 群 G1 群 G2 群 2,731 DEGs 6,718 DEGs 3,390 DEGs 同一群内比較でも多数の偽陽性が検出されている... 69

70 59,857 genes 統計的手法 TCC の結果同一群 (G1 群 ) 同一群 (G2 群 ) Pro 群 vs. Ras 群 5,669 DEGs G1 群 G2 群 G1 群 G2 群 G1 群 G2 群 7 DEGs 5 DEGs 17 DEGs 同一群内比較でも多少の偽陽性が検出されるが許容範囲... 70

71 rcode_srp017142_nondeg.txt 解析したいサンプルの列番号とサンプル数を指定パッケージのバージョン次第で結果が変わりうるのは確認済み hoge3_fdr.png 17 DEGs hoge3_fc.png 3,390 DEGs 71

72 non-deg G2 で高発現 DEG DEG 課題用シミュレーションデータ data_hypodata_3vs3.txt(2 群間比較用 ) G1 群 :3サンプル G2 群 :3サンプル全部で10,000 行 6 列最初の2,000 行分が発現変動遺伝子 (DEG) TCC パッケージを用いて複製あり 2 群間比較を行う non-deg G1 で高発現 G1:3 反復 G2:3 反復 72

73 課題 data_hypodata_3vs3.txt のサンプル間比較解析を行う 1. TCC パッケージを用いた発現変動遺伝子 (DEG) 検出を行い FDR 閾値がおよび 0.40 を満たす遺伝子数を示せまたこのデータセット中の大まかな DEG 数を示すとともにその根拠を簡単に述べよ FDR 閾値 0.05 を満たす遺伝子数 (q-value < 0.05): FDR 閾値 0.20 を満たす遺伝子数 (q-value < 0.20): FDR 閾値 0.40 を満たす遺伝子数 (q-value < 0.40): このデータセット中に含まれる推定 DEG 数 ( 偽物を差し引いた本物の DEG 数 ): 推定した DEG 数の根拠 : 2. 結果の考察シミュレーションデータ (data_hypodata_3vs3.txt) のサンプル間クラスタリング結果との比較や実データ (srp017142_count_bowtie.txt) 解析結果との比較など自由に述べてよい 73

74 多重比較問題 :FDR って何? p-value (false positive rate; FPR) 本当は DEG ではないにもかかわらず DEG と判定してしまう確率全遺伝子に占める non-deg の割合 ( 分母は遺伝子総数 ) 例 :10,000 個の non-deg からなる遺伝子を p-value < 0.05 で検定すると 10, = 500 個程度の non-deg を間違って DEG と判定することに相当実際の DEG 検出結果が 900 個だった場合 :500 個は偽物で 400 個は本物と判断実際の DEG 検出結果が 510 個だった場合 :500 個は偽物で 10 個は本物と判断実際の DEG 検出結果が 500 個以下の場合 : 全て偽物と判断 q-value (false discovery rate: FDR) DEG と判定した中に含まれる non-deg の割合 Benjamini and Hochberg J. Roy. Stat. Soc. B, 57: , 1995 参考 DEG 中に占める non-deg の割合 ( 分母は DEG と判定された数 ) non-deg の期待値を計算できれば p 値でも上位 x 個でも DEG と判定する手段はなんでもよい以下は 10,000 遺伝子の検定結果での FDR 計算例 p < を満たす DEG 数が 100 個の場合 :FDR = 10, /100 = 0.1 p < 0.01 を満たす DEG 数が 400 個の場合 :FDR = 10, /400 = 0.25 p < 0.05 を満たす DEG 数が 926 個の場合 :FDR = 10, /926 = 0.54 教科書 p

75 多重比較問題 :FDR って何? Benjamini and Hochberg J. Roy. Stat. Soc. B, 57: , 1995 参考 DEG か non-deg かを判定する閾値を決める問題有意水準 5% というのが p-value < 0.05 に相当 False discovery rate (FDR) 5% というのが q-value < 0.05 に相当教科書 p 発現変動ランキング結果は不変なので上位 x 個という決め打ちの場合にはこの問題とは無関係 5% の偽物 ( 本当は non-deg だが DEG と判定してしまう誤り ) を許容すると 5,669 遺伝子が DEG とみなせます 5, = 個が理論上偽物だということ 75

多重比較問題 :FDR って何? Benjamini and Hochberg J. Roy. Stat. Soc. B, 57: 289-300, 1995 参考 DEG か non-deg かを判定する閾値を決める問題有意水準 5% というのが p-value < 0.

76 多重比較問題 :FDR って何? Benjamini and Hochberg J. Roy. Stat. Soc. B, 57: , 1995 参考 DEG か non-deg かを判定する閾値を決める問題有意水準 5% というのが p-value < 0.05 に相当 False discovery rate (FDR) 1% というのが q-value < 0.01 に相当教科書 p 発現変動ランキング結果は不変なので上位 x 個という決め打ちの場合にはこの問題とは無関係 1% の偽物 ( 本当は non-deg だが DEG と判定してしまう誤り ) を許容すると 4,189 遺伝子が DEG とみなせます = 個が理論上偽物だということ 76

多重比較問題 :FDR って何? Benjamini and Hochberg J. Roy. Stat. Soc. B, 57: 289-300, 1995 参考 DEG か non-deg かを判定する閾値を決める問題有意水準 0.1% というのが p-value < 0.

77 多重比較問題 :FDR って何? Benjamini and Hochberg J. Roy. Stat. Soc. B, 57: , 1995 参考 DEG か non-deg かを判定する閾値を決める問題有意水準 0.1% というのが p-value < に相当 False discovery rate (FDR) 5% というのが q-value < 0.05 に相当教科書 p 発現変動ランキング結果は不変なので上位 x 個という決め打ちの場合にはこの問題とは無関係有意水準 0.1% で 59,857 遺伝子を検定すると 4,422 個が棄却された (p < を満たすものは 59,857 遺伝子中 4,422 個でした ) 77

001 に相当 False discovery rate (FDR) 5% というのが q-value < 0.

78 多重比較問題 :FDR って何? Benjamini and Hochberg J. Roy. Stat. Soc. B, 57: , 1995 参考 DEG か non-deg かを判定する閾値を決める問題有意水準 0.1% というのが p-value < に相当 False discovery rate (FDR) 5% というのが q-value < 0.05 に相当教科書 p 発現変動ランキング結果は不変なので上位 x 個という決め打ちの場合にはこの問題とは無関係 p 値の定義から 59,857 遺伝子 = 個分の真の non-deg を DEG と判定ミスするのを許容することに相当 p < を満たす 4,422 個の中に占める偽物の割合は /4,422 = と計算することができるこれ ( ) が FDR!! 78

79 参考過去の講義や講演資料の PDF はこちらから取得可能 79

80 まとめ参考 NGS 解析に必要な全般的な解説記事講演予定はこちらリンク先などから芋づる式に情報収集 80

機能ゲノム学（第6回）

機能ゲノム学（第6回）トランスクリプトーム解析の今昔なぜマイクロアレイ? なぜRNA-Seq? 東京大学大学院農学生命科学研究科アグリバイオインフォマティクス教育研究ユニット門田幸二 ( かどたこうじ ) http://www.iu.a.u-tokyo.ac.jp/~kadota/ [email protected] 1 Contents トランスクリプトーム解析の概要各手法の長所短所マイクロアレイ