RNA-seq - PDF 無料ダウンロード

RNA-seq 1

RNA-seq 解析フロー RNA-seq インポートクオリティチェック RNA-seq 発現差解析この資料では RNA-seq からの説明となりますがインポートクオリティチェックについてはサポート資料のページより内容をご確認いただけます 2

データ発現解析用デモデータは以下よりダウンロードいただけます ES 細胞 (ESC) と神経前駆細胞 (NPC) の発現解析を小さなデモデータで行えます http://download.clcbio.com/testdata/mousechr7dataset.zip ダウンロード後解凍せずに Import>Standard Import からインポートください右図のようなファイルがインポートされます 3

RPKM RPKM: Reads Per Killobases per Million 長さが異なるトランスクリプト実験で使われたリードの総数による違いについて正規化するための方法 RPKM C LN C: マップされたリードの総数 N: リードの総数 (Million) L: トランスクリプトの長さ (kbase) 4

RPKM 例 : Sample A Total reads: 6M Gene 1: 300bp 10 reads Gene 2: 400bp 13 reads Gene 3: 500bp 15 reads RPKM=10/(0.3*6) =5.55 RPKM=13/(0.4*6) =5.42 RPKM=15/(0.5*6) =5.0 Sample B Total reads: 4M Gene 1: 300bp 6 reads Gene 2: 400bp 10 reads Gene 3: 500bp 13 reads RPKM=6/(0.3*4) =5.0 RPKM=10/(0.4*4) =6.25 RPKM=13/(0.5*4) =6.5 5

RNA-seq Navigation Area から使用するリードデータを選択 Toolbox から Transcript Analysis > RNA-seq Analysis > RNA- Seq Analysis を選択ダブルクリックウィザードが起動し選択したデータが選ばれていることを確認 6

RNA-seq Reference Genome annotated with genes and transcripts: ゲノムに遺伝子とトランスクリプト (mrna) がアノテーションとして付いている場合 Gnome annotated with genes only: ゲノムに遺伝子のみのアノテーションが付いている場合 One reference sequence per transcript: 参照配列のみの場合 (EST など ) Reference sequence, Gene track, mrna track はそれぞれ使用するゲノム配列遺伝子 mrna を選択 Mapping Map to gene region only (fast): 遺伝子の領域のみにマッピングする場合 Also map to inter-genic regions: 遺伝子ー遺伝子間についてもマッピングさせる場合 7

RNA-seq Maximum number of mismatches: (Short read パラメータ ) リード中に最大何個までのミスマッチを許容するか Length fraction: (Long read パラメータ ) マッチする際に考慮するリードの長さの割合 Similarity fraction: (Long read パラメータ ) Length fraction で指定した長さのうち一致するべき割合 Use color space: カラースペースを使用する場合 Auto-detect paired distances: 自動でペアの距離を推定させる場合 Strand specific: センスアンチセンス鎖特異的にマップさせたい場合のオプション Maximum number of hits for a read:1 つのリードがマッチする最大の数この数以上の箇所にマップされたリードはマップされません 8

RNA-seq Expression level: Count paired reads as two: ペアを 2 リードとカウントしたい場合 Expression value: 発現量に何を指定するか Calculate RPKM for gene without transcripts: アノテーションとして mrna がなく遺伝子のみの場合この場合遺伝子の全長で RPKM を計算します 9

RNA-seq Create report: レポートの作成 Create fusion gene table: 融合遺伝子の可能性のあるテーブルの作成 ( ペアエンド利用時のみ有効なオプション ) Minimum read count fusion gene table: 融合遺伝子の可能性があるとする最小の遺伝子 10

RNA-seq: 結果ファイル名 (GE) : Gene Expression トラックファイル名 (TE) : Transcript Expression トラックファイル名 (Reads) : マッピングトラックファイル名 (single),(paired): マップされなかったリードファイル名 report: レポートアウトプットで指定をしていないものは作成されないためご注意ください 11

RNA-seq: 結果 Gene Expression トラック遺伝子レベルでの発現量が表示されています 12

RNA-seq Transcript Expression トラック転写因子レベルでの発現量が表示されています 13

RNA-seq マッピングトラック遺伝子レベルでの発現量が表示されています 14

RNA-seq レポート利用したデータのサマリーや 1 つの遺伝子に対するトランスクリプトの数などの統計情報が含まれています 15

RNA-seq トラックボタンをクリックするとビューがトラックビューに切り替わります 16

結果を組み合わせたビュー Toolbox > Track tools > Create track list を選択しゲノム遺伝子 mrna マッピング (Reads) データ NPC の GE データを選択します 17

結果を組み合わせたビュー GE トラックの赤枠部分をクリックするとテーブルが現れますたとえば Sox6 遺伝子などを選択すると該当箇所の詳細が確認できます 18

RNA-seq バッチで処理をしてみましょう! 最初のウィザードで Batch のボタンにチェックを入れバッチ処理を行いたいフォルダを選択しますフォルダ内の該当するデータがリストに現れます含めたいもの含めたくないものは Only use elements containing, Exclude elements containing に文字列を入れることで選択排除可能です 19

Expression Analysis 20

発現解析 RNA-seq の結果を使から ES 細胞と神経前駆細胞での違いを調べるという事を行います 7.0 から新しく搭載された EdgeR について使い方を説明します群群内のレプリケート Gaussian Test T-test 2 群必須 ANOVA 3 群以上必須 Proportional Test Kal s test 2 群不要 Bagglaley s test 2 群必須 Empirical Analysis of DGE 2 群必須 21

Expression Analysis RNA-seq のデータは Microarray のように発現差の解析を行うことが可能ですそのためにはまず RNA-seq のデータを Experiment という形へ変更しその後発現解析ツールを使って解析を行います 22

Set Up Experiment Navigation Area から使用する RNA-seq データを選択 Toolbox から Set Up Experiment を選択ダブルクリックウィザードが起動し選択したデータが選ばれていることを確認 23

Set Up Experiment Two-group comparison: 2 群比較 Unpaired/Paired:2 つの群のサンプルに対応があるかどうか ( 同じ固体で違う条件など ) Multi-group comparison: 多群比較 Use existing expression values from samples: RNA-seq で指定した発現量をそのままつかう場合 Set new expression value: 別の発現量を使う場合 24

Set Up Experiment グループにつける名前を入力 RNA-seq のデータをグループに割り当てる 25

Set Up Experiment 26

Expression Analysis:EDGE Navigation Area から使用する Experiment データを選択 Toolbox から On Gaussian Data を選択ダブルクリックウィザードが起動し選択したデータが選ばれていることを確認 27

Expression Analysis: EDGE Total count filter cutoff: 発現量があるとするための最小のカウント数 Tagwise dispersions: タグごと (Set Up Experiment を遺伝子レベルで作成した場合は遺伝子ごと ) のばらつきを計算させるか通常はチェックをいれたままにしておいてください Exact test comparisons すべての組み合わせ指定したものをコントロールとする場合 Add corrected p-value: p 値の補正ボンフェローニ FDR 28

Expression Analysis: 結果 29

Expression Analysis: 結果黒いボタンをクリック列ごとのフィルター用のツールが現れます 30

Expression Analysis: 結果 FDR < 0.001, Fold Change の絶対値 2 以上でフィルターをかけてみましょうこのテーブルの状態から Excel などへエクスポートも可能です 31

ご清聴ありがとうございました 32

APPENDIX 33

P 値の補正検定を繰り返すと指定した閾値よりも実際は高いエラーを含むことになりますたとえば p < 0.05 となる遺伝子のリストを得たい場合 3 つの遺伝子について検定を行った場合これは検定の繰り返しとなり実際には 1-(1-0.05)^3 = 0.14 というエラーを含んだ結果となるのです Bonfferroni 法ではくりかえしの検定数で閾値を割ることで繰り返しを考慮した閾値を設定します上記の例では 0.05 / 3 とした閾値で検定しますしかし遺伝子数が膨大になると閾値が非常に小さくなりどの遺伝子も検定で棄却できずリストが作成できなくなり現実的ではありませんボンフェローに法の閾値で棄却されたリストと言うのは False Positive を全く含まないリストとなりますこれを少し緩くしある程度のエラーを含むことを覚悟した上でのリストを得ようとする方法が次の FDR になります 34

P 値の補正 FDR P 値を小さい順に並べます p 1 < p 2 < p 3 < < p i < < p m α を検定で棄却したい値とします i = m として If p i < α i (1) を計算する m if not set i = m 1 then calculate (1) 35

P-value correction FDR Say p 1 < p 2 < p 3 < < p i < < p m and α is threshold. i = m If p i < α i m 1 を満たすならば k = i (1) 式が満たされない場合 i = m 1 として (1) を再度計算 p 1,, p k に対応する仮説を棄却する 36