RNA-seq 1
RNA-seq 解析フロー RNA-seq インポート クオリティチェック RNA-seq 発現差解析 この資料では RNA-seq からの説明となりますが インポート クオリティチェックについては サポート資料のページより内容をご確認いただけます 2
データ 発現解析用デモデータは 以下よりダウンロードいただけます ES 細胞 (ESC) と神経前駆細胞 (NPC) の発現解析を小さなデモデータで行えます http://download.clcbio.com/testdata/mousechr7dataset.zip ダウンロード後 解凍せずに Import>Standard Import からインポートください 右図のようなファイルがインポートされます 3
RPKM RPKM: Reads Per Killobases per Million 長さが異なるトランスクリプト 実験で使われたリードの総数による違いについて正規化するための方法 RPKM C LN C: マップされたリードの総数 N: リードの総数 (Million) L: トランスクリプトの長さ (kbase) 4
RPKM 例 : Sample A Total reads: 6M Gene 1: 300bp 10 reads Gene 2: 400bp 13 reads Gene 3: 500bp 15 reads RPKM=10/(0.3*6) =5.55 RPKM=13/(0.4*6) =5.42 RPKM=15/(0.5*6) =5.0 Sample B Total reads: 4M Gene 1: 300bp 6 reads Gene 2: 400bp 10 reads Gene 3: 500bp 13 reads RPKM=6/(0.3*4) =5.0 RPKM=10/(0.4*4) =6.25 RPKM=13/(0.5*4) =6.5 5
RNA-seq Navigation Area から使用するリードデータを選択 Toolbox から Transcript Analysis > RNA-seq Analysis > RNA- Seq Analysis を選択 ダブルクリック ウィザードが起動し 選択したデータが選ばれていることを確認 6
RNA-seq Reference Genome annotated with genes and transcripts: ゲノムに遺伝子とトランスクリプト (mrna) がアノテーションとして付いている場合 Gnome annotated with genes only: ゲノムに遺伝子のみのアノテーションが付いている場合 One reference sequence per transcript: 参照配列のみの場合 (EST など ) Reference sequence, Gene track, mrna track はそれぞれ使用する ゲノム配列 遺伝子 mrna を選択 Mapping Map to gene region only (fast): 遺伝子の領域のみにマッピングする場合 Also map to inter-genic regions: 遺伝子ー遺伝子間についてもマッピングさせる場合 7
RNA-seq Maximum number of mismatches: (Short read パラメータ ) リード中に最大何個までのミスマッチを許容するか Length fraction: (Long read パラメータ ) マッチする際に考慮するリードの長さの割合 Similarity fraction: (Long read パラメータ ) Length fraction で指定した長さのうち 一致するべき割合 Use color space: カラースペースを使用する場合 Auto-detect paired distances: 自動でペアの距離を推定させる場合 Strand specific: センス アンチセンス鎖特異的にマップさせたい場合のオプション Maximum number of hits for a read:1 つのリードがマッチする最大の数 この数以上の箇所にマップされたリードは マップされません 8
RNA-seq Expression level: Count paired reads as two: ペアを 2 リードとカウントしたい場合 Expression value: 発現量に何を指定するか Calculate RPKM for gene without transcripts: アノテーションとして mrna がなく 遺伝子のみの場合 この場合 遺伝子の全長で RPKM を計算します 9
RNA-seq Create report: レポートの作成 Create fusion gene table: 融合遺伝子の可能性のあるテーブルの作成 ( ペアエンド利用時のみ有効なオプション ) Minimum read count fusion gene table: 融合遺伝子の可能性があるとする最小の遺伝子 10
RNA-seq: 結果 ファイル名 (GE) : Gene Expression トラック ファイル名 (TE) : Transcript Expression トラック ファイル名 (Reads) : マッピングトラック ファイル名 (single),(paired): マップされなかったリード ファイル名 report: レポート アウトプットで指定をしていないものは作成されないため ご注意ください 11
RNA-seq: 結果 Gene Expression トラック 遺伝子レベルでの発現量が表示されています 12
RNA-seq Transcript Expression トラック 転写因子レベルでの発現量が表示されています 13
RNA-seq マッピングトラック 遺伝子レベルでの発現量が表示されています 14
RNA-seq レポート 利用したデータのサマリーや 1 つの遺伝子に対するトランスクリプトの数などの統計情報が含まれています 15
RNA-seq トラックボタンをクリックすると ビューがトラックビューに切り替わります 16
結果を組み合わせたビュー Toolbox > Track tools > Create track list を選択し ゲノム 遺伝子 mrna マッピング (Reads) データ NPC の GE データを選択します 17
結果を組み合わせたビュー GE トラックの赤枠部分をクリックすると テーブルが現れます たとえば Sox6 遺伝子などを選択すると 該当箇所の詳細が確認できます 18
RNA-seq バッチで処理をしてみましょう! 最初のウィザードで Batch のボタンにチェックを入れ バッチ処理を行いたいフォルダを選択します フォルダ内の該当するデータがリストに現れます 含めたいもの 含めたくないものは Only use elements containing, Exclude elements containing に文字列を入れることで 選択 排除可能です 19
Expression Analysis 20
発現解析 RNA-seq の結果を使から ES 細胞と神経前駆細胞での違いを調べる という事を行います 7.0 から新しく搭載された EdgeR について使い方を説明します 群 群内のレプリケート Gaussian Test T-test 2 群必須 ANOVA 3 群以上必須 Proportional Test Kal s test 2 群不要 Bagglaley s test 2 群必須 Empirical Analysis of DGE 2 群必須 21
Expression Analysis RNA-seq のデータは Microarray のように発現差の解析を行うことが可能です そのためには まず RNA-seq のデータを Experiment という形へ変更し その後 発現解析ツールを使って解析を行います 22
Set Up Experiment Navigation Area から使用する RNA-seq データを選択 Toolbox から Set Up Experiment を選択 ダブルクリック ウィザードが起動し 選択したデータが選ばれていることを確認 23
Set Up Experiment Two-group comparison: 2 群比較 Unpaired/Paired:2 つの群のサンプルに対応があるかどうか ( 同じ固体で違う条件など ) Multi-group comparison: 多群比較 Use existing expression values from samples: RNA-seq で指定した発現量をそのままつかう場合 Set new expression value: 別の発現量を使う場合 24
Set Up Experiment グループにつける名前を入力 RNA-seq のデータをグループに割り当てる 25
Set Up Experiment 26
Expression Analysis:EDGE Navigation Area から使用する Experiment データを選択 Toolbox から On Gaussian Data を選択 ダブルクリック ウィザードが起動し 選択したデータが選ばれていることを確認 27
Expression Analysis: EDGE Total count filter cutoff: 発現量があるとするための最小のカウント数 Tagwise dispersions: タグごと (Set Up Experiment を遺伝子レベルで作成した場合は 遺伝子ごと ) のばらつきを計算させるか 通常はチェックをいれたままにしておいてください Exact test comparisons すべての組み合わせ 指定したものをコントロールとする場合 Add corrected p-value: p 値の補正 ボンフェローニ FDR 28
Expression Analysis: 結果 29
Expression Analysis: 結果 黒い ボタンをクリック 列ごとのフィルター用のツールが現れます 30
Expression Analysis: 結果 FDR < 0.001, Fold Change の絶対値 2 以上でフィルターをかけてみましょう このテーブルの状態から Excel などへエクスポートも可能です 31
ご清聴ありがとうございました 32
APPENDIX 33
P 値の補正 検定を繰り返すと 指定した閾値よりも実際は高いエラーを含むことになります たとえば p < 0.05 となる遺伝子のリストを得たい場合 3 つの遺伝子について検定を行った場合 これは検定の繰り返しとなり 実際には 1-(1-0.05)^3 = 0.14 というエラーを含んだ結果となるのです Bonfferroni 法ではくりかえしの検定数で閾値を割ることで 繰り返しを考慮した閾値を設定します 上記の例では 0.05 / 3 とした閾値で検定します しかし 遺伝子数が膨大になると 閾値が非常に小さくなり どの遺伝子も検定で棄却できず リストが作成できなくなり 現実的ではありません ボンフェローに法の閾値で棄却されたリストと言うのは False Positive を全く含まないリストとなります これを少し緩くし ある程度のエラーを含むことを覚悟した上でのリストを得ようとする方法が次の FDR になります 34
P 値の補正 FDR P 値を小さい順に並べます p 1 < p 2 < p 3 < < p i < < p m α を検定で棄却したい値とします i = m として If p i < α i (1) を計算する m if not set i = m 1 then calculate (1) 35
P-value correction FDR Say p 1 < p 2 < p 3 < < p i < < p m and α is threshold. i = m If p i < α i m 1 を満たすならば k = i (1) 式が満たされない場合 i = m 1 として (1) を再度計算 p 1,, p k に対応する仮説を棄却する 36