CLC Genomics Workbench ウェブトレーニングセミナー : 遺伝子発現解析編 12 th Feb., 2016 フィルジェン株式会社バイオサイエンス部 biosupport@filgen.jp Feb., 2016_V2 1
遺伝子発現解析概要 本日のセミナーにおける解析の流れ及び使用するツール名 ( 図中赤枠部分 ) Case Control インポート インポート インポート インポート Trim Sequences Trim Sequences Trim Sequences Trim Sequences クオリティーコントロール RNA-Seq Analysis RNA-Seq Analysis RNA-Seq Analysis RNA-Seq Analysis 遺伝子発現量の算出 Set Up Experiment サンプル間比較 Empirical Analysis of DGE 有意差検定 Feb., 2016_V2 2
RNA-Seq Analysis 概要 RNA-Seq Analysis ツールにより RNA-Seq データから遺伝子発現データを取得します 本ツールでは RNA-Seq のリードを遺伝子 (Gene トラック ) や転写産物 (mrna トラック ) にマップし その数をカウントすることで発現量が計算されます Read: 図 1. RNA-Seq Analysis ツールによる遺伝子発現解析のイメージ 詳細はマニュアルをご覧ください :http://www.clcsupport.com/clcgenomicsworkbench/current/index.php?manual=rna_seq_analysis.html Feb., 2016_V2 3
マッピング原理 CLC Genomics Workbench において マッピングは 2 つのステップを経ます 1. ローカルアライメント : リファレンス配列と似ている場所を探す Reference Reads 2. フィルタリング : 参照配列との類似性から 維持するリードを決定する Feb., 2016_V2 4
マッピング原理 アライメントにおいて リードはリファレンスとの一致 不一致 (match/mismatch) や挿入 欠失 (insertion/deletion) の数に基づいてスコ アリングされ 最も高いスコアを示す箇所にマップされます リファレンスと一致する塩基につき 1 点が加算され mismatch や insertion/deletion の数だけ そのペナルティコストが引かれていきます ローカルアライメントのスコアリング例 (Linear gap) リード配列 (20 bp) が全て一致した場合 : 1x20 = 20 Mismatch cost Insertion cost Deletion cost : 2 : 3 : 3 1 塩基ミスマッチがあった場合 : 1x19 2x1 = 17 2 塩基 Insertion があった場合 : 1x20 3x2 = 14 Feb., 2016_V2 5
マッピング原理 フィルタリングにより アライメントされたリードの内 いずれを後の解析のために残すかが決定されます フィルタリングには Length と Similarity の 2 つの Fraction が影響します Length Fraction ではフィルタリング時に考慮する長さに関係し Similarity Fraction では Length Fraction で指定した長さにおける類似性の程度に関与します フィルタリング例 リード長 : 100 bp Length Fraction が 0.8( デフォルト値 ): 100 bp x 0.8 = 80 bp Similarity Fraction が 0.8( デフォルト値 ): 80 bp x 0.8 = 64 bp リード長が 100bp の時 デフォルト設定では 64 塩基がリファレンスと完全に一致していればリードは維持される マッピングツールである Map Reads to Reference ツールにおいて Length Fraction のデフォルト値は 0.5 に設定されています Feb., 2016_V2 6
遺伝子発現量の計算 RNA-Seq Analysisでは遺伝子の発現量として 以下から指定します : リファレンスにマップされたリード数 リード数をRPKM 法で正規化した値 Empirical Analysis of DGEツールで有意差検定をする場合 リード数 (Counts) を指定します RPKM (Reads per kilobase of exon per million mapped reads) Total exon reads: 各遺伝子のエクソンにマップされた総リード数 Mapped reads(one million): マップされた総リード数を 100 万で割った値 マップされた総リード数を 100 万になるように補正しています Exon length (kb): 遺伝子の全エクソンの長さを足して 1000 で割った値 Exon が長い程マップされるリード数が多くなるので その長さで割ることで補正しています Feb., 2016_V2 7
RNA-Seq Analysis 1.Toolbox から Transcriptomics Analysis > RNA-Seq Analysis を選択 ダブルクリック 2.Select sequencing reads 画面で リードデータを選択 Feb., 2016_V2 8
RNA-Seq Analysis Genome annotated with genes and transcripts: Gene および mrna アノテーショントラックが利用可能な場合に選択 サンプルが真核生物であれば 通常こちらを選択します Genome annotated with genes only: Gene アノテーショントラックのみが利用可能な場合に選択 サンプルが原核生物の場合 通常こちらを選択します One reference sequence per transcript: Gene や mrna アノテーショントラックが利用できない場合に選択 配列が複数ある場合 各配列は 1 転写産物として扱われ それらの発現量が計算されます RNA-Seq データの De Novo Assembly 産物の場合などで利用されます Map to gene region only (fast): Gene アノテーショントラックの領域に対してのみマッピング Also map to inter-genic regions: 遺伝子間領域にもマッピング 遺伝子発現量データには反映されません 3.Reference sequence などを設定し オプションを任意で選択して Next をクリック Feb., 2016_V2 9
RNA-Seq Analysis Mismatch cost: リードの塩基がリファレンスと一致しない場合のペナルティコスト デフォルトでは 2 に設定されています Insertion cost: リード配列に insertion があった場合のペナルティコスト デフォルトでは 3 に設定されています Deletion cost: リード配列に deletion があった場合のペナルティコスト デフォルトでは 3 に設定されています Length fraction: フィルタリング時に考慮する長さの割合 デフォルトでは 0.8 に設定されています Similarity fraction: フィルタリング時に考慮される長さの範囲における 類似の割合 デフォルトでは 0.8 に設定されています 4.Mapping option の各項目を任意で設定し Next をクリック Feb., 2016_V2 10
RNA-Seq Analysis Global alignment: チェックが外れている場合 Local alignment を実行 デフォルトではチェックが外れています Color space alignment: カラースペースデータであり カラーによるエラー補正をする場合にチェックを入れます デフォルトではチェックが入っています Color error cost: カラーのエラーコスト デフォルトでは 3 に設定されています Auto-detect paired distances: チェックが入っている場合 自動でペアの距離が決定されます デフォルトではチェックされています Strand specific: マッピング時における リファレンス配列に対する向きを指定します Both: リファレンス配列のフォワード リバース鎖の両方にマッピング Forward: リファレンス配列のフォワード鎖にのみマッピング Reverse: リファレンス配列のリバース鎖にのみマッピング デフォルトでは Both が選択されています Maximum number of hits for a read: リファレンスに対し 指定した値以上の箇所にリードが一致した場合 そのリードはマップされません 4.Mapping option の各項目を任意で設定し Next をクリック Feb., 2016_V2 11
RNA-Seq Analysis Count paired as two: ペアと認識されている forward-reverse リードは 1 としてカウントされますが チェックを入れると 2 としてカウントします デフォルトではチェックされていません Expression value: 発現量としてリードのカウント数にするか RPKM 値にするか選択 デフォルトでは Total counts が選択されています Calculate RPKM for genes without transcripts: mrna アノテーショントラックが利用できず Gene アノテーショントラックのみの場合 チェックを入れることで 遺伝子の全長で RPKM を計算します デフォルトではチェックされていません 5.Expression level option の各項目を任意で設定し Next をクリック Feb., 2016_V2 12
RNA-Seq Analysis Create report: RNA-Seq 解析のレポートを作成 デフォルトではチェックされています Create fusion gene table: チェックを入れると 融合遺伝子の候補テーブルを作成 デフォルトではチェックされていません ペアリードデータのときのみ選択可能となります Minimum read count fusion gene table: 融合遺伝子候補の支持に必要な最低リード数 デフォルトでは 5 が設定されています Create list of unmapped reads: マッピングされなかったリードの配列リストを作成 デフォルトではチェックされていません 6.Output options を任意で設定し 解析結果を保存する場合は Save を選択して Next をクリック 7.Save location for new elements 画面で出力先を指定し Finish をクリック Feb., 2016_V2 13
RNA-Seq Analysis RNA-Seq Analysis ツールでは以下のデータが取得されます (GE): Gene Expression トラック (TE): Transcript Expression トラック (Reads): マッピング ( リード ) トラック un-mapped reads(single, paired): マップされなかったリードのリスト Output options で Create list of unmapped reads にチェックを入れると作成されます Report: RNA-Seq 解析のレポート Output options で Create report にチェックを入れると作成されます Feb., 2016_V2 14
RNA-Seq Analysis Gene Expression トラックでは遺伝子レベルの発現量が確認できます Feb., 2016_V2 15
RNA-Seq Analysis Transcript Expression トラックでは転写産物レベルの発現量が確認できます Feb., 2016_V2 16
RNA-Seq Analysis Gene および Transcript Expression トラックはデフォルトではテーブル形式で表示されます トラックアイコンをクリックすることで トラック形式に表示を切り替えることが出来ます Feb., 2016_V2 17
RNA-Seq Analysis マッピングリードトラックではマッピングデータを確認できます Feb., 2016_V2 18
Create Track List トラックリストを作成することで マッピングトラックや GE トラックなどを一緒に表示させることが出来ます トラックリストを作成するには 各トラックに表示される Create Track List ボタンをクリックします Toolbox にある Create Track List ツールでも トラックリストを作成できます Feb., 2016_V2 19
Create Track List Feb., 2016_V2 20
Track List トラックリストにおいて トラックの名前をダブルクリックすると 下にそのテーブルデータが表示されます Feb., 2016_V2 21
Track List テーブル上で任意の項目をクリックすると グラフ上の当該箇所にジャンプします Feb., 2016_V2 22
Set Up Experiment RNA-Seq 解析や Small RNA 解析で作成した発現データを選択 マイクロアレイデータも選択可能 1.Toolbox から Transcriptomics Analysis > Set Up Experiment を選択 ダブルクリック 2.Select at least two samples of the same type 画面で 発現データを選択 Feb., 2016_V2 23
Set Up Experiment Two-group comparison: 2 グループ間比較をおこなう場合 こちらを選択します デフォルトではこちらが選択されています Multiple-group comparison: 多グループ間比較をおこなう場合 こちらを選択します こちらを選択した場合 グループ数を Number of group に設定します Unpaired/ Paired: 比較するデータが 独立する個体から取得された場合は Unpaired 同じ個体から取得された場合は Paired を選択します 例えば 同一個体から取得された疾患部と正常部サンプルのペアを比較する場合 Paired を選択します デフォルトでは Unpaired が選択されています Use existing expression values from samples: RNA-Seq Analysis や Small RNA Analysis 実行時に指定した Expression value に基づいて計算します デフォルトではこちらが選択されています Set new expression value: 別の Expression value に指定しなおす場合 こちらで設定します 3.Define experiment type のオプションを解析目的に合うように設定し Next をクリック Feb., 2016_V2 24
Set Up Experiment 4.Assign group names で各グループに名前を入力し Next をクリック 右クリックし 各サンプルがどのグループに属するかを指定 5. 各サンプルの Group 列を右クリックし どのグループに属するか指定して Next をクリック Feb., 2016_V2 25
Set Up Experiment 6.Output options を設定し Next をクリック 7.Save in folder で出力先を指定し Finish をクリック Feb., 2016_V2 26
Set Up Experiment Set Up Experimentを実行すると Experimentalデータ ( ) が作成されます ExperimentalデータのFold Change 列において グループ間で発現が何倍変動しているか確認できます Feb., 2016_V2 27
Fold Change 計算方法 Set Up Experiment の発現差 (Fold Change) は 以下のように計算されます 発現量 : Group 1 < Group 2 発現量 : Group 1 > Group 2 Fold Change = Group 2 Group 1 Fold Change = Group 1 Group 2 X (-1) Fold Change 計算例例 1, 発現量 : Group 1 =10, Group 2 =50 Group 2 50 Fold Change = = = 5 Group 1 10 例 2, 発現量 : Group 1 =50, Group 2 =10 例 1 のように 発現値が Group2 の方が Group1 より高い場合 Group2 を Group1 で割った値が Fold change となります この例では 50/10 で 5 倍変動となります 例 2 では発現値が Group1 の方が Group2 により高く この場合は Group1 を Group2 で割った値に (-1) をかけた値が Fold change となります この例では 50/10x(-1) で -5 倍変動となります Fold Change = Group 1 Group 2 50 X (-1) = - = -5 10 Feb., 2016_V2 28
有意差検定 : Statistical Analysis CLC Genomics Workbench には 3 種類の統計解析用ツールが用意されています ツールによって 扱う発現データの種類が異なります Empirical Analysis of DGE で扱う発現データは カウントデータである必要があります 群 群内レプリケート Empirical Analysis of DGE 2 群必須 On Proportions Kal s test 2 群不要 発現量 : カウントデータ Bagglaley s test 2 群必須 On Gaussian Data T-test 2 群必須 ANOVA 3 群以上必須 Feb., 2016_V2 29
Empirical Analysis of DGE 1.Toolbox から Statistical Analysis> Empirical Analysis of DGE を選択 ダブルクリック 2.Select one experiment 画面で Experimental データを選択して Next をクリック Feb., 2016_V2 30
Empirical Analysis of DGE Total count filter cut off: 設定した値に満たない発現のタグ ( 遺伝子 ) はばらつきの計算から除外されます デフォルトでは 5.0 に設定されています Tagwise dispersions: タグ ( 遺伝子 ) ごとにばらつきを計算させる場合 チェックを入れます 通常はチェックを入れたままにしてください All pairs: グループの全組合せで 解析を実行します デフォルトではこちらが選択されています Against references: 特定のグループをコントロールとした組合せで 解析を実行します コントロールとするグループは Reference name から選択します Bonferroni corrected: チェックを入れると Bonferroni 法で補正した P 値も計算されます デフォルトではチェックされていませんが 入れることをお勧めします FDR corrected: チェックを入れると FDR 法で補正した P 値も計算されます デフォルトではチェックされていませんが 入れることをお勧めします 3.Common dispersion の各項目を任意で設定し Next をクリック 4.Exact test parameters を任意で設定し Next をクリック Feb., 2016_V2 31
Empirical Analysis of DGE 5.Output options を設定し Next をクリック 6.Save in folder で出力先を指定し Finish をクリック Feb., 2016_V2 32
Empirical Analysis of DGE Empirical Analysis of DGE を実行すると Experiment の右列に 新しくデータが追加されます 追加された列において 各 P 値や再計算された Fold change を確認することが出来ます Feb., 2016_V2 33
Empirical Analysis of DGE ( ) アイコンをクリックすることで ボルケノプロットに表示を切り替えます Feb., 2016_V2 34
データのフィルタリング フィルタリングには テーブルにあるフィルター機能を使用します 1 クリック 2 条件設定 : + ボタンで条件を追加 ボタンで条件を削除 Filter ボタンでフィルタリングの実行 Feb., 2016_V2 35
データのフィルタリング : Fold Change が 2 倍より大きい遺伝子の抽出 条件に一致した遺伝子数 Fold change を選択 abs value > を選択 2 を入力 上記の例では Empirical Analysis of DGE で再計算された Fold change に基づいてフィルタリングしています abs value を指定することで 絶対値を指定することが出来ます ; 上記の例において abs value > ではなく 通常の > を指定すると -2 倍変動の遺伝子が抽出されなくなります Feb., 2016_V2 36
データのフィルタリング : Fold Change が 2 倍より大きく P 値が 0.05 未満の遺伝子の抽出 Match all を選択 上記の例では Fold Change は Empirical Analysis of DGE に P 値は FDR p-value correction に基づいてフィルタリングしています Match all と Match any Match any を選択した場合 設定した条件のどれか一つに合致すればフィルタリングされてきます これに対し Match all を選択した場合 設定した条件の全てに合致したデータのみがフィルタリングされてきます Feb., 2016_V2 37
データのフィルタリング : サブセットデータの作成 フィルタリング後にそのままデータをエクスポートしても エクスポートデータには全てのデータが含まれてしまいます フィルタリングしたデータのみをエクスポートする場合 一度サブセットデータを作成します 1. フィルタリング条件に合致した全データを選択 2. Create Track from Selection をクリック 3. 作成したサブセットを Save アイコンから保存 Feb., 2016_V2 38
データのエクスポート ツールバーにある Export アイコンから 様々なファイル形式でデータをエクスポートします 遺伝子発現データをエクセルファイルとしてエクスポートすることが可能です 1. Export をクリック 2. リストから Excel を選択して Select をクリック 3. ウィザードに従ってデータをエクスポート Feb., 2016_V2 39
マニュアルダウンロード CLC Genomics Workbenchは本セミナーで紹介した以外にも多くの機能を搭載しています マニュアルでは搭載されているツールの機能や詳細が記載されています マニュアルは以下のリンク先より取得できます http://www.clcbio.com/products/clc-genomics-workbench/#download Feb., 2016_V2 40