CLC Genomics Workbench ウェブトレーニングセミナー: 変異解析編

CLC Genomics Workbench ウェブトレーニングセミナー : 遺伝子発現解析編 12 th Feb., 2016 フィルジェン株式会社バイオサイエンス部 biosupport@filgen.jp Feb., 2016_V2 1

遺伝子発現解析概要本日のセミナーにおける解析の流れ及び使用するツール名 ( 図中赤枠部分 ) Case Control インポートインポートインポートインポート Trim Sequences Trim Sequences Trim Sequences Trim Sequences クオリティーコントロール RNA-Seq Analysis RNA-Seq Analysis RNA-Seq Analysis RNA-Seq Analysis 遺伝子発現量の算出 Set Up Experiment サンプル間比較 Empirical Analysis of DGE 有意差検定 Feb., 2016_V2 2

RNA-Seq Analysis 概要 RNA-Seq Analysis ツールにより RNA-Seq データから遺伝子発現データを取得します本ツールでは RNA-Seq のリードを遺伝子 (Gene トラック ) や転写産物 (mrna トラック ) にマップしその数をカウントすることで発現量が計算されます Read: 図 1. RNA-Seq Analysis ツールによる遺伝子発現解析のイメージ詳細はマニュアルをご覧ください :http://www.clcsupport.com/clcgenomicsworkbench/current/index.php?manual=rna_seq_analysis.html Feb., 2016_V2 3

マッピング原理 CLC Genomics Workbench においてマッピングは 2 つのステップを経ます 1. ローカルアライメント : リファレンス配列と似ている場所を探す Reference Reads 2. フィルタリング : 参照配列との類似性から維持するリードを決定する Feb., 2016_V2 4

マッピング原理アライメントにおいてリードはリファレンスとの一致不一致 (match/mismatch) や挿入欠失 (insertion/deletion) の数に基づいてスコアリングされ最も高いスコアを示す箇所にマップされますリファレンスと一致する塩基につき 1 点が加算され mismatch や insertion/deletion の数だけそのペナルティコストが引かれていきますローカルアライメントのスコアリング例 (Linear gap) リード配列 (20 bp) が全て一致した場合 : 1x20 = 20 Mismatch cost Insertion cost Deletion cost : 2 : 3 : 3 1 塩基ミスマッチがあった場合 : 1x19 2x1 = 17 2 塩基 Insertion があった場合 : 1x20 3x2 = 14 Feb., 2016_V2 5

マッピング原理フィルタリングによりアライメントされたリードの内いずれを後の解析のために残すかが決定されますフィルタリングには Length と Similarity の 2 つの Fraction が影響します Length Fraction ではフィルタリング時に考慮する長さに関係し Similarity Fraction では Length Fraction で指定した長さにおける類似性の程度に関与しますフィルタリング例リード長 : 100 bp Length Fraction が 0.8( デフォルト値 ): 100 bp x 0.8 = 80 bp Similarity Fraction が 0.8( デフォルト値 ): 80 bp x 0.8 = 64 bp リード長が 100bp の時デフォルト設定では 64 塩基がリファレンスと完全に一致していればリードは維持されるマッピングツールである Map Reads to Reference ツールにおいて Length Fraction のデフォルト値は 0.5 に設定されています Feb., 2016_V2 6

遺伝子発現量の計算 RNA-Seq Analysisでは遺伝子の発現量として以下から指定します : リファレンスにマップされたリード数リード数をRPKM 法で正規化した値 Empirical Analysis of DGEツールで有意差検定をする場合リード数 (Counts) を指定します RPKM (Reads per kilobase of exon per million mapped reads) Total exon reads: 各遺伝子のエクソンにマップされた総リード数 Mapped reads(one million): マップされた総リード数を 100 万で割った値マップされた総リード数を 100 万になるように補正しています Exon length (kb): 遺伝子の全エクソンの長さを足して 1000 で割った値 Exon が長い程マップされるリード数が多くなるのでその長さで割ることで補正しています Feb., 2016_V2 7

RNA-Seq Analysis 1.Toolbox から Transcriptomics Analysis > RNA-Seq Analysis を選択ダブルクリック 2.Select sequencing reads 画面でリードデータを選択 Feb., 2016_V2 8

RNA-Seq Analysis Genome annotated with genes and transcripts: Gene および mrna アノテーショントラックが利用可能な場合に選択サンプルが真核生物であれば通常こちらを選択します Genome annotated with genes only: Gene アノテーショントラックのみが利用可能な場合に選択サンプルが原核生物の場合通常こちらを選択します One reference sequence per transcript: Gene や mrna アノテーショントラックが利用できない場合に選択配列が複数ある場合各配列は 1 転写産物として扱われそれらの発現量が計算されます RNA-Seq データの De Novo Assembly 産物の場合などで利用されます Map to gene region only (fast): Gene アノテーショントラックの領域に対してのみマッピング Also map to inter-genic regions: 遺伝子間領域にもマッピング遺伝子発現量データには反映されません 3.Reference sequence などを設定しオプションを任意で選択して Next をクリック Feb., 2016_V2 9

RNA-Seq Analysis Mismatch cost: リードの塩基がリファレンスと一致しない場合のペナルティコストデフォルトでは 2 に設定されています Insertion cost: リード配列に insertion があった場合のペナルティコストデフォルトでは 3 に設定されています Deletion cost: リード配列に deletion があった場合のペナルティコストデフォルトでは 3 に設定されています Length fraction: フィルタリング時に考慮する長さの割合デフォルトでは 0.8 に設定されています Similarity fraction: フィルタリング時に考慮される長さの範囲における類似の割合デフォルトでは 0.8 に設定されています 4.Mapping option の各項目を任意で設定し Next をクリック Feb., 2016_V2 10

RNA-Seq Analysis Global alignment: チェックが外れている場合 Local alignment を実行デフォルトではチェックが外れています Color space alignment: カラースペースデータでありカラーによるエラー補正をする場合にチェックを入れますデフォルトではチェックが入っています Color error cost: カラーのエラーコストデフォルトでは 3 に設定されています Auto-detect paired distances: チェックが入っている場合自動でペアの距離が決定されますデフォルトではチェックされています Strand specific: マッピング時におけるリファレンス配列に対する向きを指定します Both: リファレンス配列のフォワードリバース鎖の両方にマッピング Forward: リファレンス配列のフォワード鎖にのみマッピング Reverse: リファレンス配列のリバース鎖にのみマッピングデフォルトでは Both が選択されています Maximum number of hits for a read: リファレンスに対し指定した値以上の箇所にリードが一致した場合そのリードはマップされません 4.Mapping option の各項目を任意で設定し Next をクリック Feb., 2016_V2 11

RNA-Seq Analysis Count paired as two: ペアと認識されている forward-reverse リードは 1 としてカウントされますがチェックを入れると 2 としてカウントしますデフォルトではチェックされていません Expression value: 発現量としてリードのカウント数にするか RPKM 値にするか選択デフォルトでは Total counts が選択されています Calculate RPKM for genes without transcripts: mrna アノテーショントラックが利用できず Gene アノテーショントラックのみの場合チェックを入れることで遺伝子の全長で RPKM を計算しますデフォルトではチェックされていません 5.Expression level option の各項目を任意で設定し Next をクリック Feb., 2016_V2 12

RNA-Seq Analysis Create report: RNA-Seq 解析のレポートを作成デフォルトではチェックされています Create fusion gene table: チェックを入れると融合遺伝子の候補テーブルを作成デフォルトではチェックされていませんペアリードデータのときのみ選択可能となります Minimum read count fusion gene table: 融合遺伝子候補の支持に必要な最低リード数デフォルトでは 5 が設定されています Create list of unmapped reads: マッピングされなかったリードの配列リストを作成デフォルトではチェックされていません 6.Output options を任意で設定し解析結果を保存する場合は Save を選択して Next をクリック 7.Save location for new elements 画面で出力先を指定し Finish をクリック Feb., 2016_V2 13

RNA-Seq Analysis RNA-Seq Analysis ツールでは以下のデータが取得されます (GE): Gene Expression トラック (TE): Transcript Expression トラック (Reads): マッピング ( リード ) トラック un-mapped reads(single, paired): マップされなかったリードのリスト Output options で Create list of unmapped reads にチェックを入れると作成されます Report: RNA-Seq 解析のレポート Output options で Create report にチェックを入れると作成されます Feb., 2016_V2 14

RNA-Seq Analysis Gene Expression トラックでは遺伝子レベルの発現量が確認できます Feb., 2016_V2 15

RNA-Seq Analysis Transcript Expression トラックでは転写産物レベルの発現量が確認できます Feb., 2016_V2 16

RNA-Seq Analysis Gene および Transcript Expression トラックはデフォルトではテーブル形式で表示されますトラックアイコンをクリックすることでトラック形式に表示を切り替えることが出来ます Feb., 2016_V2 17

RNA-Seq Analysis マッピングリードトラックではマッピングデータを確認できます Feb., 2016_V2 18

Create Track List トラックリストを作成することでマッピングトラックや GE トラックなどを一緒に表示させることが出来ますトラックリストを作成するには各トラックに表示される Create Track List ボタンをクリックします Toolbox にある Create Track List ツールでもトラックリストを作成できます Feb., 2016_V2 19

Create Track List Feb., 2016_V2 20

Track List トラックリストにおいてトラックの名前をダブルクリックすると下にそのテーブルデータが表示されます Feb., 2016_V2 21

Track List テーブル上で任意の項目をクリックするとグラフ上の当該箇所にジャンプします Feb., 2016_V2 22

Set Up Experiment RNA-Seq 解析や Small RNA 解析で作成した発現データを選択マイクロアレイデータも選択可能 1.Toolbox から Transcriptomics Analysis > Set Up Experiment を選択ダブルクリック 2.Select at least two samples of the same type 画面で発現データを選択 Feb., 2016_V2 23

Set Up Experiment Two-group comparison: 2 グループ間比較をおこなう場合こちらを選択しますデフォルトではこちらが選択されています Multiple-group comparison: 多グループ間比較をおこなう場合こちらを選択しますこちらを選択した場合グループ数を Number of group に設定します Unpaired/ Paired: 比較するデータが独立する個体から取得された場合は Unpaired 同じ個体から取得された場合は Paired を選択します例えば同一個体から取得された疾患部と正常部サンプルのペアを比較する場合 Paired を選択しますデフォルトでは Unpaired が選択されています Use existing expression values from samples: RNA-Seq Analysis や Small RNA Analysis 実行時に指定した Expression value に基づいて計算しますデフォルトではこちらが選択されています Set new expression value: 別の Expression value に指定しなおす場合こちらで設定します 3.Define experiment type のオプションを解析目的に合うように設定し Next をクリック Feb., 2016_V2 24

Set Up Experiment 4.Assign group names で各グループに名前を入力し Next をクリック右クリックし各サンプルがどのグループに属するかを指定 5. 各サンプルの Group 列を右クリックしどのグループに属するか指定して Next をクリック Feb., 2016_V2 25

Set Up Experiment 6.Output options を設定し Next をクリック 7.Save in folder で出力先を指定し Finish をクリック Feb., 2016_V2 26

Set Up Experiment Set Up Experimentを実行すると Experimentalデータ ( ) が作成されます ExperimentalデータのFold Change 列においてグループ間で発現が何倍変動しているか確認できます Feb., 2016_V2 27

Fold Change 計算方法 Set Up Experiment の発現差 (Fold Change) は以下のように計算されます発現量 : Group 1 < Group 2 発現量 : Group 1 > Group 2 Fold Change = Group 2 Group 1 Fold Change = Group 1 Group 2 X (-1) Fold Change 計算例例 1, 発現量 : Group 1 =10, Group 2 =50 Group 2 50 Fold Change = = = 5 Group 1 10 例 2, 発現量 : Group 1 =50, Group 2 =10 例 1 のように発現値が Group2 の方が Group1 より高い場合 Group2 を Group1 で割った値が Fold change となりますこの例では 50/10 で 5 倍変動となります例 2 では発現値が Group1 の方が Group2 により高くこの場合は Group1 を Group2 で割った値に (-1) をかけた値が Fold change となりますこの例では 50/10x(-1) で -5 倍変動となります Fold Change = Group 1 Group 2 50 X (-1) = - = -5 10 Feb., 2016_V2 28

有意差検定 : Statistical Analysis CLC Genomics Workbench には 3 種類の統計解析用ツールが用意されていますツールによって扱う発現データの種類が異なります Empirical Analysis of DGE で扱う発現データはカウントデータである必要があります群群内レプリケート Empirical Analysis of DGE 2 群必須 On Proportions Kal s test 2 群不要発現量 : カウントデータ Bagglaley s test 2 群必須 On Gaussian Data T-test 2 群必須 ANOVA 3 群以上必須 Feb., 2016_V2 29

Empirical Analysis of DGE 1.Toolbox から Statistical Analysis> Empirical Analysis of DGE を選択ダブルクリック 2.Select one experiment 画面で Experimental データを選択して Next をクリック Feb., 2016_V2 30

Empirical Analysis of DGE Total count filter cut off: 設定した値に満たない発現のタグ ( 遺伝子 ) はばらつきの計算から除外されますデフォルトでは 5.0 に設定されています Tagwise dispersions: タグ ( 遺伝子 ) ごとにばらつきを計算させる場合チェックを入れます通常はチェックを入れたままにしてください All pairs: グループの全組合せで解析を実行しますデフォルトではこちらが選択されています Against references: 特定のグループをコントロールとした組合せで解析を実行しますコントロールとするグループは Reference name から選択します Bonferroni corrected: チェックを入れると Bonferroni 法で補正した P 値も計算されますデフォルトではチェックされていませんが入れることをお勧めします FDR corrected: チェックを入れると FDR 法で補正した P 値も計算されますデフォルトではチェックされていませんが入れることをお勧めします 3.Common dispersion の各項目を任意で設定し Next をクリック 4.Exact test parameters を任意で設定し Next をクリック Feb., 2016_V2 31

Empirical Analysis of DGE 5.Output options を設定し Next をクリック 6.Save in folder で出力先を指定し Finish をクリック Feb., 2016_V2 32

Empirical Analysis of DGE Empirical Analysis of DGE を実行すると Experiment の右列に新しくデータが追加されます追加された列において各 P 値や再計算された Fold change を確認することが出来ます Feb., 2016_V2 33

Empirical Analysis of DGE ( ) アイコンをクリックすることでボルケノプロットに表示を切り替えます Feb., 2016_V2 34

データのフィルタリングフィルタリングにはテーブルにあるフィルター機能を使用します 1 クリック 2 条件設定 : + ボタンで条件を追加ボタンで条件を削除 Filter ボタンでフィルタリングの実行 Feb., 2016_V2 35

データのフィルタリング : Fold Change が 2 倍より大きい遺伝子の抽出条件に一致した遺伝子数 Fold change を選択 abs value > を選択 2 を入力上記の例では Empirical Analysis of DGE で再計算された Fold change に基づいてフィルタリングしています abs value を指定することで絶対値を指定することが出来ます ; 上記の例において abs value > ではなく通常の > を指定すると -2 倍変動の遺伝子が抽出されなくなります Feb., 2016_V2 36

データのフィルタリング : Fold Change が 2 倍より大きく P 値が 0.05 未満の遺伝子の抽出 Match all を選択上記の例では Fold Change は Empirical Analysis of DGE に P 値は FDR p-value correction に基づいてフィルタリングしています Match all と Match any Match any を選択した場合設定した条件のどれか一つに合致すればフィルタリングされてきますこれに対し Match all を選択した場合設定した条件の全てに合致したデータのみがフィルタリングされてきます Feb., 2016_V2 37

データのフィルタリング : サブセットデータの作成フィルタリング後にそのままデータをエクスポートしてもエクスポートデータには全てのデータが含まれてしまいますフィルタリングしたデータのみをエクスポートする場合一度サブセットデータを作成します 1. フィルタリング条件に合致した全データを選択 2. Create Track from Selection をクリック 3. 作成したサブセットを Save アイコンから保存 Feb., 2016_V2 38

データのエクスポートツールバーにある Export アイコンから様々なファイル形式でデータをエクスポートします遺伝子発現データをエクセルファイルとしてエクスポートすることが可能です 1. Export をクリック 2. リストから Excel を選択して Select をクリック 3. ウィザードに従ってデータをエクスポート Feb., 2016_V2 39

マニュアルダウンロード CLC Genomics Workbenchは本セミナーで紹介した以外にも多くの機能を搭載していますマニュアルでは搭載されているツールの機能や詳細が記載されていますマニュアルは以下のリンク先より取得できます http://www.clcbio.com/products/clc-genomics-workbench/#download Feb., 2016_V2 40