RNA-seq - PDF Free Download

CLC Genomics Workbench ハンズオントレーニング RNA-seq 株式会社 CLCバイオジャパンシニアフィールドバイオインフォマティクスサイエンティスト宮本真理 Ph.D. mmiyamoto@clcbio.co.jp 1

support@clcbio.co.jp 2

アジェンダ Genomics Workbench 概要今日のデータ RNA-seq 解析データインポート QC RNA-seq 発現差解析 3

CLC Genomics Workbench 概要 4

CLC Genomics Workbench 5

CLC Genomics Workbench 6

解析ワークフロー新規生物種変異解析 ChIP-seq RNA-seq small RNA インポートインポートインポートインポートインポート Quality check Quality check Quality check Quality check タグの抽出 De Novo アッセンブリマッピングマッピング RNA-seq mirbase ダウンロード BLAST 検索変異検出ピーク検出 RPKM 計算アノテーション付けフィルタリングピーク精査群間比較既知の mirna とそれ以外の分類 7

今日のデータ.zip のまま Genomics Workbench へインポートインポートすると変異検出と RNAseq のデータ 8

デモデータインポート Import から Standard Import を選択 TrainingDemoData_ExomeRNA-seq.zip を選択 TrainingDemoData フォルダが作成 9

CLC Genomics Workbench 名称と注意事項 10

Location と Folder ロケーションフォルダ Genomics Workbench ではデータを以下のような階層構造で保存可能ですフォルダの一番上位の階層を Location と呼びその下の階層を Folder と呼びますデータの保存場所はロケーション毎に設定可能ですたとえばあるデータは C ドライブに保存しあるデータは D ドライブに保存するといった事が可能ですロケーションフォルダの作成は以下のアイコンから作成できますフォルダの作成ロケーションの作成 11

トラックとスタンドアロンフォーマット Genomics Workbench はビューアにスタンドアロンフォーマットとトラックフォーマットがありますスタンドアロンフォーマットでは 1 つのデータに配列情報アノテーションがセットになっています 12

トラックとスタンドアロンフォーマットトラックフォーマットではリードやゲノム配列アノテーションがばらばらのファイルになっており好きに組み合わせて表示が可能です 13

トラックとスタンドアロンフォーマット複数のトラックを組み合わせることで好きなビューを作成できます 14

トラックとスタンドアロンフォーマットスタンドアロンフォーマット染色体のセットやリード配列など配列のセット染色体 1 本など1つの配列リードマッピングトラックフォーマット青いヒストグラムが目印ゲノム Track アノテーション Track 変異 Track リード ( マッピング )Track 解析によって必要とするフォーマットが異なりますスタンドアロントラックの変換は自由に行えます 15

解析によって必要なフォーマット以下に主な解析ツールで必要となるフォーマットをまとめています解析の際にデータが選べないという場合必要とするフォーマットに変換されていない場合がありますのでこちらをご参照ください解析方法マッピングターゲット領域のカバレッジ計算変異検出 RNA-seq ChIP-seq 必要となるフォーマット参照配列はスタンドアロンフォーマットトラックフォーマットのいずれも可ただしある領域をマスクしたりある領域にのみマッピングさせるような場合その領域を指定するファイルはトラックフォーマットの必要があるターゲット領域はトラックフォーマットの必要がある変異検出に使うマッピングファイルはスタンドアロンフォーマットトラックフォーマットいずれも可参照配列はスタンドアロンフォーマットが必要またアノテーションとして Gene と mrna を含んでいることが必要トラックから変換する際には参照配列と対応する Gene, mrna のアノテーションを選択しトラックへ変換する必要があるインプットとなるマッピングファイルはスタンドアロンフォーマットの必要がある 16

フォーマットの変換トラックフォーマットからスタンドアロンフォーマットまたスタンドアロンフォーマットからトラックフォーマットへは Genomics Workbench の Toolbox > Track tools の中のツールを使って変換可能ですスタンドアロンフォーマットからトラックへの変換トラックからスタンドアロンフォーマットへの変換スタンドアロンフォーマットへ変換する場合スタンドアロン内に含めるアノテーショントラックを含めて変換するようにしてください 17

フォーマットの変換スタンドアロンフォーマットへ変換する場合スタンドアロン内に含めるアノテーショントラックを含めて変換するようにしてくださいスタンドアロンフォーマットでは Setting Panel の Annotation Type からどういったアノテーションが付属しているか確認できます 18

RNA-seq 解析 19

変異検出の流れリードファイルインポートゲノムアノテーションダウンロードリードの QC RNA-seq Log 変換ノーマライズ t 検定 20

変異検出の流れリードファイルインポートゲノムアノテーションダウンロード Exome Illumina のデータで実習リードの QC RNA-seq Log 変換ノーマライズ RNA-seq のデータで実習 t 検定 21

リードゲノムアノテーションインポート 22

データインポート様々なフォーマットのインポーターアノテーションファイルや BED フォーマットのファイルなど Sanger, NGS データインポーター外部マッピングデータインポーター Standard Import はサンガーシーケンサー次世代シーケンサー以外のファイルのインポートに利用します 23

リードデータインポート Import からインポートしたいリードのシーケンサータイプを選択 24

リードデータインポート Illumina データのインポート General options Paired reads: ペアかどうか Discard reads names: リードについている名前を捨てるかどうかデフォルトでは捨てるとなっていますがマッピング後 SAM にて Export した際などリード名で確認したい場合があるため最初は保存しておきましょう Discard quality scores:quality Score が必要ない場合はこのオプションにチェック通常インポート後にクオリティスコアが必要な事が多いです Paired read orientation: ペアの距離と向きを指定 Illumina options Remove failed reads: シーケンサーで fail とマークされたリードを除去するかどうか Miseq de-multiplexing:multiplexing されたデータを Demultiplexing するかどうか Quality Score: 使用する Quality Score のバージョンの選択 25

リードデータインポート Result handling データを開くか保存の選択 Into separate folders では別々のフォルダへ保存するかどうかを選択できますバッチ処理を行う際に便利です保存先の指定 26

ゲノムアノテーションインポートゲノムはダウンロードアイコンより生物種を指定してアノテーションと共にインポートすることが可能ですゲノム配列とともにアノテーションファイルをダウンロードすることも可能ですすでに Genomics Workbench へ取り込んでいるゲノム配列についてアノテーションを付加することも可能です 27

ゲノムアノテーションインポート Download genome sequence: 新規にゲノムをダウンロードする場合 Use exsting genome sequence track: すでにダウンロードしたゲノムにアノテーションを追加する場合以下のようにトラックのフォーマットになっているゲノムを選択ドロップダウンリストから生物種を選択 28

ゲノムアノテーションインポート希望するアノテーションにチェックを入れるゲノム配列をダウンロードするときは Sequences にもチェックを入れる選択した生物種により表示されるアノテーションの種類は異なります 29

アノテーションインポート Download Genome 以外にもアノテーションファイルをインポート可能ですアノテーションとして取り込めるファイルは以下のフォーマットですアノテーションファイルをインポートする際には対象となるゲノム配列がすでにインポートされ Track のフォーマットになっていることが前提です VCF GFF/GTF/GVF BED Wiggle Complete Genomics Var file UCSC Variation table damp COSMIC variation database 30

アノテーションインポート Type of files to import を選択インポートするファイルを選択 Reference Track を選択 31

クオリティチェック 32

クオリティチェック流れ Quality Report 作成 : Create Sequencing QC Report インポートしたリードのクオリティがどのぐらいかその後のトリミングや PCR Duplicate の状況などを確認するためにレポートを作成 PCR Duplicate の除去 : Remove Duplicate Reads フラグメント作成の過程で PCR が異常にかかってしまったものを補正トリミング : Trim Sequences アダプターの除去クオリティスコアによる除去長さを指定した除去などを選択組み合わせてトリミング上記処理の後に再度 Quality Report を作成すると処理前と処理後でのリードのクオリティを比較でき便利です PCR Duplicate の除去は本日は行いませんが行い方は Web の日本語マニュアルを参照してください 33

Create Sequencing QC Report Navigation Area から使用するリードデータを選択 Toolbox から NGS Core Tools > Create Sequencing QC Report を選択ダブルクリックウィザードが起動し選択したデータが選ばれていることを確認 34

Create Sequencing QC Report Quality analysis: クオリティスコアに関する解析 Over-representations analysis: 過度に現れているような塩基配列などの解析 Create graphical report: グラフィカルなレポート作成 Create supplementary report: 数値のレポート作成 Create duplicated sequence list: 重複のあった配列のリスト作成 35

QC レポート結果 36

クオリティチェックアダプター除去あらかじめ登録されているアダプターの除去新規で独自の配列を登録することも可能クオリティトリミング Quality Score を使い Quality の低い配列が連続するようになる箇所からカット正確に読めていない塩基をいくつ許容するか長さによる除去塩基数を指定して 5 末端 3 末端をカット Quality Score でカット後短くなりすぎた配列をカット 37

クオリティトリミング原理 Trimming では Quality Score を使い累積の Quality Score がある一定の値より大きいものが続いた場合にその箇所を取り除くという処理を行います具体的には以下 : 1. Phred Score を p 値へ変換 2. Trimming 中に設定するパラメータ (Limit) と p 値の差を計算 3. 差の累積和を計算このとき 0 以下の値は 0 とする 4. Trimming 後のリード開始点は累積和がはじめて 0 以上になった点 Trimming 後のリード終了点は累積和が最大の点 38

クオリティトリミング原理リード配列 G C C C A T G T T C G A T G C Phred score 4 8 15 30 32 23 10 31 31 20 15 11 10 10 9 p 値 0.40 0.16 0.03 0.00 0.00 0.01 0.10 0.00 0.00 0.01 0.03 0.08 0.10 0.10 0.13 Limit - p 値 (D) -0.35-0.11 0.02 0.05 0.05 0.04-0.05 0.05 0.05 0.04 0.02-0.03-0.05-0.05-0.08 (D) の累積和 0.00 0.00 0.02 0.07 0.12 0.16 0.11 0.16 0.21 0.25 0.27 0.24 0.19 0.14 0.06 スタート点 : 累積和が 0 より大きくなった塩基終了点 : 累積和が最大を示す塩基 Phred score の棒グラフ 40 20 0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 グラフよりある程度クオリティが高くなった場所からリードを使いクオリティが連続して悪くなっている箇所からリードをトリムしていることがわかる途中 1 塩基のみクオリティが低いような場合は必ずしもトリムされないこれはできるだけリードを長く保とうとするため 39

トリミング Navigation Area から使用するリードデータを選択 Toolbox から NGS Core Tools > Trim Sequences を選択ダブルクリックウィザードが起動し選択したデータが選ばれていることを確認 40

トリミング Trim using quality scores : トリミングに使用する Limit パラメータを決定 Trim ambiguous nucleotides:n 表示される塩基について最大何塩基まで保持させるかアダプタートリミング 41

トリミング Create list of discarded sequences : トリミングで除去されたリードをリストとして作成する場合 Create report: トリミングレポートの作成 Trim bases: リード配列の 5 末 3 末から指定数の塩基を除去 Filter on length: リード配列の 5 末 3 末から指定数の塩基を除去 Save discarded sequences: トリミングにより除去された配列の保存 Save broken pairs: ペアのリードでトリミングによりペアでなくなったリードを保存 Create report: レポートの作成 42

トリミング結果トリミング結果のデータはファイル名の後に trimmed という名前が付いていますファイル内容はインポート後のデータ同様に配列とクオリティスコアを含んだファイルとなっていますトリミング後はトリムされたリードとレポートを作成した場合はそのレポートが作成されます 43

QC レポート再作成! トリミングされたリードを使って QC レポートを再度作ってトリミング前と後を比較してみましょう 44

RNA-seq 45

RNA-seq 解析フロー RNA-seq インポートクオリティチェック RNA-seq, RPKM Log2 変換ノーマライズ t-test 46

RPKM RPKM: Reads Per Killobases per Million 長さが異なるトランスクリプト実験で使われたリードの総数による違いについて正規化するための方法 RPKM C LN C: マップされたリードの総数 N: リードの総数 (Million) L: トランスクリプトの長さ (kbase) 47

RPKM 例 : Sample A Total reads: 6M Gene 1: 300bp 10 reads Gene 2: 400bp 13 reads Gene 3: 500bp 15 reads RPKM=10/(0.3*10) =3.33 RPKM=13/(0.4*10) =3.25 RPKM=15/(0.5*10) =3.0 Sample B Total reads: 4M Gene 1: 300bp 6 reads Gene 2: 400bp 10 reads Gene 3: 500bp 13 reads RPKM=6/(0.3*10) =2.0 RPKM=10/(0.4*10) =2.5 RPKM=13/(0.5*10) =2.6 48

RNA-seq Navigation Area から使用するリードデータを選択 Toolbox から Transcript Analysis > RNA-seq Analysis > RNA- Seq Analysis を選択ダブルクリックウィザードが起動し選択したデータが選ばれていることを確認 49

RNA-seq アノテーション付のデータアノテーション無しのリファレンスいずれかを選択インポートしているゲノムのデータを選択 50

RNA-seq Maximum number of mismatches: (Short read パラメータ ) リード中に最大何個までのミスマッチを許容するか Minimum length fraction: (Long read パラメータ ) マッチする際に考慮するリードの長さの割合 Minimum similarity fraction: (Long read パラメータ ) Minimum length fraction で指定した長さのうち一致するべき割合 Maximum number of hits for a read:1 つのリードがマッチする最大の数この数以上の箇所にマップされたリードはマップされません Use color space: カラースペースを使用する場合 Strand specific alignment: センス鎖特異的にマップさせたい場合のオプション Minimum distance: ペアの最小距離 Maximum distance: ペアの最大距離 Use include broken pairs counting scheme: 指定した距離に納まらなかったリードもカウントしたい場合 51

RNA-seq Exon discovery: 新規エクソンの探索を行いたい場合 Required relative expression level: 新規エクソンとする場合にその遺伝子の発現量のうちどのぐらいの割合を持っている必要があるか Minimum number of reads: 新規エクソンとする場合に最低限必要なリード数 Minimum length: 新規エクソンとする場合の最小の長さ 52

RNA-seq Create list of un-mapped sequences: マップされなかったリードをリストとして回収するオプション Create report: レポート作成 Create fusion gene table: Fusion gene の候補をリストで作成するかどうか Minimum read count:(pair-end オプション ) 作成する場合 Fusion とするための最小リードカウント Expression value: デフォルトは RPKM このほか Total Exon なども選択可後で変更も可能 53

RNA-seq 54

RNA-seq Exon-Exon 間は点線で表示緑はセンス鎖赤はアンチセンス鎖にマップされていることを示している 55

Expression Analysis 56

発現解析 RNA-seq の結果を使から Brain と Liver において有意に発現している遺伝子は何かといったことを調べます群間の比較を行う場合 RPKM の値をそのまま使う方法と遺伝子に張り付いたリードの数をそのまま使う方法の 2 種類があります群群内のレプリケート Gaussian Test T-test 2 群必須 ANOVA 3 群以上必須 Proportinal Test Kal s test 2 群不要 Baggerley s test 2 群必須 57

Expression Analysis RNA-seq のデータは Microarray のように発現差の解析を行うことが可能ですそのためにはまず RNA-seq のデータを Experiment という形へ変更しその後発現解析ツールを使って解析を行います 58

Expression Analysis Navigation Area から使用する RNA-seq データを選択 Toolbox から Set Up Experiment を選択ダブルクリックウィザードが起動し選択したデータが選ばれていることを確認 59

Expression Analysis Two-group comparison: 2 群比較 Unpaired/Paired:2 つの群のサンプルに対応があるかどうか ( 同じ固体で違う条件など ) Multi-group comparison: 多群比較 Use existing expression values from samples: RNA-seq で指定した発現量をそのままつかう場合 Set new expression value: 別の発現量を使う場合 Experiment を作成する際はひとまず何かの検定を行うことになります 60

Expression Analysis グループにつける名前を入力 RNA-seq のデータをグループに割り当てる 61

Expression Analysis 62

Expression Analysis: Log 変換 Navigation Area から使用する Experiment データを選択 Toolbox から Transform を選択ダブルクリックウィザードが起動し選択したデータが選ばれていることを確認 63

Expression Analysis: Log 変換 Value to analyze: 解析に使用したい値 Original expression values Transformed expression values Normalized expression values Transformation method Log2, Log10, Log e 任意の数値を使った変換平方根 64

Expression Analysis: Log 変換変換された値が表に追加される 65

Expression Analysis: Box Plot Log 変換後の結果を Box plot で確認 Navigation Area から使用する Experiment データを選択 Toolbox から Transcriptomics Analysis > Quality Control > Create Box Plot を選択ダブルクリックウィザードが起動し選択したデータが選ばれていることを確認 66

Expression Analysis: Box Plot Log 変換後の結果を Box plot で確認 Value to analyze: 解析に使用したい値を選択もとの発現値変換後の発現値ノーマライズ後の発現値 67

Expression Analysis: Box Plot 68

Expression Analysis: ノーマライゼーション Navigation Area から使用する Experiment データを選択 Toolbox から Transform を選択ダブルクリックウィザードが起動し選択したデータが選ばれていることを確認 69

Expression Analysis: ノーマライゼーション Choose normalization method Scaling: ある固定の値でノーマライズこの選択肢を選ぶとノーマライズする値について次のウィンドウで選択する Quantile: グループ間で分布が同じ形から来ていると仮定しノーマライズする By total: 発現値をカウントの値としたときに使用する Value to analyze: 解析に使用したい値を選択もとの発現値変換後の発現値ノーマライズ後の発現値 70

Expression Analysis: ノーマライゼーション Scaling を選んだ場合の次の画面 Choose normalization value: ノーマライズ後にそろえる値を平均値か中央値を選択 Choose reference: ノーマライズに使用する値トリミング後の値を使用するがトリミング後の値の平均値をつかうか中央値を使うか決める Trimming: トリムする % を入力 71

Expression Analysis: ノーマライゼーション 72

Expression Analysis: t-test Navigation Area から使用する Experiment データを選択 Toolbox から On Gaussian Data を選択ダブルクリックウィザードが起動し選択したデータが選ばれていることを確認 73

Expression Analysis: t-test t 検定分散均一な場合不均一全てのペアで比較するか任意のグループに対して比較するか Value to analyze もとの発現値変換後の発現値ノーマライズ後の発現値 p 値の補正ボンフェローニ FDR 74

Expression Analysis: t-test 75

その他の機能についてその他の機能については弊社ホームページから日本語資料をダウンロードいただけます http://www.clcbio.co.jp/index.php?id=223 76

ご清聴ありがとうございました 77

APPENDIX 78

P 値の補正検定を多く繰り返す ( たくさんの遺伝子を一度に検定する ) と多くのエラーを含んだリストを返す結果となりますたとえば p < 0.05 以下の遺伝子のリストをえたい場合 3 つの遺伝子をそれぞれケースとコントロールで検定した結果のリストは 1-(1-0.05)^3 = 0.14 となり実際に得られるリストは p 値が 0.05 以下のリストではなく 0.14 以下のリストとなりますボンフェローにではこれを抑えるため設定する p 値を検定する数 ( 発現解析では遺伝子の数上記の例では 3) で割り小さな p 値の閾値でリストを取得します 79

P-value correction FDR Say p 1 < p 2 < p 3 < < p i < < p m and α is threshold. i = m If p i < α i m 1 を満たすならば k = i (1) 式が満たされない場合 i = m 1 として (1) を再度計算 p 1,, p k に対応する仮説を棄却する 80

カウントデータの検定 Kal s test 2 つのグループのカウントデータを比較しその差が統計的に有意かどうかを検定する手法 A の分散 B の分散 Kal, A. J. et al. Dynamics of Gene Expression Revealed by Comparison of Serial Analysis of Gene Expression Different Carbon Sources. 10, 1859 1872 (1999). Baggerly, K. a., Deng, L., Morris, J. S. & Aldaz, C. M. Differential expression in SAGE: accounting for normal between-library variation. Bioinformatics 19, 1477 1483 (2003). 81

カウントデータの検定 Baggerley s test Kal s test はレプリケートを必要としませんがレプリケートがあった場合でもレプリケート内のばらつきを考慮できませんこれに対応するため Baggerley のテストではレプリケート内のばらつきを考慮するために提案された手法です統計量の算出方法は Kal s テストと似ていますが分散の推定が複雑になっています 82