CLC Genomics Workbench ウェブトレーニングセミナー : RNA-Seq 編 フィルジェン株式会社バイオサイエンス部 (biosupport@filgen.jp) 1
Advanced RNA-Seq プラグイン CLC Genomics Workbench 9.0 / Biomedical Genomics Workbench 3.0 以降で使用可能な無償プラグイン RNA-Seq データを使用した 発現データ解析用の各種ツールが使用可能になる おもにサンプル間の比較解析や データのビジュアライゼーションに使用 2
Advanced RNA-Seq 搭載ツール PCA for RNA-Seq: 主成分分析 (Principal Component Analysis) Differential Expression for RNA-Seq: 発現変動遺伝子の解析 Create Heat Map for RNA-Seq: 二次元階層クラスタリング解析とヒートマップ作成 Create Expression Browser: 各種発現データの統合リストの作成 Create Venn Diagram for RNA-Seq: 発現変動遺伝子リストのベン図作成 サンプル間比較解析を行うツールでは 自動的に各サンプルの RNA-Seq データの Total count データに基づいて TMM 法で補正されたデータが解析に使用される 3
PCA for RNA-Seq 発現量データを用いて 主成分分析 (Principal Component Analysis: PCA) を行うためのツール プロットデータの 2D と 3D 表示に対応 あらかじめ関連付けておいた サンプルメタデータのグループ分類情報に基づき プロットを色分けしての表示が可能 解析に使用する発現量データは 自動的に TMM 法により サンプル間の正規化がされる 4
Differential Expression for RNA-Seq 発現量データを用いて サンプル間の発現変動解析を行うためのツール サンプル間の発現変動を示す Fold Change と P 値が計算され ボルケーノプロットによる表示が可能 Track 表示の際 変動の大きさに基づき 各遺伝子を色分けして表示が可能 解析に使用する発現量データは 自動的に TMM 法により サンプル間の正規化がされる 5
Create Heat Map for RNA-Seq 発現量データを用いて 二次元階層型クラスタリングを行い ヒートマップ表示を行うツール 発現変動を示す遺伝子や 任意の遺伝子リストに含まれる遺伝子のみを使用して 解析を実行することが可能 あらかじめ関連付けておいた サンプルメタデータのグループ分類情報に基づき サンプルを色分けしたラベル表示が可能 解析に使用する発現量データは 自動的に TMM 法により サンプル間の正規化がされる 6
Create Expression Browser Differential Expression for RNA-Seq ツールで作成した発現変動解析データと RNA-Seq の発現データを統合したリストを作成するツール Gene Ontology などの遺伝子機能アノテーションデータも同時に表示させ 外部データベースへのリンクも使用可能になる 7
Create Venn Diagram for RNA-Seq Differential Expression for RNA-Seq ツールで作成した発現変動解析データを複数セット用いて データ間の遺伝子の重複などを表すベン図の作成を行うツール ベン図上で Fold Change や P 値の閾値を変更し 変更結果をリアルタイムにベン図に反映が可能 ベン図上の任意のエリアを選択することで 該当する遺伝子データを容易に取得が可能 8
各ツールの使用の流れ Import Metadata メタデータのインポート RNA-Seq Analysis RNA-Seq 発現量データの取得 Create Heat Map for RNA-Seq クラスタリングとヒートマップ作成 Differential Expression for RNA-Seq 発現変動解析 PCA for RNA-Seq 主成分分析 Create Expression Browser 発現データリスト作成 Create Venn Diagram for RNA-Seq ベン図作成 9
Import Metadata 10
Import Metadata まず始めに Microsoft Excel などを使用し 以下の例のように 1 行 1 サンプルごとにサンプル情報をまとめたファイル (.txt,.xlsx 形式など ) を作成する 1 列目には 関連付ける各データの Navigation Area 上でのデータ名の一部またはすべてと同じにする 2 列目以降の列数とヘッダー名は任意に指定できる 各サンプルのリード配列データ 11
Import Metadata Import メニューから Import Metadata を選択しクリックすると ウイザードが起動する 12
Import Metadata Data association: Exact: 1 列目のデータ名と 関連付けるデータ名が完全一致する場合に選択 Partial: 1 列目のデータ名と 関連付けるデータ名が部分一致する場合に選択 * 関連付けが実行可能だと 緑色のチェックが付く 13
Import Metadata データの保存先を指定する メタデータのテーブルがインポートされる 14
RNA-Seq Analysis 15
RNA-Seq Analysis 1. RNA-Seq Analysis を選択し ダブルクリック 2. リード配列データを選択 16
RNA-Seq Analysis References Genome annotated with genes and transcripts: Gene および mrna のアノテーショントラックの両方が存在する場合 ( 真核生物ゲノム ) Genome annotated with genes only: Gene のアノテーショントラックのみ存在する場合 ( 原核生物ゲノム ) One reference sequence per transcript: アノテーションが無い場合 ( リファレンスデータが配列のリストである場合に使用 ) 各配列は転写産物として扱われ それらの発現量が計算される RNA-Seq データの De novo assembly 産物がリファレンスの場合に頻用される Mapping: Map to gene region only (fast): Gene track で指定された領域のみにマッピングする Also map to inter-genic regions: 遺伝子間領域にもマッピングする ( 遺伝子発現量データには反映されない ) 17
RNA-Seq Analysis Read alignment: Mismatch cost: リードにおいてリファレンスとマッチしない塩基があった場合のコスト Insertion cost: リードに挿入があった場合のコスト Deletion cost: リードに欠失があった場合のコスト Length fraction: リードの長さのどの程度がマップされているべきか Similarity fraction: リードとリファレンス間での配列がどの程度類似しているか Global alignment: Global alignment を実行するか Color space alignment: SOLiD のカラースペースデータにおけるエラーコスト Auto-detect paired distances: ペアリードデータにおいて リード配列の距離を自動で計算する Strand specific: リファレンス配列の forward または reverse 鎖に対してのみアライメントを実行するかどうか Maximum number of hits for a read: 1 つのリードがリファレンス配列に対してアライメント可能な個所の最大数 18
RNA-Seq Analysis Expression level: Count paired reads as two: ペアリードを 2 本としてカウントする Expression value: Total counts: 各遺伝子またはリファレンス配列にマップされた全リード数 (non-specific reads も含まれる ) Unique counts: 各遺伝子またはリファレンス配列にのみマップされたリード数 TPM: 各遺伝子または転写物の発現量を Transcripts Per Million; TPM で算出 RPKM: 各遺伝子または転写物の発現量を Reads Per Kilo base of exon model per Million mapped reads; RPKM で算出 Calculate RPKM for genes without transcripts: mrna アノテーションが存在しない場合 遺伝子領域をエキソン領域として RPKM を算出する Use EM estimation (recommended): EM アルゴリズムを用いて リード配列が複数遺伝子や転写物にマッピングされた場合の 発現データ算出の感度を上げる 19
RNA-Seq Analysis Gene-Level Expression data Transcript-Level Expression data Mapping data 3 種類の解析結果データが作成される 20
RNA-Seq Analysis Metadata テーブルで Find Associated Data をクリックすると 画面下側に関連付けられた各サンプルのデータの一覧が表示され 新たに作成した解析結果データも表示される Role カラムなどで 目的のデータを容易に抽出することができ 抽出したデータを選択した状態で Toolbox のツールを起動すると それらデータが既に選択された状態になる 21
PCA for RNA-Seq 22
PCA for RNA-Seq 1. PCA for RNA-Seq を選択し ダブルクリック 2. RNA-Seq Expression track データを選択 23
PCA for RNA-Seq 2D PCA プロットが表示される Plot Settings の Metadata 項目から 各サンプルのメタデータ情報に基づき プロットの表示色などを変更することが可能 24
PCA for RNA-Seq 3D 表示に切り替えることも可能 25
Differential Expression for RNA-Seq 26
Differential Expression for RNA-Seq 1. Differential Expression for RNA-Seq を選択し ダブルクリック 2. RNA-Seq Expression track データを選択 27
Differential Expression for RNA-Seq Experimental design: Metadata table: サンプル情報のメタデータを指定する Test differential expression due to: 発現差解析に使用するサンプルのグループ情報を指定する While controlling for: 発現に影響を与えていると考えられる 他の情報を指定する Comparisons: Across groups (ANOVA-like): 3 グループ以上のサンプルの場合の比較を行う All group pairs: 全グループ間で 2 グループごとの比較を行う Against control group: コントロールとなるグループを決めて 比較を行う 28
Differential Expression for RNA-Seq テーブル表示に切り替えると グループ間の比較データが表示され さらにウインドウ上部にある Filter 項目で任意の条件を指定し 条件を満たすデータを検索することができる 29
Differential Expression for RNA-Seq Volcano plot の表示も可能 30
Differential Expression for RNA-Seq トラック表示に切り替えると 各遺伝子のゲノム上の配置を確認でき Fold Change や P-value などのデータに基づいて 各遺伝子を着色表示できる Create Track List ツールで 複数の比較データトラックを並べて表示し それぞれのデータの違いを目視で確認できる 31
Create Heat Map for RNA-Seq 32
Create Heat Map for RNA-Seq 1. Create Heat Map for RNA-Seq を選択し ダブルクリック 2. RNA-Seq Expression track データを選択 33
Create Heat Map for RNA-Seq Distance: データ間の距離の計算方法のアルゴリズムを指定する Clusters: クラスター間の距離の計算方法のアルゴリズムを指定する 34
Create Heat Map for RNA-Seq Filter settings: 計算に使用するデータの選択方法を指定する No filtering: 全データを使用する Fixed number of feature: サンプル間の発現変動が大きく 少なくとも 1 サンプルにおいて指定された最低リード数をもつ 任意の数のデータを使用する Filter by statistics: Differential Expression for RNA-Seq で作成した発現比較データを指定し その中から任意の検索条件で抽出されたデータを使用する Specify features: 任意のトラックまたはデータ名を指定し その中に含まれるデータのみを使用する 35
Create Heat Map for RNA-Seq 2 次元階層型クラスタリングの樹形図とヒートマップ図が表示される Heat Map Settings の Metadata 項目から 各サンプルのメタデータ情報に基づき メタデータのラベルを表示することが可能 36
Create Expression Browser 37
Create Expression Browser クリックしてダウンロード the Gene Ontology (http://geneontology.org/page/download-annotations) のサイトから 解析に使用する生物種の遺伝子発現解析用アノテーションファイルをダウンロードしておく 代わりに Blast2GO PRO プラグインを使用し リファレンス遺伝子の BLAST 結果より 遺伝子発現解析用アノテーションデータを作成することも可能 38
Create Expression Browser ダウンロードしたファイルを Import アイコン -> Standard Import からインポートすると Navigation Area にデータが保存される インポートの際は Option の Force import as type: の設定で Gene Ontology Annotation file を指定する 39
Create Expression Browser 1. Create Expression Browser を選択し ダブルクリック 2. RNA-Seq Expression track データを選択 40
Create Expression Browser Additional data (optional): Statistical comparisons:differential Expression for RNA-Seq で作成した 比較データを指定する Annotation resource: 遺伝子発現解析用アノテーションデータを指定する 41
Create Expression Browser グループ間比較データや遺伝子機能アノテーションデータ サンプルごとの発現量データをまとめたリストが作成される 42
Create Venn Diagram for RNA-Seq 43
Create Venn Diagram for RNA-Seq 1. Create Venn Diagram for RNA-Seq を選択し ダブルクリック 2. Statistical Comparison track データを選択 44
Create Venn Diagram for RNA-Seq 指定の条件で抽出された 各比較データの遺伝子の重複を表すベン図が表示される Venn Diagram Settings の Data 項目から 比較データの遺伝子抽出条件を指定できる 45
お問い合わせ先 : フィルジェン株式会社 TEL 052-624-4388 (9:00~17:00) FAX 052-624-4389 E-mail: biosupport@filgen.jp 46