2016_RNAseq解析_修正版

Similar documents
PowerPoint プレゼンテーション

シーケンサー利用技術講習会 第10回 サンプルQC、RNAseqライブラリー作製/データ解析実習講習会

PowerPoint プレゼンテーション

PowerPoint プレゼンテーション

講義内容 ファイル形式 データの可視化 データのクオリティチェック マッピング アセンブル 資料の見方 $ pwd 実際に入力するコマンドを黄色い四角の中に示します 2

PowerPoint プレゼンテーション

IonTorrent RNA-Seq 解析概要 サーモフィッシャーサイエンティフィックライフテクノロジーズジャパンテクニカルサポート The world leader in serving science

141025mishima

NGSデータ解析入門Webセミナー

GWB

リード・ゲノム・アノテーションインポート

AJACS18_ ppt

CLC Genomics Workbench ウェブトレーニングセミナー: 変異解析編

GWB

ChIP-seq

PowerPoint Presentation

GWB_RNA-Seq_

RNA-seq

PowerPoint プレゼンテーション

機能ゲノム学(第6回)

GWB

Maser RNA-seq Genome Resequencing De novo Genome Sequencing Metagenome ChIP-seq CAGE BS-seq

機能ゲノム学(第6回)

PowerPoint プレゼンテーション

Maeda140303

機能ゲノム学(第6回)

RNA-seq

Qlucore_seminar_slide_180604

機能ゲノム学(第6回)

特論I

Microsoft PowerPoint _webinar_RNAExpress.erikibukawa_配布用.pptx

PrimerArray® Analysis Tool Ver.2.2

Rでゲノム・トランスクリプトーム解析

バクテリアゲノム解析

解 析 の 実 際 2 (Bismark) 1. Filtering poor quality reads, and reads with adapter sequences (TrimmomaWc) アダプターのトリミング コマンド 例 java - jar /root/bin/trimmomaw

次世代シークエンサーを用いたがんクリニカルシークエンス解析

ソフトウェアについて Rev 年 1 月 16 日 このマニュアルでは標準でインストールしているソフトウェアの入手元 インストール方法の概要 インストール場所 についてご案内致します ABySS

PowerPoint Presentation

Microsoft PowerPoint - Ion Reporter?ソフトウェアを用いた変異解析4.6.pptx

特論I

ダウンロード方法アルテラのソフトウェアをインストールするためのダウンロード ファイルには以下の種類があります.tar フォーマットのソフトウェアとデバイス ファイルの完全なセット ダウンロードとインストールをカスタマイズするための個別の実行ファイル ディスクに焼いて他の場所にインストールするための

農学生命情報科学特論I

自己紹介 : プロフィール 石井一夫 ( 東京農工大学特任教授 ) 専門分野 : ゲノム科学 バイオインフォマティクス データマイニング 計算機統計学 経歴 : 徳島大学大学院医学研究科博士課程修了後 東京大学医科学研究所ヒトゲノム解析センターリサーチアソシエート 理化学研究所ゲノム科学総合研究セン

ダウンロード方法 アルテラのソフトウェアをインストールするためのダウンロード ファイルには以下の種類があります.tar フォーマットのソフトウェアとデバイス ファイルがバンドルされたセット ダウンロードとインストールをカスタマイズするための個別の実行ファイル ディスクに焼いて他の場所にインストールす

ex1: TopHat キイロショウジョウバエ Drosophila melanogaster の RNA-seq を行った ライブラリは 2 種類 それぞれ single end( イン

Red Hat Enterprise Linux 6 Portable SUSE Linux Enterprise Server 9 Portable SUSE Linux Enterprise Server 10 Portable SUSE Linux Enterprise Server 11 P

3.1. Velvet は velveth velvetg の 2 つのプログラムから 構 成 されており 設 定 画 面 でそれぞれのパラメーターを 設 定 可 能 です 3.2. Velvetg については より 詳 細 なパラメーターを 設 定 可 能 です 3.3. Multiplex 解

PowerPoint プレゼンテーション

機能ゲノム学

GettingStartedTK2

GenomeJack Browser Appendix

section2

Sophos Enterprise Console

使いこなそう!CLC Genomics Workbench パート1 QCからトリミング

KEGG.ppt

PowerPoint Presentation

Partek 社の NGS データ解析ソリューションは次世代シーケンサーから出力されたファイルを読み込んで 参 照ゲノム配列へのアラインメント データの品質管理 統計解析 ゲノム統合解析 生物学的解釈 各種グラフ やゲノムビューアーでの表示など NGS のデータ解析をすべてサポートします ファイルの

Microsoft Word - 1 color Normalization Document _Agilent version_ .doc

PowerPoint プレゼンテーション

Partek Flow リリースノート バージョン : Partek Flow バージョン は高速化と使い勝手の改善のための新機能やパフォーマンス向上を含んでいます このバージョンへアップグレードするためには Partek Flow インストールガイド

NGSハンズオン講習会

Microsoft Word - CBSNet-It連携ガイドver8.2.doc

Microsoft PowerPoint - 6_TS-0891(TS-0835(Custom TaqMan Assay Design Tool利用方法修正5.pptx

機能ゲノム学(第6回)

プレゼンテーション2.ppt

CLC Genomics Workbench ウェブトレーニングセミナー: 変異解析編

============================================================

免疫形式文法

インテル(R) Visual Fortran コンパイラ 10.0

目次 1. 動作環境チェック 動作必要環境 Java のインストール Java のインストール Firebird のインストール Firebird のインストール Adobe Reader のインストール

3rd-jikken-ngs

NGSハンズオン講習会

Maser - User Operation Manual

1. MEGA 5 をインストールする 1.1 ダウンロード手順 MEGA のホームページ ( から MEGA 5 software をコンピュータにインストールする 2. 塩基配列を決定する 2.1 Alignment E

2. Save をクリックします 3. System Options - Network - TCP/IP - Advanced を開き Primary DNS server と Secondary DNS Server に AXIS ネットワークカメラ / ビデオエンコーダが参照できる DNS サ

Slide 1

SLAMD導入手順

Slide 1

Hphi実行環境導入マニュアル_v1.1.1

0_テキストマイニング環境構築_mac

PLQ-20 取扱説明書 詳細編

Rの基本操作

Raspberry Pi で WEB カメラを使用 会津大学 RT ミドルウェア講習会 2017 The University of Aizu

Microsoft Word - CBESNet-It連携ガイドver8.1.doc

リアルタイムPCR実験のためのガイドライン

Transcription:

平成 28 年度 NGS ハンズオン講習会 RNA-seq 解析 2016 年 7 27

本講義にあたって n 代表的な解析の流れを紹介します 論 でよく使 されているツールを使 します n コマンドを沢 実 します タイプミスが 配な は コマンド例がありますのでコピーして実 してください 実 が遅れてもあせらずに 課題や休憩の間に追い付いてください Amelieff Corporation All Rights Reserved 2

本講義の内容 前半パート ( 講義 ) 後半パート ( 実習 ) n RNA-seq とは n クオリティコントロール n RNA-seq 解析の流れ n マッピング n 公開データの取得 n 発現定量 n クオリティコントロール n 発現 較 n マッピング n 可視化 n 発現定量 n まとめ Amelieff Corporation All Rights Reserved 3

前半パート ( 講義 ) Amelieff Corporation All Rights Reserved 4

RNA-seq とは n メッセンジャー RNA(mRNA) をキャプチャして次世代シーケンサーでシーケンシングする 法 n リファレンスがある 物種の場合 : 既知遺伝 にマッピングする リファレンスにマッピングして遺伝 発現量を定量する n リファレンスがない 物種の場合 : アセンブリングして転写物構造を予測し それに対してマッピングする 近いゲノムのリファレンスにマッピングする Amelieff Corporation All Rights Reserved 5

クオリティコントロール PolyA/T tail の混 RNA-seq(mRNA) では 3' 末端に PolyA/T tail がついている転写物をシーケンシングするため リードには PolyA/T tail が存在する Amelieff Corporation All Rights Reserved 6

RNA-seq 解析の流れ 解析ソフト例 クオリティコントロール PRINSEQ, cutadapt, FASTX_Toolkit... マッピング HISAT2, TopHat2, STAR, Bowtie2... 発現定量 Cufflinks, StringTie, RSEM... 発現 較 Cuffdiff, DESeq, edger... 可視化 CummeRbund... n RNA-seq 解析の 般的な流れであり 全ての RNA-seq で同 の解析を うわけではありません n 研究の 的やデータに合わせて 最適な解析を います Amelieff Corporation All Rights Reserved 7

公開データの取得 今回の解析に必要なデータ n リファレンスゲノム ( 実 済み ) http://support.illumina.com/sequencing/sequencing_software/ igenome.html n 解析対象のシーケンスデータ ( 実 済み ) Amelieff Corporation All Rights Reserved 8

公開データの取得 酵 のリファレンスゲノムデータの取得 法 $ wget ftp://igenome:g3nom3s4u@ussdftp.illumina.com/saccharomyces_cerevisiae/ncbi/build3.1/saccha romyces_cerevisiae_ncbi_build3.1.tar.gz $ tar zxvf Saccharomyces_cerevisiae_NCBI_build3.1.tar.gz Saccharomyces cerevisiae のリファレンスゲノムをイルミナの Web ページからダウンロードし解凍する ( 実 済み ) $ ls -l /home/iu/genome/saccer3/ : -rwxr-xr-x. 1 iu iu 12400379 5 23 11:09 genome.fa : -rwxr-xr-x. 1 iu iu 462 5 23 11:09 genome.fa.fai : /home/iu/genome/saccer3/ に 解凍したファイル ( 今回使 するデータのみ ) を置いてあるので確認する Amelieff Corporation All Rights Reserved 9

公開データの取得 fasta ファイルの中 の確認 $ less /home/iu/genome/saccer3/genome.fa >chri CCACACCACACCCACACACCCACACACCACACCACACACCACACCACACC CACACACACACATCCTAACACTACCCTAACACAGCCCTAATCTAACCCTG GCCAACCTGTCTCTCAACTTACCCTCCATTACCCTGCCTCCACTCGTTAC CCTGTCCCATTCAACCATACCACTCCGAACCACCATCCATCCCTCTACTT ACTACCACTCACCCACCGTTACCCTCCAATTACCCATATCCAACCCACTG : 1 : コンティグ名 2 以降 : 実際の配列情報 q で閲覧を終了する Amelieff Corporation All Rights Reserved 10

公開データの取得 解析対象のシーケンスデータの取得 法 1 http://trace.ddbj.nig.ac.jp/dra/index.html へアクセスする click!! Amelieff Corporation All Rights Reserved 11

公開データの取得 解析対象のシーケンスデータの取得 法 2 SRP058976 を検索する type!! click!! Amelieff Corporation All Rights Reserved 12

公開データの取得 解析対象のシーケンスデータの取得 法 3 研究概要を確認する click!! Amelieff Corporation All Rights Reserved 13

公開データの取得 解析対象のシーケンスデータの取得 法 4 実験詳細を確認する ここからダウンロード可能 Amelieff Corporation All Rights Reserved 14

公開データの取得 解析対象のシーケンスデータの取得 法 5 データをダウンロードする ( 実 済み ) $ mkdir p rnaseq/data 解析を う rnaseq ディレクトリと data ディレクトリを作成する $ cd rnaseq/data/ $ wget ftp://ftp.ddbj.nig.ac.jp/ddbj_database/dra/sralite/byexp/lites ra/srx/srx104/srx1046452/srr2048224/srr2048224.sra SRR2048225 SRR2048228 SRR2048229 についても同様にダウンロード SRR2048224 : RPL_yeast_imidazole_ligase SRR2048225 : RPL_yeast_imidazole_ligase_rep2 SRR2048228 : RPL_yeast_imidazole_noligase SRR2048229 : RPL_yeast_imidazole_noligase_rep2 Amelieff Corporation All Rights Reserved 15

公開データの取得 解析対象のシーケンスデータの取得 法 6 SRA データを FASTQ ファイルへ変換する ( 実 済み ) $ fastq-dump --split-files SRR2048229.sra fastq-dump コマンドは NCBI SRA toolkit をインストールすると利 できる $ head -40000 SRR2048224_1.fastq > 10K_SRR2048224_1.fastq $ head -40000 SRR2048224_2.fastq > 10K_SRR2048224_2.fastq 先頭 1 万リードを抽出する ( 実 済み ) SRR2048225 SRR2048228 SRR2048229 についても同様に処理する $ ls data 10K_SRR52048224_1.fastq 10K_SRR52048228_1.fastq 10K_SRR52048224_2.fastq 10K_SRR52048228_2.fastq 10K_SRR52048225_1.fastq 10K_SRR52048229_1.fastq 10K_SRR52048225_2.fastq 10K_SRR52048229_2.fastq Amelieff Corporation All Rights Reserved 16

公開データの取得 解析対象のシーケンスデータの取得 法 7 シーケンスデータを確認する $ less data/10k_srr2048224_1.fastq @SRR2048224.1 NS500272:29:H2KGHBGXX:1:11101:4753:1025 length=80 NTGGTNCCGAAGCTCCCACTTATTCTACACCCTCTATGTCTCTTCACAATGTCAAACTAGAGTC AAGCTCAACAGGGTCT +SRR2048224.1 NS500272:29:H2KGHBGXX:1:11101:4753:1025 length=80 #AAAA#FFFFFFFFFFFFFFFFFFFFFF<FFFFFFFFFFFFFFFFFFFFFFFFFFFFAFFFFFF FAFFFFF.FFFFFFFF : fastq ファイルの中 を表 する 1 : @ 配列 IDと付加情報 2 : 塩基配列 3 : + 配列 IDと付加情報 4 : クオリティ fastq ファイルは 1 リードあたり 4 で表記される Amelieff Corporation All Rights Reserved 17

公開データの取得 解析対象のシーケンスデータの取得 法 8 リード数を確認する $ wc -l data/10k_srr2048224_1.fastq 40000 data/10k_srr2048224_1.fastq 40,000 が抽出されていることを確認する $ wc -l data/10k_srr2048224_2.fastq 40000 data/srr2048224_2.fastq 1リードは4 なので リード数は 40,000 / 4 = 1 万リードである $ wc l data/* ワイルドカード (*) でまとめて確認できる Amelieff Corporation All Rights Reserved 18

クオリティコントロール FastQC: シーケンスクオリティチェックソフトウェア $ fastqc -v FastQC v0.10.1 バージョンを確認する ( 最新版は v0.11.5) $ fastqc -h SYNOPSIS FastQC - A high throughput sequence QC analysis tool fastqc seqfile1 seqfile2.. seqfilen fastqc [-o output dir] [--(no)extract] [-f fastq bam sam] [-c contaminant file] seqfile1.. seqfilen :.fastq 以外に.sam や.bam も指定可能 複数ファイルの指定も可能である Amelieff Corporation All Rights Reserved 19

クオリティコントロール FastQC の実 $ mkdir fastqc_res $ fastqc -o fastqc_res -f fastq --nogroup data/10k_srr2048224_1.fastq data/10k_srr2048224_2.fastq $ ls fastqc_res 10K_SRR2048224_1_fastqc 10K_SRR2048224_1_fastqc.zip 10K_SRR2048224_2_fastqc 10K_SRR2048224_2_fastqc.zip 解析結果の html ファイルをブラウザ (firefox) で確認する $ firefox fastqc_res/10k_srr2048224_1_fastqc/fastqc_report.html fastqc_res/10k_srr2048224_2_fastqc/fastqc_report.html WEB ブラウザ上で クオリティチェックの解析結果が確認できる SRR2048225 SRR2048228 SRR2048229 についても同様に処理する Amelieff Corporation All Rights Reserved 20

クオリティコントロール FastQC の結果確認 1 Basic Statistics ファイルの基本的な情報 ファイルタイプや リード数 リード などの情報が表 される ここでは warning, failure は出ない Amelieff Corporation All Rights Reserved 21

クオリティコントロール FastQC の結果確認 2 Per Base Sequence Quality 横軸はリード 縦軸は quality value を表す リードの位置における全体のクオリティの中央値や平均を確認できる 線は中央値 線は平均値 のボックスは 25% 75% の領域を表す 上下に伸びた いバーが 10% 90% の領域を意味する Amelieff Corporation All Rights Reserved 22

クオリティコントロール FastQC の結果確認 3 Per Sequence Quality Scores 縦軸がリード数 横軸が Phred quality score の平均値 Amelieff Corporation All Rights Reserved 23

クオリティコントロール FastQC の結果確認 4 Per Base Sequence Content リードにおける位置での各塩基の割合を す いずれかの位置で A と T の割合の差 もしくは G と C の割合の差が 10% 以上だと warning,20% 以上で failure となる Amelieff Corporation All Rights Reserved 24

クオリティコントロール FastQC の結果確認 5 Per Base GC Content リードにおける位置での GC 含量を表す いずれかの位置で 全体での GC 含量の平均値より 5% 以上の差が開くと warning, 10% で failure となる Amelieff Corporation All Rights Reserved 25

クオリティコントロール FastQC の結果確認 6 Per Base N Content N はシーケンサーの問題で ATGC いずれの塩基にも決定出来なかった場合に記述される リードのいずれかの位置で 5% 以上 N が存在すると warning, 20% 以上で failure となる Amelieff Corporation All Rights Reserved 26

クオリティコントロール FastQC の結果確認 7 Sequence Length Distribution リード の全体の分布 全てのリードの さが同じであることを前提としており 定でなければ warning ゼロのものが含まれていると failure になる Amelieff Corporation All Rights Reserved 27

クオリティコントロール FastQC の結果確認 8 Sequence Duplication Levels リードの重複レベルを ている 1 10 はそれぞれ重複のレベルで 全体の 20% 以上がユニークでないものだと warning, 50% 以上がユニークでないと failure となる Amelieff Corporation All Rights Reserved 28

クオリティコントロール FastQC の結果確認 9 Overrepresented Sequences 重複している配列とその割合を表す 特定の配列が全リードの 0.1% を超えると warning 1% を超えると failure となる Amelieff Corporation All Rights Reserved 29

クオリティコントロール PRINSEQ: クオリティコントロールソフトウェア http://prinseq.sourceforge.net 機能 n PolyA/T tailの除去 n クオリティが低いリード末端のトリミング n 配列 が短いリードの除去 n 側のみのリードの除去 Amelieff Corporation All Rights Reserved 30

クオリティコントロール PRINSEQのインストール ( 実 済み ) $ wget https://sourceforge.net/projects/prinseq/files/standalone/prin seq-lite-0.20.4.tar.gz # ソースコードをダウンロード $ tar zxvf prinseq-lite-0.20.4.tar.gz # 展開 $ cd prinseq-lite-0.20.4 # プログラムの っているディレクトリに移動 $ chmod +x prinseq-lite.pl # 実 権限を付与 $ ln s /path/to/prinseq-lite-0.20.4/prinseq-lite.pl /usr/local/bin #PATHを通す PRINSEQの使い の確認 $ prinseq-lite.pl -h Amelieff Corporation All Rights Reserved 31

マッピング HISAT2: マッピングソフトウェア http://ccb.jhu.edu/software/hisat2/index.shtml 特徴 n n n スプライシングを考慮してゲノム配列にマッピングする TopHat2 よりも精度 速度ともに向上している メモリ消費量が少ない Kim et al., Nature Methods, 2015 Amelieff Corporation All Rights Reserved 32

マッピング HISAT2 のインストール ( 実 済み ) $ wget ftp://ftp.ccb.jhu.edu/pub/infphilo/hisat2/downloads/hisat2-2.0.4-linux_x86_64.zip # ソースコードをダウンロード $ unzip hisat2-2.0.4-linux_x86_64.zip # 展開 $ ln s /path/to/hisat2-2.0.4/hisat2 /usr/local/bin #PATHを通す Amelieff Corporation All Rights Reserved 33

マッピング HISAT2 の Index ファイルのダウンロード ( 実 済み ) $ wget ftp://ftp.ccb.jhu.edu/pub/infphilo/hisat2/data/sc3.tar.gz $ tar zxvf sc3.tar.gz $ ls /home/iu/genome/saccer3/hisat2index/ genome.1.ht2 genome.3.ht2 genome.5.ht2 genome.7.ht2 genome.2.ht2 genome.4.ht2 genome.6.ht2 genome.8.ht2 HISAT2 の使い の確認 $ hisat2 -h HISAT2 version 2.0.4 by Daehwan Kim (infphilo@gmail.com, www.ccb.jhu.edu/people/infphilo) Usage:hisat2 [options]* -x <ht2-idx> {-1 <m1> -2 <m2> -U <r> --sra-acc <SRA accession number>} [-S <sam>] : Amelieff Corporation All Rights Reserved 34

発現定量 遺伝 の発現量 遺伝 上にマップされたリード数 n い遺伝 ほどマップされるリードは多くなる ( 遺伝 間のバイアス ) n サンプル量の多いランほどマップされるリードは多くなる ( ラン間のバイアス ) これらのバイアスを補正してから発現量を 較する必要がある n 発現量としてよく使われる指標 RPKM (Reads Per Kilobase per Million mapped reads) FPKM (Fragments Per Kilobase of exon per Million mapped fragments) どちらも 発現量をエクソン と全マッピング数で補正した値 Amelieff Corporation All Rights Reserved 35

発現定量 Cufflinks: 遺伝 発現解析ソフトウェア cufflinks の使い の確認 $ cufflinks http://cole-trapnell-lab.github.io/cufflinks cufflinks v2.2.1 linked against Boost version 105400 ----------------------------- Usage: cufflinks [options] <hits.sam> General Options: -o/--output-dir write all output files to this directory -p/--num-threads number of threads used during analysis --seed value of random number generator seed -G/--GTF quantitate against reference transcript annotations -g/--gtf-guide -M/--mask-file use reference transcript annotation to guide assembly ignore all alignment within transcripts in this file : -g: アセンブルのガイドとして既知の遺伝 情報を使 することができる Amelieff Corporation All Rights Reserved 36

その他の RNA-seq 解析 n リファレンスがある 物種の場合 : SNP InDel 検出 (GATK, freebays) 融合遺伝 検出 (Chimerascan, TopHat-Fusion) circular RNA 検出 (DCC, CIRI) シングルセルRNA 解析 (Cell Ranger (10x Genomics)) n リファレンスがない 物種の場合 : De novo アセンブリ (Trinity) Amelieff Corporation All Rights Reserved 37

後半パート ( 実習 ) Amelieff Corporation All Rights Reserved 38

RNA-seq 解析の実 本講義でご紹介するパイプライン クオリティコントロール PRINSEQ マッピング HISAT2 発現定量 Cufflinks 発現 較 Cuffdiff 可視化 CummeRbund Amelieff Corporation All Rights Reserved 39

RNA-seq 解析の実 本講義でご紹介するパイプライン クオリティコントロール PRINSEQ マッピング HISAT2 発現定量 Cufflinks 発現 較 Cuffdiff 可視化 CummeRbund Amelieff Corporation All Rights Reserved 40

クオリティコントロール PRINSEQ によるクオリティコントロール $ mkdir 1_qc $ prinseq-lite.pl -fastq data/10k_srr2048224_1.fastq -fastq2 data/10k_srr2048224_2.fastq -out_good 1_qc/10K_SRR2048224.notail -out_bad null -out_format 3 -trim_left 5 -trim_tail_right 5 -trim_qual_right 30 -ns_max_p 20 -min_len 30 -fastq の FASTQ ファイル -fastq2 の FASTQ ファイル ( ペアエンドの場合 ) -out_good フィルターを通過したリードの名前 -out_bad フィルタリングされたリードの名前 (null は出 しない ) -out_format 1 (FASTA only), 2 (FASTA and QUAL), 3 (FASTQ), 4 (FASTQ and FASTA), or 5 (FASTQ, FASTA and QUAL) Amelieff Corporation All Rights Reserved 41

クオリティコントロール PRINSEQ によるクオリティコントロール $ mkdir 1_qc $ prinseq-lite.pl -fastq data/10k_srr2048224_1.fastq -fastq2 data/10k_srr2048224_2.fastq -out_good 1_qc/10K_SRR2048224.notail -out_bad null -out_format 3 -trim_left 5 -trim_tail_right 5 -trim_qual_right 30 -ns_max_p 20 -min_len 30 SRR2048225 SRR2048228 SRR2048229 についても同様に処理する -trim_tail_right -trim_qual_right -ns_max_p 3ʼ 末端のポリテールが 5 以上の末端を除去 3ʼ 末端からクオリティ 30 以下の塩基を除去 未知の塩基 (N) が多いリード除去 (20% 以上 ) -min_len 配列 が短いリード除去 (30bp 以下 ) PRINSEQ は極めて多機能なソフトウェアであり クオリティチェックからトリミング フィルタリングまで様々なプロセスが可能 Amelieff Corporation All Rights Reserved 42

クオリティコントロール FastQC の実 $ fastqc -o fastqc_res -f fastq --nogroup 1_qc/10K_SRR2048224.notail_1.fastq 1_qc/10K_SRR2048224.notail_2.fastq 解析結果の html ファイルをブラウザ (firefox) で確認する $ firefox fastqc_res/10k_srr2048224.notail_1_fastqc.html クリーニング前 クリーニング後 Amelieff Corporation All Rights Reserved 43

クオリティコントロール リードクオリティの確認 クリーニング前 クリーニング後 Amelieff Corporation All Rights Reserved 44

クオリティコントロール 各塩基の含有率の確認 クリーニング前 クリーニング後 Amelieff Corporation All Rights Reserved 45

RNA-seq 解析の実 本講義でご紹介するパイプライン クオリティコントロール PRINSEQ マッピング HISAT2 発現定量 Cufflinks 発現 較 Cuffdiff 可視化 CummeRbund Amelieff Corporation All Rights Reserved 46

マッピング HISAT のアルゴリズム 特徴 n n スプライシングを考慮してゲノム配列にマッピングする hierarchical indexingを いることで 速で 感度のアライメントが可能 Kim et al., Nature Methods, 2015 Amelieff Corporation All Rights Reserved 47

マッピング $ mkdir 2_mapping $ hisat2 -x /home/iu/genome/saccer3/hisat2index/genome --dta --dta-cufflinks -1 1_qc/10K_SRR2048224.notail_1.fastq -2 1_qc/10K_SRR2048224.notail_2.fastq -S 2_mapping/10K_SRR2048224.sam --dta --dta-cufflinks マッピング結果からアセンブリを う cufflinks のためのアセンブリを う -S SAM ファイルに書き出す名前 SRR2048225 SRR2048228 SRR2048229 についても同様に処理する Amelieff Corporation All Rights Reserved 48

マッピング $ mkdir 2_mapping $ hisat2 -x /home/iu/genome/saccer3/hisat2index/genome --dta --dta-cufflinks -1 1_qc/10K_SRR2048224.notail_1.fastq -2 1_qc/10K_SRR2048224.notail_2.fastq -S 2_mapping/10K_SRR2048224.sam 9992 reads; of these: 9992 (100.00%) were paired; of these: 2174 (21.76%) aligned concordantly 0 times 193 (1.93%) aligned concordantly exactly 1 time 7625 (76.31%) aligned concordantly >1 times ---- 2174 pairs aligned concordantly 0 times; of these: 3 (0.14%) aligned discordantly 1 time ---- 2171 pairs aligned 0 times concordantly or discordantly; of these: 4342 mates make up the pairs; of these: 2925 (67.37%) aligned 0 times 99 (2.28%) aligned exactly 1 time 1318 (30.35%) aligned >1 times 85.36% overall alignment rate Amelieff Corporation All Rights Reserved 49

マッピング SAM ファイルを BAM ファイルに変換 $ samtools view -b 2_mapping/10K_SRR2048224.sam > 2_mapping/10K_SRR2048224.bam $ ls -lh -rw-rw-r-- 1 iu iu 1.7M 5 31 13:52 2016 10K_SRR2048224.bam -rw-rw-r-- 1 iu iu 13M 5 31 14:54 2016 10K_SRR2048224.sam 13M の SAM ファイルが 1.7M のバイナリファイルに変換される BAM ファイルをソート $ samtools sort 2_mapping/10K_SRR2048224.bam -o 2_mapping/10K_SRR2048224.sorted.bam $ ls 10K_SRR2048224.bam 10K_SRR2048224.sam 10K_SRR2048224.sorted.bam SRR2048225 SRR2048228 SRR2048229 についても同様に処理する Amelieff Corporation All Rights Reserved 50

マッピング結果の可視化 BAM ファイルのインデックスを作成 $ samtools index 2_mapping/10K_SRR2048224.sorted.bam $ ls 2_mapping 10K_SRR2048224.bam 10K_SRR2048224.sam 10K_SRR2048224.sorted.bam 10K_SRR2048224.sorted.bam.bai : SRR2048225 SRR2048228 SRR2048229 についても同様に処理する Amelieff Corporation All Rights Reserved 51

マッピング結果の可視化 Integrative Genomics Viewer (IGV) を いた解析結果の確認 1 $ igv.sh IGV を起動し Genomes タブから Load Genomes from File... を選択 /home/iu/geno me/saccer3 の下にある genome.fa を選択し開く Amelieff Corporation All Rights Reserved 52

マッピング結果の可視化 Integrative Genomics Viewer (IGV) を いた解析結果の確認 2 click!! File タブから Load from File... を選択 ソート済みの bam ファイルを選択し開く Amelieff Corporation All Rights Reserved 53

マッピング結果の可視化 Integrative Genomics Viewer (IGV) を いた解析結果の確認 3 サーチウィンドウに chrx:139,767-139,933 と Amelieff Corporation All Rights Reserved 54

RNA-seq 解析の実 本講義でご紹介するパイプライン クオリティコントロール PRINSEQ マッピング HISAT2 発現定量 Cufflinks 発現 較 Cuffdiff 可視化 CummeRbund Amelieff Corporation All Rights Reserved 55

発現定量 cufflinks の実 $ cufflinks -o SRR2048224 --min-frags-per-transfrag 2 2_mapping/10K_SRR2048224.sorted.bam $ ls SRR2048224 genes.fpkm_tracking skipped.gtf isoforms.fpkm_tracking transcripts.gtf genes.fpkm_tracking の確認 $ less genes.fpkm_tracking 4 列 に Gene ID 10 列 に FPKM が記載されている SRR2048225 SRR2048228 SRR2048229 についても同様に処理する Amelieff Corporation All Rights Reserved 56

発現定量 transcripts.gtf.txt の作成 $ vim transcripts.gtf.txt 挿 モード (i) で以下を記 SRR2048224/transcripts.gtf SRR2048225/transcripts.gtf SRR2048228/transcripts.gtf SRR2048229/transcripts.gtf 挿 モードの終了 : エスケープ (ESC) コマンドモード : コロン (:) 保存 : コマンドモードで w + Enter 終了 : コマンドモードで q + Enter 保存せずに終了 : コマンドモードで q! + Enter Amelieff Corporation All Rights Reserved 57

RNA-seq 解析の実 本講義でご紹介するパイプライン クオリティコントロール PRINSEQ マッピング HISAT2 発現定量 Cufflinks 発現 較 Cuffdiff 可視化 CummeRbund Amelieff Corporation All Rights Reserved 58

発現 較 cuffmerge の実 $ cuffmerge -o COMPARE -g /home/iu/genome/saccer3/genes.gtf -s /home/iu/genome/saccer3/genome.fa transcripts.gtf.txt -o/--output-dir 出 ディレクトリ -g/--ref-gtf アノテーション のgtfファイル -s/--ref-sequence リファレンスゲノムFASTA ファイル -p/--num-threads スレッド数 ( デフォルト=1) Amelieff Corporation All Rights Reserved 59

発現 較 cuffdiff の実 $ cuffdiff -o COMPARE -L Group1,Group2 COMPARE/merged.gtf 2_mapping/10K_SRR2048224.sorted.bam, 2_mapping/10K_SRR2048225.sorted.bam 2_mapping/10K_SRR2048228.sorted.bam, 2_mapping/10K_SRR2048229.sorted.bam -o/--output-dir アノテーション のgtfファイル -L/--labels グループの指定 ( カンマ区切り ) -p/--num-threads スレッド数 ( デフォルト=1) Amelieff Corporation All Rights Reserved 60

RNA-seq 解析の実 本講義でご紹介するパイプライン クオリティコントロール PRINSEQ マッピング HISAT2 発現定量 Cufflinks 発現 較 Cuffdiff 可視化 CummeRbund Amelieff Corporation All Rights Reserved 61

可視化 cummerbund の紹介 http://compbio.mit.edu/cummerbund/index.html Cufflinks の結果を いて可視化を う R パッケージ $ R #Cufflinks の実 ディレクトリ (COMPARE) で起動する > library(cummerbund) > cuff <- readcufflinks() > cuff CuffSet instance with: 2 samples # サンプル数 6935 genes # 遺伝 数 7077 isoforms # 転写産物数 7052 TSS # 転写開始位置数 6643 CDS # コード領域数 6935 promoters # プロモーター数 7052 splicing # スプライシング領域数 6534 relcds # 調節コード領域 Amelieff Corporation All Rights Reserved 62

可視化 cummerbund の紹介 > s <- csscatter(genes(cuff), "Group1 ", "Group2 ", smooth=t) > s Scatter Plot グループ間における遺伝 発現の偏りを す Amelieff Corporation All Rights Reserved 63

可視化 cummerbund の紹介 > dens <- csdensity(genes(cuff)) > dens > densrep <- csdensity(genes(cuff),replicates=t) > densrep グループごとの log 10 (fpkm) の分布 サンプルごとの log 10 (fpkm) の分布 Amelieff Corporation All Rights Reserved 64

まとめ 本 った解析のおさらい 公開データの FastQCによるクオリティチェック PRINSEQによるクオリティコントロール HISAT2によるマッピング IGVによるマッピング結果の可視化 Cufflinksによる発現定量 Cuffdiffによる発現 較 CummeRbundによる発現 較の可視化 Amelieff Corporation All Rights Reserved 65

最後に 本講義でご紹介した流れは 解析 法の 例です ツールの選択に 正解 はありません のデータに適したツールを選択し より良い解析 順を確 していってください Conesa et al., Genome Biology, 2016 Amelieff Corporation All Rights Reserved 66