日 本 育 種 学 会 インフォマティクス 研 究 集 会 NGS 使 い 倒 し 講 座 Breeding Informatics 研 究 XII NGSデータ 解 析 入 門 講 座 岡 山 大 学 大 学 院 環 境 生 命 科 学 門 田 有 希 The advent of next generation sequencing technologies 1
Sequencing systems Genome Sequencer FLX system Illumina HiSeq sequencer Roche 454 GS FLX 10% PacBio 3% Life technologies PGM, Ion Proton 16% PacBio RS II 71% 2013 Market Share Illumina HiSeq Benchtop 型 シーケンサー 454 GS Junior (Roche) MiSeq (Illumina) Ion Torrent PGM (Life Technologies) Platform Approximate cost per run Minimum throughput (read length) Cost/Mb 454 GS Junior $1,100 35Mb (400bases) $31 MiSeq $750 1,500Mb (2 x 150bases) $0.50 Ion Torrent PGM $225 625 10 1,000Mb (100bases) $0.63 22.5 Loman et al., 2012, Junemann et al., 2013 2
Sequencing applications Whole genome re-sequencing Whole genome de novo sequencing Transcriptome (Exome sequencing, RNA seq) Targeted sequencing (Amplicon sequencing) ChIP sequencing Reference ゲノムとの 比 較 SNP, Indel discovery 新 規 ゲノム 配 列 の 決 定 遺 伝 子 変 異 発 現 量 比 較 標 的 配 列 の 比 較 解 析 Protein-DNA interaction Methyl-sequencing Metagenomics etc ゲノムワイドなメチル 化 解 析 微 生 物 菌 類 の 網 羅 的 な 解 析 解 析 環 境 のセットアップ 国 立 遺 伝 学 研 究 所 スーパーコンピューターシステム (NIG Super Computer) 私 はこちらからアカウント 申 請 させて 頂 きました 3
解 析 環 境 のセットアップ 岡 山 大 学 大 学 院 国 立 遺 伝 学 研 究 所 遺 伝 研 にあるスパコンのサーバーで 解 析 させて 頂 いております <For windows users> WinSCP (http://winscp.net/eng/docs/lang:jp) ダウンロード インストールします 4
FileZilla (https://filezilla-project.org/) ファイル 転 送 を 高 速 で 行 えますので こちらもお 勧 めです <For windows users> Terminal application (ターミナル 用 ) Putty (http://www.chiark.greenend.org.uk/~sgtatham/putty/) 準 備 OK! ダウンロード インストールします 5
リモートコンピューターへのログインの 仕 方 WinSCPをクリック アカウントを 選 択 クリック パスワード 入 力 クリック 6
ドラッグ ローカル ファイル 転 送 OK! リモート コマンドを 選 択 Puttyを 開 く 7
ターミナル 用 画 面 が 現 れます <For Mac users> 8
<For Mac users> Mac OS X ターミナルで 以 下 入 力 して Enter ssh mon@xxx.jp (アカウント 名 ) パスワード 入 力 でOK! リモートコンピューターのアカウントへGO! リモートコンピューターのアカウントへ コマンドライン 入 力 可 能 ためしに ls と 打 ってみます 9
lsコマンドは カレントディレクトリにあるファイルおよびディレクトリを 表 示 する という 意 味 です Linuxのディレクトリ 構 造 に 関 して Windowsの 構 造 ; 各 フォルダにファイルが 保 存 されています 10
Linuxのディレクトリ 構 造 に 関 して 一 方 Linuxでは 各 ディレクトリにファイルが 保 存 されています ディレクトリ mon doc test (Windowでのフォルダ) file text1. txt 2014 bin text2. txt text3. txt Linuxの 絶 対 パスと 相 対 パスに 関 して Windowsの 場 合 は 目 的 のファイルまでのフォルダをクリックして 移 動 し フォルダを 開 きます 11
Linuxの 絶 対 パスと 相 対 パスに 関 して 一 方 Linuxではコマンドラインを 使 ってディレクトリを 指 定 し ファイルを 開 きます 今 ここだよー 相 対 パス:../file/2014/Report.txt 絶 対 パス: /mon/file/2014/report.txt mon doc test file 2014 Report.txt 目 的 のファイルです Linuxの 絶 対 パスと 相 対 パスに 関 して 一 方 Linuxではコマンドラインを 使 ってディレクトリを 指 定 し ファイルを 開 きます 今 ここだよー mon 一 つ 上 へ(..) doc 相 対 パス:../file/2014/Report.txt..は 一 つ 上 のディレクトリに 上 がるという 意 味 です test file 2014 Report.txt 12
Linuxの 絶 対 パスと 相 対 パスに 関 して mon doc 今 ここだよー 絶 対 パス: /mon/file/2014/report.txt 一 番 上 のディレクトリからのパスを 示 します なので docからの 移 動 であれ testからの 移 動 であれ 同 じになります test file 2014 Report.txt GET!! ディレクトリを 移 動 するときは mv コマンドラインを 使 います 主 要 なコマンドライン コマンド 名 用 途 pwd カレントパスを 表 示 する ls カレントディレクトリ 内 のファイルおよびディレクトリを 表 示 する less ファイルの 中 身 を 表 示 する cp ファイルをコピーする mv ファイルを 移 動 する ファイルおよびディレクトリ 名 を 変 更 する cd ディレクトリを 移 動 する mkdir ディレクトリを 作 成 する rmdir ディレクトリを 削 除 する rm ファイルを 削 除 する wget ファイルをダウンロードする コマンドラインはさまざまあるので 用 途 も 併 せて ぜひ 調 べてみてください 13
コマンドラインの 操 作 例 Exercises (Basic prep) 1. Download fasta file wget ファイルダウンロード (wget URL) ftp://ftp.ncbi.nih.gov/genbank/genomes/bacteria/halobacterium_sp_uid217/ae 004437.faa Exercises (Basic prep) 2. ファイルの 中 身 を 確 認 less AE004437.faa ファイル 確 認 (less ファイル 名 ) コマンドラインの 操 作 例 14
コマンドラインの 操 作 例 Exercises (Basic prep) 3. いくつアミノ 酸 配 列 があるか 数 えてみる grep '>' AE004437.faa wc -l 行 数 カウント 検 索 2058のアミノ 酸 配 列 が 並 んでいることがわかります コマンドラインは いろいろ 組 み 合 わせて 使 えます cat, sort, uniq, grep, cut, awk, sed etc ぜひ いろいろ 試 してみてください Exercises (BLAST) コマンドラインの 操 作 例 1. BLAST databaseの 作 成 formatdb -i AE004437.faa -p T -o 入 力 ファイルの 指 定 オプション p T アミノ 酸 配 列 p F 塩 基 配 列 ファイルが 生 成 されます 15
コマンドラインの 操 作 例 Exercises (BLAST) 2. BLAST 検 索 blastall -p blastp -i myseq.fasta -d AE004437.faa -o blastp.out クエリーファイル データベース 結 果 出 力 ファイル BLAST 検 索 結 果 画 面 コマンドラインの 操 作 例 16
コマンドラインの 操 作 例 Exercises (clustalw) 配 列 のアライメント 1. clustalw myseq.fasta アライメント (clustalw ファイル 名 ) まとめ 1 解 析 環 境 のセッティング インストールするもの WinSCP, puttyなど コマンドラインによる 操 作 cp, ls, pwd, less, mv, rm, mkdir, rmdir, wget, scp etc Linuxで 配 列 解 析 BLAST, BLAT, clustalw, mafft, phylip, etc 高 速 アライメントにおすすめ 17
コマンドラインによるNGS 解 析 リードマッピング - SNP, Indel discovery - マッピング 用 解 析 ツール For alignment The Burrows-Wheeler Alignment (BWA) (http://bio-bwa.sourceforge.net/) Bowtie (http://bowtie-bio.sourceforge.net/index.shtml) SOAPsnp (http://soap.genomics.org.cn/soapsnp.html) MAQ (http://maq.sourceforge.net/maq-man.shtml) For alignment processing and variant calling Samtools (http://samtools.sourceforge.net/) Rsamtools (http://bioconductor.org/packages/release/bioc/html/rsamtools.html) Picard (http://picard.sourceforge.net/) GATK (http://www.broadinstitute.org/gatk/) For visualization IGV (http://www.broadinstitute.org/igv/) ggbio (http://www.bioconductor.org/packages/release/bioc/html/ggbio.html) 18
Workflow (マッピング) 前 処 理 (リードのfiltering, trimming 作 業 など) リードマッピング 解 析 後 処 理 ( 重 複 削 除 quality score recalibration, etc..) SNP/Indel calling 候 補 の 変 異 に 関 してQuality filtering 変 異 のアノテーション BWAによるマッピング 解 析 http://bio-bwa.sourceforge.net/ 19
samtoolsによる 解 析 http://samtools.sourceforge.net/samtools.shtml 解 析 の 流 れ(コマンドライン) 1. Referenceゲノム 配 列 のインデックスを 作 成 する bwa index a genome.fasta 2. リード 配 列 をアライメントする bwa aln genome.fasta query.fastq > output.sai 3. SAMファイルを 作 成 する bwa sampe genome.fasta output1.sai output2.sai query1.fastq query2.fastq > output.sam BAM:バイナリ ファイル 4. BAMファイルへ 変 換 する samtools view bst genome.fasta output.sam o output.bam 5. BAMファイルをソートする samtools sort output.bam output.sorted 6. BAMファイルをインデックス 化 する samtools index output.sorted.bam オプション 等 の 詳 細 は Bwaおよびsamtoolsを 参 考 に お 願 いします 20
マッピング 解 析 SAMファイルの 中 身 (マッピング 情 報 ) Query seq name; Flag; Reference name; position; MAPQ; CIAGR; MRNM; MPOS; etc 詳 細 は samtools homepageで 確 認 ください マッピング 結 果 の 可 視 化 IGV; Integrative genome viewerを 使 用 (GUIで 使 用 可 能 ) **.bam **.bam.baiファイルをインポート 21
マッピング 結 果 の 可 視 化 IGV; Integrative genome viewer SNP (A to G) SNP/Indel identification Calling SNPs/INDELs with samtools/bcftools 7. Samtoolsで 変 異 を 検 出 する samtools mpileup uf ref.fa aln1.bam aln2.bam bcftools view bvcg > var.raw.bcf bcftools view var.raw.bcf vcfutils.pl varfilter D100 > var.flt.vcf 22
コマンドラインによるNGS 解 析 構 造 変 異 の 同 定 構 造 変 異 同 定 用 解 析 ツール > 1kbの 構 造 変 異 (Deletion, Insertion, inversion, translocation) BreakDancer (http://breakdancer.sourceforge.net/) Pindel (http://pindel.sourceforge.net/) SOAPsv (http://soap.genomics.org.cn/soapsv.html) Several methods SV class Read Pair Read Depth Split Read Local assembly Deletion Reference New genome Contig or Scaffold Nature Review Genetics 2011 Genes and Development 2010 23
BreakDancerを 用 いた 解 析 例 http://gmt.genome.wustl.edu/breakdancer/1.2/index.html http://breakdancer.sourceforge.net/ BreakDancerを 用 いた 解 析 例 bamファイルを 用 いる(BWA 等 でアライメントして 生 成 したファイル) 1. configure filesを 作 成 する perl bam2cfg.pl test.sorted.bam > test.cfg 2. 構 造 変 異 を 同 定 する breakdancer_max test.cfg > test.txt その 他 オプションはbreakdancer(http://breakdancer.sourceforge.net) 参 照 24
BreakDancerを 用 いた 解 析 例 INS, DEL, INV, ITX( 構 造 変 異 の 種 類 ) コマンドラインによるNGS 解 析 解 析 結 果 の 可 視 化 circos, R, Rheatmap..etc 25
circosを 用 いた 解 析 例 http://circos.ca/ 1. configファイルの 作 成 circosを 用 いた 解 析 例 2. pngファイルの 作 成 perl bin circos conf test.conf outputfile test.png Configファイルの 一 部 を 示 します 26
circosを 用 いた 解 析 例 1 Gene density SNP density INDEL density ゲノムワイドなHeatmap 作 成 可 能 ( 遺 伝 子 密 度 SNP 密 度 Indel 密 度 などの 比 較 ) circosを 用 いた 解 析 例 2 拡 大 可 能 ゲノムワイドなヒストグラム 作 成 サンプル 間 で 比 較 可 能 27
コマンドラインによるNGS 解 析 De novo assembly アセンブリー 用 解 析 ツール MIRA (http://www.chevreux.org/projects_mira.html) SSAKE (http://www.bcgsc.ca/platform/bioinfo/software/ssake) SHARCGS (http://sharcgs.molgen.mpg.de/) Newbler Celera assembler Velvet (https://www.ebi.ac.uk/~zerbino/velvet/) ABySS (http://www.bcgsc.ca/platform/bioinfo/software/abyss) ALLPATHS-LG (http://www.broadinstitute.org/science/programs/genome-biology/crd) ALLPATHS (http://www.broadinstitute.org/science/programs/genome-biology/crd) SOAP denovo (http://soap.genomics.org.cn/soapdenovo.html) Ray (http://denovoassembler.sourceforge.net/)..etc 28
補 足 セルイノベーションシステムの 紹 介 Cell innovation http://www.cell innovation.org/ NGSデータ 解 析 プログラム ( 国 立 遺 伝 学 研 究 所 がデータ 解 析 拠 点 となっています) 29
Cell innovation さきほどのURLページをスクロールすると この 画 面 になります クリック Cell innovationページ GUIで 動 かせます! クリック 豊 富 なアプリケーションが 使 用 可 能 (リードマッピング アセンブリー トランスクリプトーム メタゲノムなど) 30
Cell innovationページ Projectをクリック Cell innovationページ これまで 行 った 解 析 リスト データが 表 示 されます 目 的 のプロジェクトをクリック 解 析 リスト 31
Cell innovationページ 開 いたプロジェクトに 関 する 解 析 の 履 歴 が 見 れます 処 理 解 析 処 理 解 析 入 力 Fastqファイル 出 力 ファイル Cell innovationページ ファイルをクリックすると アイコンが 現 れます Donwloadをクリック 32
Cell innovationページ データダウンロード 可 能 なページが 現 れます httpsをクリックすると データを 確 認 できます Cell innovationページ データを 送 信 することもできます SFTPをクリックすると データを 保 存 送 信 できます 33
Cell innovationページ Analysisをクリックすると 解 析 を 開 始 できます Cell innovationページ 解 析 可 能 な 処 理 が 表 示 されます 解 析 用 ツール 解 析 ツールの 名 前 解 析 内 容 オプションなど 34
Cell innovationページ 目 的 の 解 析 処 理 のAnalysisをクリック Cell innovationページ 解 析 画 面 が 表 示 されます 必 要 なファイルが 指 定 されていることを 確 認 します クリックすると 解 析 スタート 35
Cell innovationページ Analysis status 画 面 が 現 れます Prog: 解 析 中 終 わると Endになります まとめ2 解 析 用 途 に 応 じたソフトウェアおよびアプリケーション いろいろ 試 して 自 分 にあったもの マニュアルを 利 用 ( 日 本 語 マニュアルがある 場 合 も) 困 ったら 検 索 SEQ answers 等 に 似 たようなトラブルがあったり 解 析 はある 程 度 慣 れ?な 部 分 もある 気 かも まとまらない 内 容 で 恐 縮 ですが 必 要 な 情 報 等 随 時 利 用 して 頂 けますと 幸 いです また ご 質 問 御 意 見 等 ございましたら いつでもお 気 軽 にお 知 らせください (y_monden@cc.okayama u.ac.jp) この 度 は 本 当 にありがとうございました Thank you very much!! 36