PowerPoint プレゼンテーション



Similar documents
PowerPoint プレゼンテーション

AJACS18_ ppt

PowerPoint プレゼンテーション

3.1. Velvet は velveth velvetg の 2 つのプログラムから 構 成 されており 設 定 画 面 でそれぞれのパラメーターを 設 定 可 能 です 3.2. Velvetg については より 詳 細 なパラメーターを 設 定 可 能 です 3.3. Multiplex 解

講義内容 ファイル形式 データの可視化 データのクオリティチェック マッピング アセンブル 資料の見方 $ pwd 実際に入力するコマンドを黄色い四角の中に示します 2

シーケンサー利用技術講習会 第10回 サンプルQC、RNAseqライブラリー作製/データ解析実習講習会

GWB

リード・ゲノム・アノテーションインポート

2016_RNAseq解析_修正版

PowerPoint プレゼンテーション

141025mishima

<8FEE95F AD D2E786C73>

unix15-script2_09.key

任意の間隔での FTP 画像送信イベントの設定方法 はじめに 本ドキュメントでは AXIS ネットワークカメラ / ビデオエンコーダにおいて任意の間隔で画像を FTP サー バーへ送信するイベントの設定手順を説明します 設定手順手順 1:AXIS ネットワークカメラ / ビデオエンコーダの設定ページ

Sequencher 4.9 Confidence score Clustal Clustal ClustalW Sequencher ClustalW Windows Macintosh motif confidence Sequencher V4.9 Trim Ends Without Prev

Microsoft PowerPoint - InfPro_I6.pptx

RNA-seq

プレゼンテーション2.ppt

Upload path ファイル送信先ディレクトリのパスを指定します ホームディレクトリに画像を送信する場合は空白のまま サブディレクトリに画像を送信する場合はディレクトリ名を指定します さらに下位のディレクトリを指定する場合は \ マークを利用します 例 ) ホームディレクトリ以下の camera

PowerPoint プレゼンテーション

Maeda140303

<4D F736F F F696E74202D2091E EF88E78EED8A7789EF8CA48B868F5789EF815196E593632E >

バクテリアゲノム解析

Introduction Purpose This training course describes the configuration and session features of the High-performance Embedded Workshop (HEW), a key tool

ChIP-seq

Introduction Purpose This training course demonstrates the use of the High-performance Embedded Workshop (HEW), a key tool for developing software for

Unix * 3 PC 2 Linux, Mac *4 Windows Cygwin Cygwin gnuplot Cygwin unix emulator online gnuplot *5 matplotlib *6 SuperMongo *7 gnuplot gnuplot OS *8 Uni

GWB

目 次 1 インストール 手 順 プログラム データファイルのインストール Microsoft Access2013Runtime SP1(32bit) 版 のインストール 基 本 操 作 ログイン メニュー...

テクニカルドキュメントのテンプレート

NGSデータ解析入門Webセミナー

Kaplan-Meierプロットに付加情報を追加するマクロの作成

解 析 の 実 行 方 法 (First Step Guide) 解 析 の 実 行 File メニューから New Analysis using BLAST を 選 択 します 下 記 の 解 析 開 始 メニューが 表 示 されます への 入 力 データは 16s

KEGG.ppt

本 日 の 授 業 内 容 最 低 限 覚 えるべきUNIXコマンド pwd, ls, mkdir, cd, cp, rm, mv テキストエディタの 簡 単 な 使 い 方 テキストエディット, Jedit X,Emacs C 言 語 プログラミングの 初 歩 hello, world を 画 面

1 2 3


CLC Genomics Workbench ウェブトレーニングセミナー: 変異解析編

R4財務対応障害一覧

スライド 1

3rd-jikken-ngs

Microsoft PowerPoint - mendeley_webex_ pptx

情報処理概論(第二日目)

IonTorrent RNA-Seq 解析概要 サーモフィッシャーサイエンティフィックライフテクノロジーズジャパンテクニカルサポート The world leader in serving science

Microsoft PowerPoint - webサイト更新マニュアル ppt [互換モード]

2. Save をクリックします 3. System Options - Network - TCP/IP - Advanced を開き Primary DNS server と Secondary DNS Server に AXIS ネットワークカメラ / ビデオエンコーダが参照できる DNS サ

CLC Genomics Workbench ウェブトレーニングセミナー: 変異解析編

1級 ワンポイント

Step 1 Feature Extraction Featuer Extraction Feature Extraction Featuer Extraction Image Analysis Start>Programs>Agilent-Life Sciences>Feature Extract

目 次 1. 本 マニュアルについて D-Case ステンシルの 導 入 概 要 インストール D-Case 編 集 D-Case メニュー ノード リンク..

Microsoft Word - CiNii&RefWorks doc

KNOB Knoppix for Bio Itoshi NIKAIDO

Microsoft PowerPoint - c3_op-manual.pdf

Microsoft Word - MyWebPortalOffice_BackupRestore2012.doc

Microsoft Word - Win-Outlook.docx

GWB_RNA-Seq_

Microsoft Word - mediawiki.doc

Juniper Networks Corporate PowerPoint Template

Compiled MODELSでのDFT位相検出装置のモデル化と評価

Transcription:

解 析 の 実 践 (blast mapping assemble)

検 索 前 の 準 備 1. gw.ddbj.nig.ac.jpにログイン ssh [user name]@gw..ddbj.nig.ac.jp 2. 解 析 ノードにログイン qlogin 3. Pathの 設 定 emacs ~/.bashrc PATH= $PATH :/usr/local/bin:/usr/local/pkg/bowtie2/currentという 行 を 追 加 ~はホームディレクトリ ( 例 :/home/hidekih15) ホームディレクトリの 表 示 ;pwd 4. ファイル 名 の 補 完 set autolist 5..bashrcの 反 映 source.bashrc (プログラム 本 体 ) *Blast (version 2.2.26) /usr/local/bin/blastall *Bowtie 2 (2.0.0-beta6) /usr/local/pkg/bowtie2/current/bowtie2 *SOAPdenovo (1.05) /usr/local/bin/soapdenovo #.bashrc # Source global definitions if [ -f /etc/bashrc ]; then. /etc/bashrc fi alias emacs='emacs -nw' alias rm='rm -i' alias cp='cp -i' alias mv='mv -i' set autolist PATH="$PATH":/usr/local/bin:/usr/local/pkg/bowtie2/current

BLAST 検 索 1. 使 用 するデータ (1) 問 い 合 わせ 配 列 (クエリー) /home/hidekih15/lecture/data/blast/query/ * 遺 伝 子 の 塩 基 配 列 : test_nt.fa * 遺 伝 子 のアミノ 酸 配 列 : test_aa.fa (2) データベース (サブジェクト) *NIG SuperComputerに 登 録 されているDBを 対 象 とした 場 合 /usr/local/seq/blast/uniprot/swissprot # 例 :SWISSPROT * 手 元 の 配 列 を 対 象 とした 場 合 /home/hidekih15/lecture/data/blast/db/s_aureus_n315_chr.fa # ゲノム 塩 基 配 列 /home/hidekih15/lecture/data/blast/db/s_aureus_n315_orfs_aa.fa # 遺 伝 子 のアミノ 酸 配 列

2. データのコピー (1) cd ~ #ホームディレクトリへの 移 動 (2) mkdir test # 解 析 用 ディレクトリの 作 成 (3) cd test (4) mkdir BLAST (5) cd BLAST (6) mkdir query # 1から6は mkdir p ~/test/blast/query でも 可 能 (7) cd query (8) cp /home/hidekih15/lecture/data/blast/query/test_nt.fa. (9) cp /home/hidekih15/lecture/data/blast/query/test_aa.fa. # 8と9は cp /home/hidekih15/lecture/data/blast/query/*.fa. でも 可 能 3. BLASTライブラリの 作 成 (1) cd ~/test/blast (2) mkdir db (3) cd db (4) cp /home/hidekih15/lecture/data/blast/db/*.fa. (5) formatdb -i S_aureus_N315_chr.fa -p F # 塩 基 配 列 の 場 合 formatdb -i S_aureus_N315_ORFs_aa.fa -p T # アミノ 酸 配 列 の 場 合

4. BLASTの 実 行 (1) cd ~/test/blast/query/ (2) blastall -p [program name] -a [# of CPUs] -d [Library file name] -i [query filename] -o [output filename] # 基 本 コマンド 例 )クエリーがアミノ 酸 配 列 (test_aa.fa) データベースがSWISSPROT(アミノ 酸 配 列 )の 場 合 blastall -p blastp -a 8 -F F -d /usr/local/seq/blast/uniprot/swissprot -i test_aa.fa -o test_vs_swissprot.bp # 結 果 の 閲 覧 : less test_vs_swissprot.bp 例 )クエリーが 塩 基 配 列 (test_nt.fa) デーベースがSWISSPROT(アミノ 酸 配 列 )の 場 合 blastall -p blastx -a 8 -F F -d /usr/local/seq/blast/uniprot/swissprot -i test_nt.fa -o test_vs_swissprot.bx 例 )クエリーが 塩 基 配 列 (test_nt.fa) データベースが 塩 基 配 列 の 場 合 blastall -p blastn -a 8 -F F -d ~/test/blast/db/s_aureus_n315_chr.fa -i test_nt.fa -o test_vs_n315_chr.bn 例 )クエリーがアミノ 酸 配 列 (test_aa.fa) データベースがアミノ 酸 配 列 の 場 合 blastall -p blastp -a 8 -F F -d ~/test/blast/db/s_aureus_n315_orfs_aa.fa -i test_aa.fa -o test_vs_s_aureus_n315_orf.bp BLASTのプログラムの 種 類 プログラム 名 BLASTN BLASTP TBLASTN BLASTX 問 い 合 わせ 配 列 (クエリー) 塩 基 配 列 アミノ 酸 配 列 アミノ 酸 配 列 塩 基 配 列 データベース (サブジェクト) 塩 基 配 列 アミノ 酸 配 列 塩 基 配 列 アミノ 酸 配 列

BLASTのオプション 表 示 blastall -p Program Name [String] -d Database [String] default = nr -i Query File [File In] default = stdin -e Expectation value (E) [Real] default = 10.0 -m alignment view options: 0 = pairwise, 1 = query-anchored showing identities, 2 = query-anchored no identities, 3 = flat query-anchored, show identities, 4 = flat query-anchored, no identities, 5 = query-anchored no identities and blunt ends, 6 = flat query-anchored, no identities and blunt ends, 7 = XML Blast output, 8 = tabular, 9 tabular with comment lines 良 く 使 うオプション -e: E-valueの 閾 値 ( 例 :-e 1e-10) -m : テーブル 形 式 の 表 示 ( 例 :-m 8) -v : リストの 最 大 表 示 数 ( 例 :-v 5) -b : アライメントの 最 大 表 示 数 ( 例 : -b 5) (FASTAのコマンド) fasta36 -Q test_aa.fa /home/hidekih15/lecture/data/blast/db/s_aureus_n315_ ORFs_aa.fa > test_vs_s_aureus_n315_orf.fasta36

1. 用 いるファイル イルミナリードのマッピング(Bowtie 2) リファレンスゲノム ( 黄 色 ブドウ 球 菌 N315 株 ) /home/hidekih15/lecture/data/blast/db/s_aureus_n315_chr.fa # NCBIのgenomeから 入 手 ; http://www.ncbi.nlm.nih.gov/genome/154?project_id=57837 イルミナリード (100 bp paired-end reads; DRAから 入 手 したもの) /home/hidekih15/lecture/data/illumina/ MRSA_SRR583008_50x_1.fastq MRSA_SRR583008_50x_2.fastq 2. 作 業 ディレクトリ mkdir p ~/Mapping/ref cd ~/Mapping/ref cp /home/hidekih15/lecture/data/blast/db/s_aureus_n315_chr.fa. Fastqファイルの 例 (.fastq.fq) @SRR583008.2:73:B00NUACXX:3:1101:1939:1927 (リード 名 ) GTATTTCCTAGGACATATAGAGGAACATTCAACGTAAAATTCCCG ( 配 列 ) + (コメント 行 ) CBBFFFFFHHHHFHIJJJJJJJIJJJJJJJJJJJIJJIJJJJJJI (QV 値 ) http://en.wikipedia.org/wiki/fastq_format 3. リファレンスのインデクシング bowtie2-build -f S_aureus_N315_chr.fa S_aureus_N315_chr.fa > S_aureus_N315_chr.log 4. リードのアライメント cd ~/Mapping bowtie2 -I 200 -X 500 -x./ref/s_aureus_n315_chr.fa -1 ~/lecture/data/illumina/mrsa_srr583008_50x_1.fastq -2 ~/lecture/data/illumina/mrsa_srr583008_50x_2.fastq -p 4 -S S_aureus_pe275.sam >& MRSA_SRR583008_50x_bowtie2.out ## オプションの 説 明 ## bowtie2 -I [minimum insert size] -X [maximum insert size] -x [indexed reference name] -1 [paired-end read_1] -2 [paired-end read_2] -p [number of threads] -S [name of output sam file]

出 力 結 果 718541 reads; of these: 718541 (100.00%) were paired; of these: 66347 (9.23%) aligned concordantly 0 times 634069 (88.24%) aligned concordantly exactly 1 time 18125 (2.52%) aligned concordantly >1 times ---- 66347 pairs aligned concordantly 0 times; of these: 26852 (40.47%) aligned discordantly 1 time ---- 39495 pairs aligned 0 times concordantly or discordantly; of these: 78990 mates make up the pairs; of these: 71945 (91.08%) aligned 0 times 4958 (6.28%) aligned exactly 1 time 2087 (2.64%) aligned >1 times Tablet 94.99% overall alignment rate マッピング 結 果 のビューワ: Tablet, IGV Tablet: http://bioinf.scri.ac.uk/tablet/ samtools index S_aureus_pe275.bam IGV: http://www.broadinstitute.org/igv/

SNPs/indels の 検 出 (Samtools) 1. samアライメントファイルの bamフォーマットへの 変 換 とリファンレンス 上 の 位 置 に 従 ったソート samtools view -Sb S_aureus_pe275.sam samtools sort - S_aureus_pe275 (S_aureus_pe275.bamファイルが 出 力 される) 2. SNPs/indelsの 抽 出 samtools mpileup -ubf./ref/s_aureus_n315_chr.fa S_aureus_pe275.bam bcftools view -vc -i 0.1 - > S_aureus_pe275.vcf 3. vcf ファイルのフィルタリング(variant qualityに 基 づく) awk '$6>=100' S_aureus_pe300.vcf > S_aureus_pe300.filt-Q100.vcf VCFファイルの 例 #CHROM POS ID REF ALT QUAL FILTER INFO scaffold7 1158. A C 31. DP=36;.. GT:PL:GQ 0/1:61,0,54:56 http://www.1000genomes.org/wiki/analysis/variant%20ca ll%20format/vcf-variant-call-format-version-41 SNPアノテーション DP=36:クオリティ DP4=15,0,20,0: 厚 み REFと 同 一 リード 数 :15(+) 0(-) ALTと 同 一 リード 数 :20(+) 0(-) SnpEff, SnpSift: http://snpeff.sourceforge.net Annovar: http://www.openbioinformatics.org/annovar/ sam (Sequence Alignment / Map) bam (Binary version of a sam file)

イルミナリードのアセンブル 1. 用 いるファイル イルミナリード *101 bp paired-end reads(インサートサイズ:180 bp) /home/hidekih15/lecture/data/illumina/ frag_1.fastq frag_2.fastq * 37 bp mate-pair reads (インサートサイズ:3,500 bp) shortjump_1.fastq shortjump_2.fastq 2. SOAPdenovo 用 の 設 定 ファイル(configure.txt; 次 ページ)の 作 成 アセンブル 前 に 設 定 ファイルを 準 備 する 必 要 がある リードファイルの 場 所 リード 長 アセンブル 手 順 等 の 設 定 をconfigure.txtファイルに 記 入 configureファイルは http://soap.genomics.org.cn/soapdenovo.html を 参 考 にして 独 自 に 作 成 cd ~/lecture/assembly cp ~/lecture/data/soapdenovo/configure.txt. # PEのみの 場 合 SOAPdenovo-31mer all -s configure.txt -K 31 -d -D -L 500 -o S_aureus_pe -p 4 > S_aureus_pe.log cp ~/lecture/data/soapdenovo/configure_pe_mp.txt. # PE と MPを 混 ぜた 場 合 SOAPdenovo-31mer all -s configure_pe_mp.txt -K 31 -d -D -L 500 -o S_aureus_pe_mp -p 4 > S_aureus_pe_mp.log ## オプションの 説 明 ## オプションの 説 明 はhttp://soap.genomics.org.cn/soapdenovo.html を 参 照 ## 特 に -K と -mの 値 を 変 えて 試 す リード 長 とリードカバレッジによって 最 適 値 が 異 なる SOAPdenovo-127merのみの 実 行 でマニュアル 表 示

configure.txt [LIB] #maximal read length max_rd_len=101 #average insert size avg_ins=275 #if sequence needs to be reversed reverse_seq=0 #in which part(s) the reads are used asm_flags=3 #use only first 100 bps of each read #rd_len_cutoff=100 #in which order the reads are used while scaffolding rank=1 # cutoff of pair number for a reliable connection (at least 3 for short insert size) pair_num_cutoff=3 #minimum aligned length to contigs for a reliable read location (at least 32 for short insert size) map_len=32 q1=/home/hidekih15/lecture/data/illumina/mrsa_srr583008_50x_1.fastq q2=/home/hidekih15/lecture/data/illumina/mrsa_srr583008_50x_2.fastq

configure_pe_mp.txt [LIB] #maximal read length max_rd_len=100 #average insert size avg_ins=300 #if sequence needs to be reversed reverse_seq=0 #in which part(s) the reads are used asm_flags=3 #use only first 100 bps of each read #rd_len_cutoff=100 #in which order the reads are used while scaffolding rank=1 # cutoff of pair number for a reliable connection (at least 3 for short insert size) pair_num_cutoff=3 #minimum aligned length to contigs for a reliable read location (at least 32 for short insert size) map_len=32 q1=/home/hidekih15/lecture/data/illumina/mrsa_srr583008_50x_1.fastq q2=/home/hidekih15/lecture/data/illumina/mrsa_srr583008_50x_2.fastq [LIB] #maximal read length max_rd_len=37 #average insert size avg_ins=3500 #if sequence needs to be reversed reverse_seq=1 #in which part(s) the reads are used asm_flags=2 #use only first 100 bps of each read #rd_len_cutoff=37 #in which order the reads are used while scaffolding rank=2 # cutoff of pair number for a reliable connection (at least 3 for short insert size) pair_num_cutoff=2 #minimum aligned length to contigs for a reliable read location (at least 32 for short insert size) map_len=32 q1=/home/hidekih15/lecture/data/illumina/shortjump_1.fastq q2=/home/hidekih15/lecture/data/illumina/shortjump_2.fastq

出 力 結 果 S_aureus_pe.log: ログファイル S_aureus_pe.contig: コンティグ 配 列 S_aureus_pe.scafSeq: スキャフォールド 配 列 S_aureus_pe.scaf: スキャフォールドにおけるコンティグの 位 置 情 報 配 列 情 報 の 解 析 (EMBOSS) http://emboss.sourceforge.net/ infoseq -sequence S_aureus_pe.scafSeq -outfile S_aureus_pe.scafSeq.infoseq infoseq -sequence S_aureus_pe.contig -outfile S_aureus_pe.contig.infoseq