長崎は遺伝研 大量遺伝情報研究室の所属です 国立遺伝学研究所 生命情報研究センター 3F 2F 欧州EBIと米国NCBIと密接に協力しながら DDBJ/EMBL/GenBank国際塩基配列データ ベースを構築しています 私たちは 塩基配列登録を支援するシステムづくり 登録データの活用するシステムづく

Similar documents
28DDBJing_nagasaki.pdf

AJACS18_ ppt

GWB

Maser - User Operation Manual

NGSデータ解析入門Webセミナー

リード・ゲノム・アノテーションインポート

シーケンサー利用技術講習会 第10回 サンプルQC、RNAseqライブラリー作製/データ解析実習講習会

PowerPoint プレゼンテーション

ChIP-seq

Microsoft Word - CATNewsVol2No7Text.doc

ThermoFisher

Maser RNA-seq Genome Resequencing De novo Genome Sequencing Metagenome ChIP-seq CAGE BS-seq

Microsoft Word - Win-Outlook.docx

GWB

PowerPoint プレゼンテーション

3.1. Velvet は velveth velvetg の 2 つのプログラムから 構 成 されており 設 定 画 面 でそれぞれのパラメーターを 設 定 可 能 です 3.2. Velvetg については より 詳 細 なパラメーターを 設 定 可 能 です 3.3. Multiplex 解

プレゼンテーション2.ppt

RNA-seq

Microsoft PowerPoint - 8_TS-0894(TaqMan_SNPGenotypingAssays_製品情報及び検索方法再修正.pptx

Microsoft Word - FTTH各種設定手順書(鏡野地域対応_XP項目削除) docx

次世代シークエンサーを用いたがんクリニカルシークエンス解析

2 1: ネットワーク設定手順書 が完了後に行なってください 鏡野町有線テレビ 各種設定手順書 この手順書では以下の内容の手順を解説しています メール設定 ホームページの掲載 お客様がご利用の OS により設定方法が異なる部分があります OS をご確認の上 作業を行なってください お客

PowerPoint Presentation

手順例_Swivel_SSL証明書

目次 メールの基本設定内容 2 メールの設定方法 Windows Vista / Windows 7 (Windows Live Mail) Windows 8 / Windows 10 (Mozilla Thunderbird) 3 5 Windows (Outlook 2016) メ

GWB_RNA-Seq_

MSDM_User_Manual_v0.2.1-B-1

Microsoft PowerPoint - Tutorial_2_upd.ppt

eService

1. MEGA 5 をインストールする 1.1 ダウンロード手順 MEGA のホームページ ( から MEGA 5 software をコンピュータにインストールする 2. 塩基配列を決定する 2.1 Alignment E

NSR-500 Create DVD Installer Procedures

DragonDisk

PowerPoint プレゼンテーション

Web ファイルアクセス (Nextcloud) 利用マニュアル PC 操作編 Ver /4/26 明治大学情報基盤本部

パスワードの変更(更新時など)

目次 1.1. AOS ユーザー登録 AOS ライセンスキー登録 ios 版アプリ インストール 起動と新規登録 初期設定とバックアップ Android 版アプリ インストール...

IonTorrent RNA-Seq 解析概要 サーモフィッシャーサイエンティフィックライフテクノロジーズジャパンテクニカルサポート The world leader in serving science

3 ハイパーサーバサービスの諸設定を行う為の コントロールパネル のメイン画面が表示されます ウェブサイトとドメイン タブの データベース 欄にある 新規データベースを追加 をクリックします ( 新規データベースを追加 ボタンがない場合は データベース をクリックし データベース画面にある 新しいデ


MENU 키를 누르면 아래의 화면이 나타납니다

25 II :30 16:00 (1),. Do not open this problem booklet until the start of the examination is announced. (2) 3.. Answer the following 3 proble

Microsoft Word - DUC登録方法.doc

2. インストールの方法 インストールの手順は まずインストーラーをサイトからダウンロードし イールドブック カリキュレーターと Java Web Start をインストールします 次にイールドブック カリキュレーターを起動してサーバー接続し Java のファイルをダウンロードします 以下の手順に従

GWB

(タイトル未定)

Standards Certification Customer Library

Microsoft Word - SSI_Smart-Trading_QA_ja_ doc

Microsoft PowerPoint - Ion Reporter?ソフトウェアを用いた変異解析4.6.pptx

PowerPoint プレゼンテーション

ICSD web 簡単ガイド (Ver

目次 1. AOS ユーザー登録サイト AOS ユーザー登録 AOS ライセンスキー登録 ios 版アプリ インストール 起動と新規登録 初期設定とバックアップ Andro

DIGNO® ケータイ ユーザーガイド

講義内容 ファイル形式 データの可視化 データのクオリティチェック マッピング アセンブル 資料の見方 $ pwd 実際に入力するコマンドを黄色い四角の中に示します 2

SonicDICOM Cloud Connector インストール手順書 SonicDICOM Cloud Connector とは 検査装置が撮影した画像を自動的にクラウドへアップロー ドするためのソフトウェアです 1 前準備 クラウド上に PACS を作成する SonicDICOM Cloud

Microsoft iSCSI Software Targetを使用したクラスタへの共有ディスク・リソースの提供

1. 基本操作 メールを使用するためにサインインします (1) サインインして利用する 1 ブラウザ (InternetExploler など ) を開きます 2 以下の URL へアクセスします ( 情報メディアセンターのトップページからも移動で

国際塩基配列データベース n DNA のデータベース GenBank ( アメリカ :Na,onal Center for Biotechnology Informa,on, NCBI が運営 ) EMBL ( ヨーロッパ : 欧州生命情報学研究所が運営 ) DDBJ ( 日本 : 国立遺伝研内の日

Webhard_Users manual

2. 設定画面から 下記の項目について入力を行って下さい Report Type - 閲覧したい利用統計の種類を選択 Database Usage Report: ご契約データベース毎の利用統計 Interface Usage Report: 使用しているインターフェイス * 毎の利用統計 * 専用

CLC Genomics Workbench ウェブトレーニングセミナー: 変異解析編

Microsoft PowerPoint - 6_TS-0891(TS-0835(Custom TaqMan Assay Design Tool利用方法修正5.pptx

1 2. Nippon Cataloging Rules NCR [6] (1) 5 (2) 4 3 (3) 4 (4) 3 (5) ISSN 7 International Standard Serial Number ISSN (6) (7) 7 16 (8) ISBN ISSN I

目次 Ion Reporter 概要とメタゲノム解析 Ion16S Metagenome Kit データ解析概略 解析実行手順 解析実行結果 カスタムプライマー利用時のWorkflow 作成 サポート情報 p.3 p.9 p.14 p.19 p.26 p.35 2

任意の間隔での FTP 画像送信イベントの設定方法 はじめに 本ドキュメントでは AXIS ネットワークカメラ / ビデオエンコーダにおいて任意の間隔で画像を FTP サー バーへ送信するイベントの設定手順を説明します 設定手順手順 1:AXIS ネットワークカメラ / ビデオエンコーダの設定ページ

Microsoft Word - CBESNet-It連携ガイドver8.1.doc

アノテーション・フィルタリング用パイプラインとクリニカルレポートの作成

Microsoft Word - EndNoteWeb( _.doc

エンドポイント濁度測定装置 LT-16 取扱説明書

Microsoft PowerPoint - Biotools…}…j…–…A…‰224forFA.ppt

Ver.70 改版履歴 版数 日付 内容 担当 V /09/5 初版発行 STS V /0/8 証明書バックアップ作成とインストール手順追加 STS V /0/7 文言と画面修正 STS V..0 0//6 Firefox バージョンの変更 STS V..40

目次 1. HLA Fusion 3.0 がインストール可能な環境 HLA Fusion 3.0 のインストール HLA Fusion 3.4 のインストール 初期設定用データベース接続 ( 初めての方のみ ) 既存データベースのUpg

Sharing the Development Database

TSUBAME利用手引き

目次 第一章インストールと製品登録 1.1 インストール & ライセンス認証 3 第二章製品活用 - Leawo itransfer 3.1 コンピュータのファイルを iphone に転送 iphone のファイルをコンピュータにバックアップ ファイルを itunes から

ATOK Syncの設定方法と使い方(Windows用)

iThenticate User Manual 2.1

Transcription:

AJACS十勝 (2014.09.12) DDBJ Read Annotation Pipeline の紹介と実習 (RNA-Seq配列のde novoアセンブリを中心に) 国立遺伝学研究所 大量遺伝情報研究室 長崎 英樹

長崎は遺伝研 大量遺伝情報研究室の所属です 国立遺伝学研究所 生命情報研究センター 3F 2F 欧州EBIと米国NCBIと密接に協力しながら DDBJ/EMBL/GenBank国際塩基配列データ ベースを構築しています 私たちは 塩基配列登録を支援するシステムづくり 登録データの活用するシステムづくり 高速シーケンス配列の情報解析 を行なっています

高速シーケンサー配列の登場で短期間 低コストで大量 の塩基配列データを出力されるようになった illumina社 HiSeq2000 Life Technologies社 ion torrent Pacific Bioscience社 PacBio RS II

高速シーケンサー配列の登場で短期間 低コストで大量 の塩基配列データを出力されるようになった illumina社 HiSeq2000 Life Technologies社 ion torrent Pacific Bioscience社 PacBio RS II その結果... データ保管場所の確保 計算機不足 解析のための人員不足 といった問題がでてきた

DDBJの高速シーケンサー配列の諸問題への対応 DRA データ保管場所 の確保 DDBJ Sequence Read Archive (DRA) SRA ERA International Nucleotide Sequence Database Collaboration (INSDC) 計算機不足 解析のための 人員不足 NIG(遺伝研)スパコンシステム

遺伝研スーパーコンピュータシステム(NIGスパコンシステム) ゲノム解析を主な目的とした大規模計算機利用拠点として 最新鋭の大規模クラスタ型 計算機 大規模メモリ共有型型計算機 および大容量高速ディスク装置で構成された スーパーコンピューティングシステムサービスを提供しています http://sc.ddbj.nig.ac.jp/index.php

DDBJの高速シーケンサー配列の諸問題への対応 DRA データ保管場所 の確保 DDBJ Sequence Read Archive (DRA) SRA ERA International Nucleotide Sequence Database Collaboration (INSDC) 計算機不足 NIG(遺伝研)スパコンシステム アカウント登録で無償利用 コマンドラインによる操作 データ規模や使用メモリ量等で計算機ノードを選択などコツがいる 解析のための 人員不足

DDBJの高速シーケンサー配列の諸問題への対応 DRA データ保管場所 の確保 DDBJ Sequence Read Archive (DRA) SRA ERA International Nucleotide Sequence Database Collaboration (INSDC) 計算機不足 DDBJ Read Annotation Pipeline (DDBJ パイプライン) 解析のための 人員不足

DDBJ パイプラインの特徴 基礎解析部 DRAへの仮登録データ またはDRA内データ FTP/HTTPによる データアップロード FASTQ/FASTA 遺伝研の計算機で分散処理を実行 高速シーケン スデータを解析するクラウド型パイプライン オンラインで無償で利用可 de novo アセンブル マッピング DDBJのWGS用 FASTAファイル 基礎解析部 (マッピング de novo アセンブル)と 高次解析部 (構造 機能のアノテーション)で構成 解析結果ファイルを インポート 高次解析部 SNP検出 RNASeq ChIP- 構造 機能 Seq アノテーション

http://p.ddbj.nig.ac.jp

DDBJパイプライン 基礎解析部 http://p.ddbj.nig.ac.jp 13種類のマッピング アセンブルソフト対応 マッピング BLAT 高速シーケンサー登場以前からあるアライメントツール 発現データはイントロンを想定したギャップを考慮 MAQ 高速シーケンサー登場初期にショートリードに対応 リード長が長くなるに従い開発はBWAに引き継がれる BWA MAQより速く Titaniumのリードもオプションで対応 SOAP Bowtie/ Bowtie2 TopHat メモリ消費量少なく より高速 精度はBWAより弱冠落ちる ギャップは考慮しないが処理は速い BWA SOAP2 Bowtieは Burrows-Wheeler変換というアルゴリズムでゲノムDNAにたいし てインデクスを作成 高速でマッピングする Bowtie2は50bp以 上に最適化 RNA-Seqのリードを内部でBowtieを利用してマッピング スプ ライスジャンクションを特定する アセンブル SOAPdenovo ヒト パンダ等大型ゲノムのアセンブリで使用された 比較的高 速 Abyss 初期に並列処理に対応したアセンブラ Velvet 高速シーケンサー登場初期に開発された メモリ消費多め Trinity RNA-Seq配列のアセンブラ 上記3つともにde bruijn graphと いうアルゴリズムを使用 東工大のPlatanusとPacBioデータ用の アセンブラ HGAPも追加されました!

DDBJパイプライン 基礎解析部 13種類のマッピング アセンブルソフト対応 公開配列データの活用が容易 公開データと比較 レファレンスとしての活用 http://p.ddbj.nig.ac.jp

DDBJパイプライン 基礎解析部 13種類のマッピング アセンブルソフト対応 公開配列データの活用が容易 公開データと比較 レファレンスとしての活用 ジョブステータスで実行状態を確認可能 NIGスパコンで実行 マッピング Intel Xeon 2.60GHz 16 core,64gb RAM * 352 nodes アセンブル Intel Xeon 2.40GHz 80 cores, 2TB RAM * 2 nodes Intel Xeon 2.66GHz 768 cores, 10TB RAM ストレージ 2PB storage 解析終了をメールで通知 SAMtools/FASTAによる共通フォーマット での出力 http://p.ddbj.nig.ac.jp

DDBJパイプライン 高次解析部 http://p-galaxy.ddbj.nig.ac.jp 基礎解析部 DRAへの仮登録データ またはDRA内データ FTP/HTTPによる データアップロード FASTQ/FASTA de novo アセンブル マッピング DDBJのWGS用 FASTAファイル 解析結果ファイルを インポート 高次解析部 Galaxyで多様な構造 機能のアノテーションに対応 SNP検出 RNASeq ChIP- 構造 機能 Seq アノテーション 基礎解析部のデータファイルを活用 (SAMや(m)pileup FASTAファイルを参照)

DDBJパイプライン 高次解析部 http://p-galaxy.ddbj.nig.ac.jp NGSデータのマッピング結果の解析 SNPのゲノム上の分布の表示 RNA-SeqのCufflinks実行(発現量の正規化) gtf->wigフォーマット変換 UCSC genome browser siteでの可視化 (http://genome.ucsc.edu/cgi-bin/hggateway) ChIP-Seq MACSによるDNA結合タンパク質の結合部位候補の同定

DDBJパイプライン 高次解析部 http://p-galaxy.ddbj.nig.ac.jp RNA-Seqのde novo アセンブル結果の解析 Trinityによるアセンブル FASTAファイル 配列長フィルター アミノ酸変換 長いORFかつ HMMERによるモチーフ検索 UniProtKB/Swiss-Prot nrに対するblastp

providing robustness to the noise stemming from sequencing errors (Fig. 1a). Inchworm (i) constructs a k-mer dictionary from all sequence and other artifacts in the data. In particular, sequencing errors would reads (in practice, k = 25); (ii) removes likely error-containing k-mers introduce a large number of false nodes, resulting in a massive graph from the k-mer dictionary; (iii) selects the most frequent k-mer in the with millions of possible (albeit mostly implausible) paths. dictionary to seed a contig assembly, excluding both low-complexity Here, we present Trinity, a method for the efficient and robust de novo reconstruction of transcriptomes, consisting of three software a c b modules: Inchworm, Chrysalis and Butterfly, applied sequentially to process large volumes of RNA-Seq reads. We evaluated Trinity on data from two well-annotated species one microorganism (fission yeast) and one mamoverlap linear mal (mouse) as well as an insect (the whitefly ATTCG CTTCG sequences by Bemisia tabaci), whose genome has not yet been TTCGC overlaps of k 1 sequenced. In each case, Trinity recovers most to build graph TCGCA De Bruijn Read set components of the reference (annotated) expressed trangraph (k = 5) CGCAA scripts as full-length sequences, and resolves GCAAT alternative isoforms and duplicated genes, perk 1 CAATC CAATG forming better than other available transcripaatca AATGA Extend in k-mer tome de novo assembly tools, and similarly to space and methods relying on genome alignments. ATCAT ATGAT DDBJパイプラインで実行するTrinityについて... TGATC TCATC GATCG CATCG...... Inchworm: k-mer(k=25)でざっくりアセンブルしてコン ティグをつくる ATCGG T C T G C A T A T C T G! k 1 T C A T* CGGAT Compacting... G TCGGA k 1 A C TTCGCAA...T C G C Compact graph ATCGGAT... Finding paths >a121:len = 5,845...... Butterfly: グラフを精査していってスプライスバリアント やパラログも再構成する C A k 1 k 1 T G C A............ each representing the transcriptional complexity at nonoverlapping loci. Accordingly, Trinity partitions the sequence data into these many individual graphs, and then processes each graph independently to extract fulllength isoforms and tease apart transcripts derived from paralogous genes. In the first step in Trinity, Inchworm assembles reads into the unique sequences of transcripts. Inchworm (Fig. 1a) uses a greedy k-mer based approach for fast and efficient transcript assembly, recovering only a single (best) representative for a set of alternative variants that share k-mers (owing to alternative splicing, gene duplication or allelic variatrinityについては tion). Next, Chrysalis (Fig. 1b) clusters related Nat Biotechnol. 2011 May 15;29(7):644-52. contigs that correspond to portions of alternaグラフアルゴリズムについては tively spliced transcripts or otherwise unique portions of paralogous genes. Chrysalis then http://d.hatena.ne.jp/hoxo_m/20100930/p1 constructs a de Bruijn graph for each cluster 等ご参考ください of related contigs, each graph reflecting the break ties... Chrysalis: RESULTS スプライスバリアントやパラログ由来のコン Trinity: a method for de novo transcriptome assembly ティグを含めてクラスター化In contrast to de novo assembly of a genome, where few large connected sequence graphs can represent connectivities among reads コンティグの共通部分を基にどういう経路を across entire chromosomes, in assembling transcriptome data we expect to encounter とってつながっていくか? >グラフを作成 numerous individual disconnected graphs, >a122:len = 2,560 A C >a123:len = 4,443 >a124:len = 48 >a126:len = 66 Linear sequences TTCGCAA...T G Compact graph with reads C ATCGGAT... Extracting sequences...cttcgcaa...tgatcggat......attcgcaa...tcatcggat... Transcripts Figure 1 Overview of Trinity. (a) Inchworm assembles the read data set (short black lines, top) by greedily searching for paths in a k-mer graph (middle), resulting in a collection of linear contigs (color lines, bottom), with each k-mer present only once in the contigs. (b) Chrysalis pools contigs (colored lines) if they share at least one k 1-mer and if reads span the junction between contigs, and then it builds individual de Bruijn graphs from each pool. (c) Butterfly takes each de Bruijn graph from Chrysalis (top), and trims spurious edges and compacts linear paths (middle). It then reconciles the graph with reads (dashed colored arrows, bottom) and pairs (not shown), and outputs one linear sequence for each splice form and/or paralogous transcript represented in the graph (bottom, colored sequences).

今回はミドリフグのRNA-Seqデータを使用します Tetraodon nigroviridis 最大で全長17 cm 観賞魚としてポピュラーであり 2-3 cm程度の幼魚 が多くの熱帯魚店等で売られている SRR579565 (エントリー: SRA059267) 76bpの150,435,952リード ペアエンド

謝辞 大量遺伝情報研究室の方々 富士ソフト株式会社 森崎さん DDBJの方々 本研究は 文部科学省科学研究費新学術領域研究 生命科学系3分野支援活動 ゲノム支援 および科学研究費基盤(C)の支援を受けております 大量研ではDDBJパイプラインをカンキツ類 野生イネ ミニトマト ゼニゴケ等 の変異解析 パラゴムの木のアセンブルに使用しております DDBJ Read Annotation Pipeline: a cloud computing-based pipeline for high-throughput analysis of next-generation sequencing data. DNA Res. 2013 Aug;20(4):383-90.

実習内容 DDBJ パイプラインを用いた denovo RNAseq アセンブリ DRA (DDBJ Sequence Read Archive)からの配列データのインポート DDBJパイプライン基礎部での Preprocessing ジョブ実行 DDBJパイプライン基礎部での Trinity ジョブ実行 DDBJパイプライン高次解析部(Galaxy)でのジョブ実行 参考資料 DDBJパイプライン(基礎部)へのアカウント作成 DDBJパイプライン(基礎部)のFTPによるデータ転送

今回使用する高速シーケンサー配列の確認 DRAで検索すると早い DRA: http://trace.ddbj.nig.ac.jp/dra 今回は実習用サンプルとしてミドリフグの高速シーケン サーで出力された RNAseq 配列を用いる DRAのwebサイトから 検索 をクリック DRASearchのwebサイトが表示 Organism: に Tetraodon nigroviridis と入力し Search をクリック 今回はアクセッション番号 SRA059267 のデータ をサンプルに用いる Pipelineからインポートするの に必要なので アクセッションをメモしておく クリック

DDBJパイプラインにログイン http://www.ddbj.nig.ac.jp/ クリック クリック http://p.ddbj.nig.ac.jp/ DDBJ, pipeline で検索すると早い デモ用アカウントは 講習内でお伝えします

DRAから配列データをインポート DDBJパイプラインログインする 選択 Import public DRA をクリック Input DRA/ERA/SRA Accession Number に SRA059267 と入力 Add my DRA entry をクリック SRA059267 クリック

DRAから配列データをインポート Confirmation のダイアログが現れる Send a mail when completed importing のチェック を確認 チェックしておくとimport終了時にメールが届く OK をクリック クリック importの進行状況は Import public DRA タブ内で確 認できます webブラウザをリロードして下方の入手リストを確認 実行中のDRAのアクセッションが queued から done になったら完了 ブラウザリロードで確認 選択

Trinity QV Preprocessing Private DRA entry SRA059267 FTP Tetraodon_nigroviridis_RNA-Seq Experimental ACCESION SRX191169 NEXT

Preprocessing 実行条件の指定 Trinity 実行の前に インポートしたデータの前処理として QV によるフィルタリングを行う クオリティ値の選択 DRA からインポートされた データはすべて Phred+33 形式になっています リードの両端から QV <=19 となる塩基をトリム トリム後の長さが 25 bp 未満となった場合は リード全体を削除 ペアの場合は ペアとなるもう一方も同時に除かれる トリム後のリードの中に QV <= 14 のリードが 30 % 以上含まれていた場合 リード全体を削除 ペアの場合は ペアとなるもう一方も同時に除かれる 最下部の NEXT を押し 次画面に進む

Preprocessing 実行および実行状況の確認 Trinity 実行の前に インポートしたデータの前処理として QV によるフィルタリングを行う メールを入力して Run ボタンを押す ステータス画面でジョブの実行状況の確認 Preprocessing でフィルタリングをした クエリファイルを利用してdenovo Assemblly / mapping を行う場合 ジョブIDが必要になる ので 覚えておくこと View ボタンで詳細を確認

Preprocessing 結果の確認 Trinity 実行の前に インポートしたデータの前処理として QV によるフィルタリングを行う リード位置ごとの平均クオリティ値 処理済みの FASTQ ファイルのダウンロード クオリティ値ごとの塩基数 ログの確認 BACK ボタンでジョブ履歴画面に戻る 0.0e+00 2.0e+07 4.0e+07 6.0e+07 8.0e+07 1.0e+08 1.2e+08 Count Count of QS!!!!!!!!! 0!!!!!!!!!!!!!!!!!!!!!!!!!! 10 20 Phred Quality Score 30 40

Trinityの実行 クエリファイルの選択 クエリとなるFASTQ/FASTA配列を選択する方法としてDDBJパイプラインでは 下記の4通りの方法がある FTPクライアントソフトでアップロードした配列を使用 選択 FTP upload webブラウザでアップロードした配列を利用 HTTP upload DRAからインポートした配列を使用する Private DRA entry Preprocessing で処理した配列を使用 Preprocessing 次へ 今回は Preprocessing で処理したクエリを使用する 画面左のメニューから Preprocessing Start を選択 Preprocessing で処理されたファイルは PreprocesingのジョブID _もとのファイル名_e.fastq.bz2 という形式のファイル名になっているので 先ほど確認しておいたジョブIDで始まるものを選択 最下部の NEXT をクリック

denovo Assembly! Trinity NEXT

confirm NEXT

Trinityの実行 実行オプションの指定 library type および 実行時のオプションを指定 今回は501の条件で実行する お好みの長さに変えられます 今回501で 参考 Pipelineで使用している Trinity 実行コマンド クエリファイルの種類 メモリ CPU 関係の指定(固定 FASTA or FASTQ (自動で指定される) Trinity.pl --seqtype fq --JM 100G --bflyheapspacemax 4G --bflygcthreads 1 --CPU 4 --single <クエリファイル名> --output <出力ディレクトリ名> --min_contig_length 201 入力ファイル 出力ファイルの指定 自動で指定される ユーザーの指定するオプション

高次解析部起動 パイプライン基礎部の左のメニューカラムから step-2/workflow を クリック 高次解析部(GALAXY)が起動 Tips: http://p-galaxy.ddbj.nig.ac.jpでurl 直打ちして ツール メニューの Work Flow をクリック 基礎解析と同じパイプライン登録時の メールアドレスとパスワードを入力し ても起動可能 クリック

RNA-Seqのアセンブル結果をインポート TrinityによるRNA-Seqのアセンブル結果を GALAXYにインポートする 左側 ツール メニューの Work Flow をクリック クリック 左側 ツール メニューの COMMN PROCESS の下 import contig form DDBJ Pipeline を クリック 実行したジョブのsamfileのリストのうち 今回は SRR042533 by Preprocessing の import を クリック 中央にツール実行開始の表示が現れ... 左側のヒストリーに読み込み中のファイルが 表示される(緑色になったら終了) ヒストリーの目のアイコンをクリックすると 中央にプレビューされる SRR042533 を確認 クリック クリック

アミノ酸変換 クリック 結果1 さらにその下の transcriptstoorfs (N.A.) Trinity Transcripts to Candidate Peptides をクリック >m.565 g.565 ORF g.565 m.565 type:internal len:207 (-)... DLEMQIEGLKEELIFLKKNHEEELLAMRAQMSGQVHVEVEAAPAEDLTKVMADIREHYES ITAKNQKELETWFNSKSEALNKEMMTQTVTLQTSRSEVTEVKRSLQALQIELESLLGMKA SLEGTLQDTQNRYSMMLAGYQQQVTSLEQQLVQLRADLVRQGQDYQMLLDIKTRLELEIA EYRRLLEGEAAASSSTSSTSSTKTRRL >m.566 g.566 ORF g.566 m.566 type:complete len:216 (+)... MAQSVPVVMFKLVLVGDGGTGKTTFVKRHLTGEFEKKYVATLGVEVHPLFFNTNRGNVKF NVWDTAGQEKFGGLRDGYYIQAQCAIIMFDVTSRVTYKNVPNWHRDLVRVCENIPIVLCG NKVDIKDRKVKAKSIVFHRKKNLQYYDISAKSNYNFEKPFLWLARKLIGDPNLEFVEMPA LAPPEVTMDPALAVQYEKELHVASQTALPDDEDDL* >m.568 g.568 ORF g.568 m.568 type:internal len:227 (-)... GDRFKEDRKAKRLPEKSIDMIILLTDGDPNSGESRIPVIQENVKAAIGGQMSLFSLGFGN DVKYPFLDVMSRENNGLARRIYEGSDAALQLQGFYDEVSSPLLLDVDLRYPDNAVDSLTT NQFSQLFNGSEIVVAGRLKDNDIDNFPVEVFGQGLNDFSEQGQFSVLDWSGMYPDDDYIF GDFTERLWAYLTIQQLLDKSKTGDAEEKANASAEALDMSLRYSFVTP >m.571 g.571 ORF g.571 m.571 type:5prime_partial len:394... ASGGEGTHSSCGSWFNAGAKDFPSVPYSYLDFNDYKCKTSSGEIESYHDVHQVRDCRLVS LLDLALEKDYVRGKVADYMNRLVDMGVAGFRVDACKHMWPGDLSAVYGRLNNLNTKWFPE GSRPFIFQEVIDLGGEAISYTVYVHLGRVTEFKYGAKLGTVFRKWNNEKLMYTKNWGEGW GFMPNGNAVVFIDNHDNQRGHGAGGAAIVTFWDSRLHKMAVAYMLAHPYGVTRVMSSFRW NRHIVNGKDQNDWMGPPSHPDGSTKSVPINPDETCGDGWVCEHRWRQIKNMVIFRNVVNG QPHSNWWDNNSNQVAFGRGNRGFIIFNNDDWDLDVTLNTGLPAGTYCDVISGQKEAGRCT GKQIHVGSDGRAHFRISNRDEDPFVAIHVESKL* >m.573 g.573 ORF g.573 m.573 type:5prime_partial len:224... WEPSWPWQVSLQEYTGFHFCGGSLINENWVVTAAHCNVRTSHRVILGEHDRSSNNENIQV MQVGQVFKHPNYNSYTINNDITLIKLASPAQLNIRVSPVCVAETSDVFPGGMKCVTSGWG LTRYNAPDTPPRLQQVALPLLTNEECRKHWGSKITDLMVCAGASGASSCMGDSGGPLVCE KAGAWTLVGIVSWGSGFCSVSSPGVYARVTMLRAWMDQIIAAN* CPU: 16くらい推奨 Execute をクリック 結果としては 1) アミノ酸配列 2) pfamのドメインとのマッチング 3) その他ORF候補 が返ってくる 16くらい推奨 クリック 結果2 結果3 # # target name #------------------Actin Apolipoprotein domain accession ---------PF00022.14 PF01442.13 query name -------------------m.1 m.3 --- full sequence ---- --- best 1 domain ---- --- domain number estimation ---accession E-value score bias E-value score bias exp reg clu ov env dom rep inc ---------- --------- ------ ----- --------- ------ ------- --- --- --- --- --- --- --2.8e-162 539.5 0.0 3.2e-162 539.3 0.0 1.0 1 0 0 1 1 1 1 1.1e-38 132.6 10.6 1.1e-38 132.6 7.3 1.8 2 0 0 2 2 2 2 description of target --------------------Actin Apolipoprotein A1/A4/E comp1002_c0_seq1 0 621 ID=m.565;Name=ORF_g.565_m.565_type:internal_len:207_(-)_(g.565,_m.565); 0-0 621 1 621 0 comp1006_c0_seq1 37 685 ID=m.566;Name=ORF_g.566_m.566_type:complete_len:216_(+)_(g.566,_m.566); 0 + 37 685 1 648 0 comp1010_c0_seq1 2 683 ID=m.568;Name=ORF_g.568_m.568_type:internal_len:227_(-)_(g.568,_m.568); 0-2 683 1 681 0

RNA-Seq由来のアミノ酸配列をBLASTPにかける 左側 ツール メニューの Work Flow の下 ANNOTATION FOR DE NOVO ASSEMBLED SEQ. の下 BLASTP をクリック クリック Select database: は今回 Swiss-ProtVertebrates を選択 Expectation Value: は今回 -20と入力 クリック Execute をクリック BLASTP error/warning reports はBLASTのエラー表示など クリック BLASTP on data... をクリックするとフロッピーのアイコンが出て くるのでそのアイコンをクリックするとBLASTP結果のダウンロードが 始まる クリック

参考資料 DDBJパイプライン(基礎部)へのアカウント作成

http://p.ddbj.nig.ac.jp/ DDBJ (http://p.ddbj.nig.ac.jp/) New account UserID Registration e

1. FTP Upload 4

FTP client PC DDBJ FTP

FTP client Cyberduck 1.http://cyberduck.ch/ 2.

1.Cyberduck 2. 3. FTP-SSL(Explicit AUTH TLS) 4. (pdata.nig.ac.jp) (21) 5.Pipeline guest 6.

Query file Upload 1. Query submission DRA000001 sample Bacillus subtilis subsp. natto BEST195 without plasmid pbest195l Read : 9,977,388 Read length : 36 2.Upload & 3.Upload Pipeline

Query file Upload 1 1.Pipeline Upload Single-end 2.Select a FASTA/FASTQ file Upload Paired-end 2.Select a FASTA/FASTQ file 3.Single-end 3.Paired-end 4.read 4.read1 file 5. 5.read1 file read2 file 6.

1. 2.Study title 3. 4.Assembly/Mapping

Query file Upload Upload 1.Upload FASTA/FASTQ(FTP client) 2. 3.