メタゲノム解析(2017NGSハンズオン講習会-2017年8月31日)

Similar documents
GWB

NGSデータ解析入門Webセミナー

PowerPoint Presentation

AJACS18_ ppt

GWB

相同性配列検索ツール:GHOST-MPと ヒト口腔内メタゲノム解析

シーケンサー利用技術講習会 第10回 サンプルQC、RNAseqライブラリー作製/データ解析実習講習会

国際塩基配列データベース n DNA のデータベース GenBank ( アメリカ :Na,onal Center for Biotechnology Informa,on, NCBI が運営 ) EMBL ( ヨーロッパ : 欧州生命情報学研究所が運営 ) DDBJ ( 日本 : 国立遺伝研内の日

PowerPoint プレゼンテーション

Maser RNA-seq Genome Resequencing De novo Genome Sequencing Metagenome ChIP-seq CAGE BS-seq

目次 Ion Reporter 概要とメタゲノム解析 Ion16S Metagenome Kit データ解析概略 解析実行手順 解析実行結果 カスタムプライマー利用時のWorkflow 作成 サポート情報 p.3 p.9 p.14 p.19 p.26 p.35 2

リード・ゲノム・アノテーションインポート

プレゼンテーション2.ppt

GWB_RNA-Seq_

KEGG.ppt

PowerPoint プレゼンテーション

第 10 回シーケンス講習会 RNA-seq library 調製法の特徴と選び方 理化学研究所 (RIKEN) ライフサイエンス技術基盤研究センター (CLST) 機能性ゲノム解析部門 (DGT) ゲノムネットワーク解析支援施設 (GeNAS) 野間将平

GWB

バクテリアゲノム解析

PowerPoint Presentation

ChIP-seq

RNA-seq

Slide 1

1. MEGA 5 をインストールする 1.1 ダウンロード手順 MEGA のホームページ ( から MEGA 5 software をコンピュータにインストールする 2. 塩基配列を決定する 2.1 Alignment E

PrimerArray® Analysis Tool Ver.2.2

Microsoft PowerPoint - 社外資料_TruSeq Synthetic Long-Read DNA Library Prep.pptx

Slide 1

機能ゲノム学(第6回)

Microsoft PowerPoint - 阿部貴志.ppt


CLC Genomics Workbench ウェブトレーニングセミナー: 変異解析編

予算申請ウェビナー ウイルス、微生物編

■リアルタイムPCR実践編

Slide 1

サンプルシート作成ツール: Illumina Experimental Manager(IEM)の使用方法 -最新バージョンIEMv1.15のご紹介-

<4D F736F F F696E74202D2091E EF88E78EED8A7789EF8CA48B868F5789EF815196E593632E >

IonTorrent RNA-Seq 解析概要 サーモフィッシャーサイエンティフィックライフテクノロジーズジャパンテクニカルサポート The world leader in serving science

分子系統解析における様々な問題について 田辺晶史

Troubleshooting Nextera Sample Preparation

PowerPoint プレゼンテーション

機能ゲノム学

分子系統解析における様々な問題について 田辺晶史

アノテーション・フィルタリング用パイプラインとクリニカルレポートの作成

Infinium BeadChip COGS BeadChip 4 * iselect 3 SNP 25 1 SNP NGS Sequencing by Synthesis SBS HiSeq MiSeq WGS 1 RNA-Seq ChIP-Seq 1 1 * icogs BCAC OCAC PR

Slide 1

Microsoft PowerPoint - プレシジョン創薬概論 P_ex_velvet.PPT

RNA-seq

リアルタイムPCR実験のためのガイドライン

141025mishima

MiSeq Reporter Software Overview

Slide 1

特論I

手順 ) 1) プライマーの設計 発注変異導入部位がプライマーのほぼ中央になるようにする 可能であれば 制限酵素サイトができるようにすると確認が容易になる プライマーは 25-45mer で TM 値が 78 以上になるようにする Tm= (%GC)-675/N-%mismatch

thermofisher.com mirVana miRNA mimics/inhibitors 検索マニュアル

Bacterial 16S rDNA PCR Kit

DNA/RNA調製法 実験ガイド

Microsoft PowerPoint - BIセンターセミナー2013.pptx[読み取り専用]

特論I

Microsoft PowerPoint - Ion Reporter?ソフトウェアを用いた変異解析4.6.pptx

計算機生命科学の基礎II_

Bioinformatics2

Microsoft PowerPoint - 8_TS-0894(TaqMan_SNPGenotypingAssays_製品情報及び検索方法再修正.pptx

Sequencher 4.9 Confidence score Clustal Clustal ClustalW Sequencher ClustalW Windows Macintosh motif confidence Sequencher V4.9 Trim Ends Without Prev

配付資料 自習用テキスト 解析サンプル配布ページ 2

Microsoft PowerPoint - T05_田畑先生【CC-BY】.pptx

Agilent Microarray Total Solution 5 5 RNA-Seq 60 mer DNA in situ DNA 5 2 QC 4200 TapeStation 2100 / mirna CGHCGH+SNP ChIP-on-chip 2 mirna QC

Bacterial 16S rDNA PCR Kit

NGS_KAPA RNA HyperPrep Kit

Transcription:

2017 年 NGS ハンズオン講習会 8 月 31 日 メタゲノム解析 森宙史 (Hiroshi Mori), Ph.D. 国立遺伝学研究所生命情報研究センター hmori@nig.ac.jp 1

数 % ぐらいの菌しか培養できない 2

細菌群集を解析するための様々な実験手法 細菌群集を解析するために使用されてきた実験手法 培養による細菌コロニーのカウント法 培養困難な細菌は解析出来ない 染色による細菌の数のカウント法 細菌の数しかわからない FISH 法による特定の細菌の染色法 プローブ配列を設計する必要がある DGGE 法による細菌群集の解析法 バンドパターンのみであり 細菌群集の全体像をとらえるのは困難 細菌群集が形成するシステムを詳細に解析するためには これらの手法では断片的な情報しか得られないため 細菌群集についての理解はあまり進んでいなかった 3

16S ribosomal RNA (16S rrna) リボソームの核となるRNAの一つ 全ての細菌が所持 配列間の結合によって高次構造を形成 系統マーカー遺伝子の代表例 100 万本以上の配列がデータベースに登録済み 全長 1500 base 16S rrna 遺伝子は広範囲の細菌における系統推定を行う上で最適な遺伝子 4 Woese, C. et al. 1990

16S rrna gene amplicon sequencing analysis ( メタ 16S 解析 ) Pre-analysis (Remove Primer, Chimera etc.) DNA extraction Sequence clustering with species level by CD-HIT-EST or UCLUST, etc. PCR amplification DNA Sequencing Taxonomic assignment and Comparison between samples Togo picture gallery by DBCLS is licensed under a Creative Commons Attribution 2.1 Japan license (c) Who s there? 5

Metagenomic sequencing analysis ( メタゲノム解析 ) Metagenomic reads Assemble MEGAHIT, MetaPlatanus IDBA-UD etc. DNA extraction Contig sets Gene finding MGA, MetaGeneMark Gene sets DNA Sequencing BLASTP Togo picture gallery by DBCLS is licensed under a Creative Commons Attribution 2.1 Japan license (c) Sample1 Metadata Sample2 Metadata Comparative metagenomics Gene Function abundance Pathway abundance Pathway reconstruction Taxonomic abundance Who s there? What are they doing? 6

メタ 16S 解析 利点 安価かつ少量の DNA から系統組成が得られる reference 配列に依存しない解析も可能 マシンパワーは少なくて済み 解析ツールも普及 (QIIME mothur 等 ) 欠点 PCR バイアスの存在 種以下は分解能に問題あり 個々の系統の機能が不明 メタゲノム解析 利点 系統組成と遺伝子機能組成が得られる 実験によるバイアスが少ない 優占系統のドラフトゲノムの構築 ( 条件が良ければ可能 ) 欠点 reference 配列に依存した解析 目的依存で解析手法が変化し マシンパワーも必要 7

16S rrna 遺伝子配列を用いた既知 Bacteria Phylum の系統樹 Genome sequence available No genome sequence available 8

16S rrna gene amplicon sequencing analysis ( メタ 16S 解析 ) Pre-analysis (Remove Primer, Chimera etc.) DNA extraction Sequence clustering with species level by CD-HIT-EST or UCLUST, etc. PCR amplification DNA Sequencing Taxonomic assignment and Comparison between samples Togo picture gallery by DBCLS is licensed under a Creative Commons Attribution 2.1 Japan license (c) Who s there? 9

PCRに使うプライマーは大きく分けて2 種類 系統特異的なプライマー 系統 Universalなプライマー 両者は何が違うのか? 10

系統 ( 機能 ) 特異的プライマー 例えば 腸管出血性大腸菌とそうではない大腸菌を判別したい Fusarium oxysporum のレースを判別したいなどの病原性の有無の判定を迅速に行いたい場合に使われたりする 遺伝子レベルで病原性のメカニズムがわかっている生物の場合 ある遺伝子を持っているか否か? ある遺伝子に一塩基置換があるか無いか? が 病原性の有無に重要であるような場合には 非常に有効なプライマーが設計可能な場合が多い 11

系統特異的プライマーの特徴 系統判定には増幅産物のシーケンスをしなくても大丈夫 (PCR 後の電気泳動でバンド出るか否か ) どの遺伝子を使うかはバラエティに富む PCR 条件を厳密に検討する必要がある ( 非特異的増幅の回避が重要 ) degenerate primer が少ない degenerate primer とは? 12

Degenerate primer 例 : 5 -GTGCCAGCMGCCGCGGTAA-3 曖昧 ( 縮重 ) 塩基を使ったプライマー 曖昧塩基 塩基 1 塩基 2 塩基 3 塩基 4 R A G Y C T S G C W A T K G T M A C B C G T D A G T H A C T V A C G N A C G T 13

Universal プライマー 幅広い系統群を増幅できるプライマー用途 系統の判別 群集組成を見る 特徴 増幅産物の系統判別には基本的にシーケンシングが必要 degenerate primer が多い ターゲットになりうる遺伝子は少数 14

菌類 ( 糸状菌 酵母など ) 28S rrna 遺伝子 18S rrna 遺伝子 COX1 COX2 rdna ITS1 (internal transcribed spacer), rdna ITS2 18S rdna ITS1 5.8S rdna ITS2 28S rdna 15

Virus (RNA virus の場合 ) Tospovirus N タンパク質 Comoviridae RNA-dependent RNA polymerase Tombusviridae RNA-dependent RNA polymerase Flexiviridae RNA-dependent RNA polymerase 外被タンパク質 (Coat protein) タバコモザイクウイルスなどの棒状ウイルス外被タンパク質 16

細菌 16S rrna 遺伝子 rdna ITS 真核生物 : 18S rdna ITS1 5.8S rdna ITS2 28S rdna 原核生物 : 16S rdna ITS 23S rdna 5S rdna 17

16S rrna gene amplicon sequencing analysis ( メタ 16S 解析 ) Pre-analysis (Remove Primer, Chimera etc.) DNA extraction Sequence clustering with species level by CD-HIT-EST or UCLUST, etc. PCR amplification DNA Sequencing Taxonomic assignment and Comparison between samples Togo picture gallery by DBCLS is licensed under a Creative Commons Attribution 2.1 Japan license (c) Who s there? 18

メタ 16S 解析パイプラインの例 : Ion PGM リードの前処理 Ion PGM リード fastq ファイル N を含むリードを除外 長さフィルタ ( 増幅断片長の中央値 ± 約 50 base 以内のリードのみ採用 ) FASTQ から FASTA と QUALITY ファイルへの変換 クオリティフィルタ (Average QV >= 25) TagCleaner による 5 Primer 除去 TagCleaner による 3 Primer 除去 前処理済み Ion PGM リード 19

キメラ除去 前処理済み Ion PGM リード UCLUST を用いて全サンプルのリードをクラスタリングし OTU 化 (Identity 97%, coverage 80%) OTU 代表配列 Reference 16S rrna gene database UCHIME Reference mode でキメラを検出 UCHIME De novo mode でキメラを検出 Broad Institute が提供している Type Strains + complete or draft genomes の 5181 本の高精度 16S データ 両 mode でキメラとされた OTU をキメラと判定 その OTU を構成する全リードを除去 キメラ除去済み OTU 各 OTU のサンプルごとの構成本数をまとめた OTU Table 20

系統アサインメント キメラ除去済み OTU RDP Classifier を用いて bootstrap cutoff >= 50% で各 OTU の代表配列を系統アサインメント 各 OTU のサンプルごとのリード数を整理した OTU table Domainレベルの系統組成 Phylumレベルの系統組成 Classレベルの系統組成 Orderレベルの系統組成 Familyレベルの系統組成 Genusレベルの系統組成 各 OTU の系統情報とサンプルごとのリード数を整理した OTU table 21

http://qiime.org/ QIIME citations since publication Web of Science: ~3300 Google Scholar: ~5050 22

https://docs.qiime2.org/2017.7/plugins/available/ 23

https://docs.qiime2.org/2017.7/tutorials/ 24

https://mothur.org/wiki/main_page 25

http://www.drive5.com/usearch/ http://www.drive5.com/usearch/manual/pipe_examples.html 26

論文の Methods の記述としてダメな例 sequence data were analyzed by QIIME sequence data were analyzed by mothur sequence data were analyzed by USEARCH としか書かないのはダメ それらはコマンドの集合体であるため 必ず どのコマンドを使ってどのようなパラメータ設定で 何をしたのかまで書く 27

Matsuki T., Yahagi K., 28 Mori H., et al, Nature Commun., 2016

http://metagenomics.anl.gov/ 29

30

Metagenomic sequencing analysis ( メタゲノム解析 ) Metagenomic reads Assemble MEGAHIT, MetaPlatanus IDBA-UD etc. DNA extraction Contig sets Gene finding MGA, MetaGeneMark Gene sets DNA Sequencing BLASTP Togo picture gallery by DBCLS is licensed under a Creative Commons Attribution 2.1 Japan license (c) Sample1 Metadata Sample2 Metadata Comparative metagenomics Gene Function abundance Pathway abundance Pathway reconstruction Taxonomic abundance Who s there? What are they doing? 31

細菌群集 ( 山本 森 山田 黒川, 2014 生命のビッグデータ利用の最前線 シーエムシー出版より一部改変 ) DNA 抽出 シーケンスライブラリ作成 シーケンシング 塩基配列データ メタデータ記録 塩基配列データのクオリティコントロール メタデータリスト Contig / Scaffold 配列 メタゲノムアセンブル 高精度塩基配列データ 機能情報付きアミノ酸配列 DB ( 例 :KEGG, GenBank nr 等 ) 遺伝子予測 遺伝子のアミノ酸配列データ 配列相同性検索 各遺伝子の機能と群集中の存在量 アセンブル結果への配列マッピング 各系統の群集中の存在量 統計学の手法を用いた比較メタゲノム解析 その細菌群集の特異性や他の細菌群集との類似性等の知見 配列相同性検索 16S rrna 遺伝子配列 DB ( 例 :SILVA, RDP 等 ) 既知のメタゲノム解析データのDB ( 例 :MG-RAST, MicrobeDB.jp 等 ) 32

Next Generation Sequencer (NGS) ( データはちょっと古いです ) Sequencer Name Specific property Read length (base) ABI 3730xl Sanger 500 1000 384 Read number / run Ion Proton Emulsion PCR 200 80,000,000 MiSeq Bridge PCR 300 30,000,000 454 GS FLX+ Emulsion PCR 700-1,000 1,000,000 HiSeq 2500/4000 Bridge PCR 150 or 250 ~3,200,000,000 PacBio RS II / Sequel Single molecule >7,000 >50,000 MinION Single molecule > 数 kb >10,000 33

目的に応じたハードウェアのスペックの目安 原核 真核 メタゲノム Transcriptome アセンブル 特に重要なハードウェア : メモリ CPU 原核生物のゲノムアセンブル数十 GB メモリ (50GB あれば十分 ) 1CPU 数コア Transcriptome アセンブル今の HiSeq のリード 1 億 pairs なら 120GB あれば十分 ( 例えば Trinity なら 100 万 pairs につき 1GB メモリが目安 ) (https://github.com/trinityrnaseq/trinityrnaseq/wiki/) メタゲノムのアセンブル組成が単純な群集なら原核生物のアセンブルと同様群集が多様な場合 大量のリードが必要であり 数百 GB- 数 TB メモリが必要な場合もある 十数コア以上 真核生物のゲノムアセンブルゲノムサイズ どれくらい hetero か 等に依存する数十 GB- 数 TB メモリ 十数コア以上 少なくとも 100GB 以上のメモリをのせないと アセンブルは辛い 34

目的に応じたハードウェアのスペックの目安 数千本以上の配列相同性検索 特に重要なハードウェア : CPU ゲノムやメタゲノムの遺伝子アノテーション 複数ゲノムの比較解析 入力配列が数千本以上になることが多く 計算を並列化して高速化する必要がある 現在の nr 相手の BLASTX や BLASTP は 並列化しても各プロセスで 5GB ほどメモリを使用するので メモリもそれなりに必要 CPU 数 コア数が非常に重要 メモリもある程度必要 35

目的に応じたハードウェアのスペックの目安 マッピングツールでの Reference ゲノムへのマッピング 特に重要なハードウェア : ディスク Resequencing, RNA-Seq, ChIP-Seq 解析におけるマッピング リードのゲノムへのマッピングは高速でメモリ使用量も少ない 結果の SAM ファイルや BAM ファイルが数十から数百 GB になったりする samtools 等で sort したりすると その規模のファイルが何個もできる マッピングを頻繁にするのなら ディスクは少なくとも十数 TB は必要 36

目的に応じたハードウェアのスペックの目安 1. 原核 真核 メタゲノム Transcriptome アセンブル 特に重要なハードウェア : メモリ CPU 2. 数千本以上の配列相同性検索 特に重要なハードウェア : CPU 3. マッピングツールでの Reference ゲノムへのマッピング 特に重要なハードウェア : ディスク 37

午後からの実習で用いるメタゲノムデータ Backhed F. et al 2015 の 4 days の新生児の 1 サンプルを 100 万 pair に ダウンサンプリングしたデータ 38

ヒト乳児腸内細菌群集 ( 山本 森 山田 黒川, 2014 生命のビッグデータ利用の最前線 シーエムシー出版より一部改変 ) DNA 抽出 シーケンスライブラリ作成 シーケンシング 塩基配列データ メタデータ記録 メタデータリスト Contig 配列 Illumina HiSeq 2000 MEGAHIT メタゲノムアセンブル 塩基配列データのクオリティコントロール Trimmomatic 高精度塩基配列データ 100 万 pairs 機能情報付きアミノ酸配列 DB ( 例 :KEGG, UniProt KB 等 ) Prodigal 遺伝子予測 遺伝子のアミノ酸配列データ 配列相同性検索 各遺伝子の機能と群集中の存在量 BLASTP アセンブル結果への配列マッピング Bowtie 2 各系統の群集中の存在量 統計学の手法を用いた比較メタゲノム解析 その細菌群集の特異性や他の細菌群集との類似性等の知見 配列相同性検索 BLASTN 16S rrna 遺伝子配列 DB ( 例 :SILVA, RDP 等 ) 既知のメタゲノム解析データのDB ( 例 :MG-RAST, MicrobeDB.jp 等 ) 39

今日の実習 ほぼ全てターミナル上で行います cd cd Test Test が Working ディレクトリです Test/ には Data/ と Program/ があります コマンドは全て CommandMemo3.txt に書いてありますので コピペで良いです マシンのメモリが 8GB 以下の場合は Bio-Linux は 4GB で起動しましょう 40

今日の実習の参考資料 https://2017-ucsc-metagenomics.readthedocs.io/en/latest/ 41

PhiX について https://jp.illumina.com/content/dam/illuminamarketing/apac/japan/documents/pdf/2013_ill umina_techsupport_session16.pdf 42

塩基配列の類似性検索ツールにも様々なものが存在する Reference と近ければ Mapper 系 (Bowtie 2 等 ) Reference と遠いのなら BLAST 系 (Chaisson J. M. et al. 2012) 43

ゲノムアセンブルの二大戦略 Overlap-Layout-Consensus k-mer の共有やローカルアラインメント等でリード間の overlap を見つけて 短い Contig を作成し さらに Contig 間を overlap をもとに結合 (layout) リードの overlap を領域ごとに集めてマルチプルアラインメント等をして consensus をとることでアセンブルする 例 : Celera Assembler, Newbler, Mira, Canu de Bruijn Graph リードを overlap ありの k-mer に分割して 多数のリード間の k-mer の共有を de Bruijn graph というグラフ構造で表現して グラフ上で最短経路を見つける問題を解く 44

メタゲノムアセンブルツールの例 IDBA-UD (Peng et al. 2012) 短い k-mer でアセンブルして Contig 作成 (Contig 間の coverage の差はある程度許容する ) その Contig 群を用いて もう少し長めの k-mer でアセンブルして Contig 作成 これを繰り返す 最後に Contig 間をまたがる pair リード (paired-end や mate pair) の情報をもとに scaffolding する 短い k-mer でシーケンスエラー 長い k-mer でリピートの問題に対処 MEGAHIT (Li et al. 2015) Contig 作成の方法は IDBA-UD と類似しているが de Bruijn graph の表現方法が簡素化されているため (http://alexbowe.com/succinctdebruijn-graphs/) 高速で省メモリ また coverage が小さい k-mer の扱いについて色々と工夫している scaffolding はしない metaspades (Nurk et al. 2017) Contig 作成の方法は IDBA-UD と類似しているが リードデータ中の strain レベルの配列多様性を Contig/Scaffold においてもできるだけ保つために サイトに多型があると Contig を分岐する傾向が強い 45

今日の Prokka (https://github.com/tseemann/prokka/blob/master/readme.md) MetaProdigal: CDS prediction Aragorn: trna CDS については 機能アノテーションをするために 次の 2 step を行う BLASTP で UniProt KB 中の Evidence code が real protein or transcript evidence となっている Prokaryote 由来の protein のアミノ酸配列に対して検索 HMMER3 で Pfam と TIGRFAM に対して検索 上記 2 step で閾値以上 (BLAST なら E-value <1e-6) で Hit しなければ hypothetical protein とする 46

メタゲノムデータからの系統組成推定 16S rrna 遺伝子を用いる手法利点 : Reference 配列 DB が充実 (RDP, SILVA, GreenGenes など ) 欠点 : ゲノム内コピー数の問題 系統マーカータンパク質の遺伝子 (rpob 等 ) を用いる手法利点 : 1 ゲノム 1 コピー欠点 : Reference 配列 DB が貧弱 リードや contig のマッピング or k-mer 組成を用いる手法利点 : Virus, 原核, 真核生物を同時解析可能欠点 Reference 配列 DB が貧弱 Genus 以下の精度がかなり落ちる 水平伝播配列の扱い 47

パスウェイデータベース 先週行われた AJACS 河内の九州大の山西先生の資料が参考になります http://motdb.dbcls.jp/?ajacs66 http://motdb.dbcls.jp/?plugin=attach&pcmd=op en&file=170824pathway_db_yamanishi_submit _r.pdf&refer=ajacs66 メタゲノムでは KEGG の KEGG Orthology を遺伝子機能の単位として使うことが多い 48

ヒト乳児腸内細菌群集 ( 山本 森 山田 黒川, 2014 生命のビッグデータ利用の最前線 シーエムシー出版より一部改変 ) DNA 抽出 シーケンスライブラリ作成 シーケンシング 塩基配列データ メタデータ記録 メタデータリスト Contig 配列 Illumina HiSeq 2000 MEGAHIT メタゲノムアセンブル 塩基配列データのクオリティコントロール Trimmomatic 高精度塩基配列データ 100 万 pairs 機能情報付きアミノ酸配列 DB ( 例 :KEGG, UniProt KB 等 ) MetaProdigal 遺伝子予測 遺伝子のアミノ酸配列データ 配列相同性検索 各遺伝子の機能と群集中の存在量 BLASTP アセンブル結果への配列マッピング Bowtie 2 各系統の群集中の存在量 統計学の手法を用いた比較メタゲノム解析 その細菌群集の特異性や他の細菌群集との類似性等の知見 配列相同性検索 BLASTN 16S rrna 遺伝子配列 DB ( 例 :SILVA, RDP 等 ) 既知のメタゲノム解析データのDB ( 例 :MG-RAST, MicrobeDB.jp 等 ) 49

代表的なメタゲノムデータベース NCBI Taxonomy + SRA https://www.ncbi.nlm.ni h.gov/taxonomy/ GOLD https://gold.jgi.doe.gov/ 運営者 配列データ メタゲノム / メタ 16S 区別 系統組成 遺伝子機能組成 サンプル数 (2017 8 月 ) NCBI, USA 673,079 JGI, USA 24,922 ゲノム等との統合化 IMG/M https://img.jgi.doe.gov/c gi-bin/m/main.cgi MG-RAST http://metagenomics.an l.gov/index.html EBI-Metagenomics https://www.ebi.ac.uk/ metagenomics/ JGI, USA Chicago U. USA (Reads + Contigs) ( メタゲノムのみ収録 ) 7,982 47,313 (303,594) EBI, EU 74,342 MicrobeDB.jp NIG, 60,551 50

微生物統合 DB MicrobeDB.jp http://microbedb.jp/ 微生物に関するデータを系統 遺伝子 環境の 3 つの軸に沿って整理 統合し フル RDF の DB を構築 約 90 億トリプルから構成 12 種類のオントロジー & ボキャブラリの開発 公開済みの約 6 万サンプルのメタ 16S メタゲノムデータ 約 1 万 7 千株のゲノム ドラフトゲノムデータを収録 195 種類の Stanza の開発 解析プロトコルの標準化および解析パイプラインの開発 単細胞の真菌類 藻類のゲノムデータも整理 統合 自動更新技術の開発 51

52

MG-RAST v.3 Pipeline ftp://ftp.metagenomics.anl.gov/data /manual/mg-rast-manual.pdf 53

Preprocessing: SolexaQA (Average QV, Length, N, 3 Trim) Metagenome or Amplicon: Calculate Shannon entropy of first 20 sequence in reads Dereplication and DRISEE: Identify duplicate in which first 50 bp identical reads >20 times Screening: Bowtie2 against specified organism genome to remove host genome Gene Calling: FragGeneScan (>75 bp) AA Clustering: UCLUST (AA Identity 90%, representative sequence is the longest one) Protein Identification: sblat (OpenMP parallelzation) against M5nr (GenBank, SEED, IMG, UniProt, KEGG, eggnog) Annotation Mapping: SEED Subsystems, IMG terms, COG, eggnogs, GO Abundance Profiles: E-value, Identity, Alignment length can be specified rrna pipeline BLAT search against 90% clustered SILVA. Identified reads are then clustered at 97% identity. Longest sequence is the representative of the cluster. BLAT searched against the M5rna 54 (SILVA, Greengenes, RDP)