Microsoft PowerPoint - 阿部貴志.ppt - PDF 無料ダウンロード

微生物ゲノムの共通プロトコルによる遺伝子配列情報の提供国立遺伝学研究所生命情報 DDBJ 研究センター阿部貴志 http://gtps.ddbj.nig.ac.jp/

DNA Data Bank of Japan International Nucleotide Sequence Database Collaboration (INSDC) (DDBJ) Growth of the International Nucleotide Sequence Database (INSD) USTPO USA Europe EPO NCBI EBI DDBJ JPO Japan > 50 M rentries > 50 billion nucleotides

Genome Project の動向 Ongoing genomes Eukaryotes: 599 Prokaryotes : 1,002 Total: 1,995 359 Genome OnLine Database (http://www.genomesonline.org/)

GIB: Genome Information Broker http:// ://gib.genes.nig.ac.jp/ Number of Strains Archaea 26 Bacteria 293 --------------------------- Total 319 (22-Mar Mar-2006)

INSD から公開されているゲノムデータの問題点遺伝子領域予測プログラムの違い最短 ORF 長の設定が異なる相同性検索の threshold 値の設定の違い相同性検索モチーフ解析のリファレンスデータベースの差異プロダクト記載が不統一 ORF 決定の根拠 ( 確かさ ) が不明アップデートが不確定

The diversity of ORF prediction programs Other 17% Unknown 15% GLIMMER 37% GeneSmith+ Ohter program 1% GeneSmith 2% GeneHacker GeneHacker+ 2% GenomeGambler 2% Genemark 7% Genemark+ Other program 2% Glimmer+ Other program 15%

Diversity of the minimum length used in prediction program length >20 >(=)30 >33.3aa (100bp) >40aa >50aa >60aa >66.6aa (200bp) >80 >100aa >150aa >200aa >300aa >400aa number 1 25 3 1 7 4 1 2 6 1 1 1 1

同じプロダクトでも記載内容が異なる ~ Hahella chejuensis KCTC 2396 CDS 1023521..1024429 /gene="argb" /locus_tag="hch_01027" /EC_number="2.7.2.8" CDS complement(1141715..1142587) /note="cog0548" COG /codon_start=1 /locus_tag="af_1280" /transl_table=11 /note="similar to GB:L77117 SP:Q60382 PID:1592260 percent ~ Agrobacterium /product="acetylglutamate identity: tumefaciens 56.06; C58 identified circular kinase" by chromosome sequence similarity; CDS /protein_id="abc27909.1" putative" complement(373582..374466) /db_xref="gi:83631942" /codon_start=1 /gene="agr_c_666" homologyに /translation="mldrdnalqvaavlskalpyiqrfagktivikyggnamtdeelk /transl_table=11 /note="acetylglutamate kinase PA5323 {imported} - 関する記載 NSFARDVVMMKLVGINPIVVHGGGPQIGDLLQRLNIKSSFINGLRVTDSETMDVVEMV /product="acetylglutamate Pseudomonas aeruginosa kinase (strain(argb)" PAO1)" LGGSVNKDIVALINRNGGKAIGLTGKDANFITARKLEVTRATPDMQKPEIIDIGHVGE /protein_id="aab89966.1" /codon_start=1 VTGVRKDIITMLTDSDCIPVIAPIGVGQDGASYNINADLVAGKVAEVLQAEKLMLLTN /db_xref="gi:2649301" /transl_table=11 IAGLMNKEGKVLTGLSTKQVDELIADGTIHGGMLPKIECALSAVKNGVHSAHIIDGRV /translation="menvelliealpyikdfhsttmvikigghamvndriledtikdi /product="agr_c_666p" PHATLLEIFTDEGVGTLITRKGCDDA" VLLYFVGIKPVVVHGGGPEISEKMEKFGLKPKFVEGLRVTDKETMEVVEMVLDGKVNS /protein_id="aak86197.1" KIVTTFIRNGGKAVGLSGKDGLLIVARKKEMRMKKGEEEVIIDLGFVGETEFVNPEII /db_xref="gi:15155294" /productに RILLDNGFIPVVSPVATDLAGNTYNLNADVVAGDIAAALKAKKLIMLTDVPGILENPD /translation="mtsseseiqarllaqalpfmqkyenktivvkygghamgdstlgk DKSTLISRIRLSELENMRSKGVIRGGMIPKVDAVIKALKSGVERAHIIDGSRPHSILI AFAEDIALLKQSGINPIVVHGGGPQIGAMLSKMGIESKFEGGLRVTDAKTVEIVEMVL IDのような記載 ELFTKEGIGTMVEP" AGSINKEIVALINQTGEWAIGLCGKDGNMVFAEKAKKTVIDPDSNIERVLDLGFVGEV VEVDRTLLDLLAKSEMIPVIAPVAPGRDGATYNINADTFAGAIAGALHATRLLFLTDV PGVLDKNKELIKELTVSEARALIKDGTISGGMIPKVETCIDAIKAGVQGVVILNGKTP HSVLLEIFTEGAGTLIVP" ~ Archaeoglobus fulgidus DSM 4304 /noteにプロダクト名称

Agrobacterium tumefaciens C58 circular chromosome (Cereon) Agrobacterium tumefaciens C58 circular chromosome (U. Washington)

GTPS ~ Gene Trek in Procaryote Space ~ 微生物ゲノムの一斉アノテーション chromosome & plasmid ver. 2003 strains 123 Archaea Bacteria 14 109 2004 183 17 166 2005 > 300 strains ( 予定 )

GTPS overview ゲノム & プラスミド RNA 領域の探索 & マスキング Glimmer2.0 による ORF 予測 RBSfinder (DDBJ version)* INSD のCDS DB: DAD of BCT division blastp & InterProScan ORF のランク分けへ

Grading of CDS (A and B) Grade blastp hit Coverage Quality InterProScan hit Quality AAAA AAA AA A BBBB BBB BB B & 70% (CDS Matched protein) or Valid protein Putative membrane or unknown proteins Significant motif Unknown motif No hit Significant or unknown motif

Grading of CDS (subcategory) 1 = 完全一致 2 = 3' のみ一致 3 = INSD にない ( 新規にみつかった ) 4 = Glimmer で予測されない

Result AAAA-A BBBB-B C D E X ver.. 2003 ver.. 2004 283,247 7,208 4,680 79,779 6,788 466,681 431,672 10,250 7,511 107,382 10,225 687,110 848,383 1,254,150

Correlation of number of ORFs and genome size 9000 8000 AAAA-C C & D1-D3 D3 grade (this study) INSD 7000 Number of ORFs 6000 5000 4000 3000 Aeropyrum pernix K1 2000 1000 Mycobacterium leprae TN 0 0 1,000,000 2,000,000 3,000,000 4,000,000 5,000,000 6,000,000 7,000,000 8,000,000 9,000,000 genome size [bp]

E. coli K12 のアノテーション (Acc#: U00096 & AP009048) に加えられた ORF ECK4368:JW5891:b4568 /gene="ytja" /product="hypothetical protein" /translation="mvketlmfrwgiiflvia LIAAALGFGGLAGTAAGAAKIVFVVGII LFLVSLFMGRKRP"

GTPS annotation data are freely available at http://gtps.ddbj.nig.ac.jp/

GTPS にかかる計算時間に関してプログラム名プログラムの機能 1 2 3 Glimmer BlastP InterPro 遺伝子領域探索プログラムアミノ酸配列に基づく相同性領域の探索遺伝子領域内のモチーフ探索この protocaol では InterPro の計算時間が他と比べ圧倒的にかかるそのため PC クラスタ上での分散環境を構築し実行を行っている

BLAST と InterProScan(IP) との計算時間の計測 Time (h) 1000 900 800 700 600 500 400 300 200 100 0 217 days 1E+06 5E+05 2E+05 1E+05 50000 20000 10000 5000 2000 1000 500 200 100 7days 10hours BLAST@NIG(1cpu) BLAST@NIG(16cpu) IP@NIG(16cpu) Number of CDS 約 400 倍も計算時間がかかる BLAST/1CDS : 0.6s* InterPro(IP)/1CDS : 5min* *: Xeon 3.2GHz

InterProScan(IP) との計算時間の計測 5000 217day 4500 4000 Time (h) 3500 3000 2500 2000 1500 86day NIG(16cpu) RIKEN(16cpu) RIKEN(256cpu) 1000 500 5.4day 0 1E+06 500000 200000 100000 50000 20000 10000 5000 2000 1000 500 200 100 迅速な更新のためには高性能計算機資源が必要 Number of CDS NIG(1cpu)/1CDS : 5min* RIKEN(1cpu)/1CDS : 2min *: Xeon 3.2GHz

毎年 INSD から公開される完全ゲノムの件数と WGS プロジェクト数の比較 300 250 200 Complete genomes WGS Number of strains 150 100 50 0 1994 1995 1996 1997 1998 1999 2000 2001 2002 2003 2004 2005 2006 2007 Year WGS: ゲノムプロジェクト由来だが完全に繋がっていない断片配列の集合が登録されている

創薬ゲノム有用酵素の発掘 2 次代謝物の探索メタボロームゲノム配列解析アノテーション遺伝子機能解明 SNP 解析プロテオーム解析遺伝子機能部位の予測立体構造予測ゲノム生物学バックボーン DB GTPS annotation 生命現象の物質レベルでの解明トランスクリプトーム解析タンパク質相互作用転写制御の解明文献に基づくオントロジ構築人類の進化の解明バイオインフォマティクスバックボーン DB を繋ぐ潤滑油表現系の解明遺伝子発現システムの解明

GTPS Gene Trek in Procaryote Space プロトコル開発国立遺伝学研究所菅原秀明, 阿部貴志東京理科大学薬学部宮崎智 JST BIRD 田中尚人, 平畠壮規 DDBJアノテーター小菅武英, 大城戸利久データ解析 web 製作富士通株式会社重元康昌 ( 株 ) 東海ソフト開発桑名良和 InterProScan 実行環境の提供理化学研究所情報基盤センター OASYS( アノテーションツール ) 三井情報開発株式会社姫野龍太郎, 黒川原佳菅原貴俊