微生物ゲノムの共通プロトコルによる 遺伝子配列情報の提供 国立遺伝学研究所生命情報 DDBJ 研究センター阿部貴志 http://gtps.ddbj.nig.ac.jp/
DNA Data Bank of Japan International Nucleotide Sequence Database Collaboration (INSDC) (DDBJ) Growth of the International Nucleotide Sequence Database (INSD) USTPO USA Europe EPO NCBI EBI DDBJ JPO Japan > 50 M rentries > 50 billion nucleotides
Genome Project の動向 Ongoing genomes Eukaryotes: 599 Prokaryotes : 1,002 Total: 1,995 359 Genome OnLine Database (http://www.genomesonline.org/)
GIB: Genome Information Broker http:// ://gib.genes.nig.ac.jp/ Number of Strains Archaea 26 Bacteria 293 --------------------------- Total 319 (22-Mar Mar-2006)
INSD から公開されているゲノムデータの問題点 遺伝子領域予測プログラムの違い 最短 ORF 長の設定が異なる 相同性検索の threshold 値の設定の違い 相同性検索 モチーフ解析のリファレンスデータベースの差異 プロダクト記載が不統一 ORF 決定の根拠 ( 確かさ ) が不明 アップデートが不確定
The diversity of ORF prediction programs Other 17% Unknown 15% GLIMMER 37% GeneSmith+ Ohter program 1% GeneSmith 2% GeneHacker GeneHacker+ 2% GenomeGambler 2% Genemark 7% Genemark+ Other program 2% Glimmer+ Other program 15%
Diversity of the minimum length used in prediction program length >20 >(=)30 >33.3aa (100bp) >40aa >50aa >60aa >66.6aa (200bp) >80 >100aa >150aa >200aa >300aa >400aa number 1 25 3 1 7 4 1 2 6 1 1 1 1
同じプロダクトでも記載内容が異なる ~ Hahella chejuensis KCTC 2396 CDS 1023521..1024429 /gene="argb" /locus_tag="hch_01027" /EC_number="2.7.2.8" CDS complement(1141715..1142587) /note="cog0548" COG /codon_start=1 /locus_tag="af_1280" /transl_table=11 /note="similar to GB:L77117 SP:Q60382 PID:1592260 percent ~ Agrobacterium /product="acetylglutamate identity: tumefaciens 56.06; C58 identified circular kinase" by chromosome sequence similarity; CDS /protein_id="abc27909.1" putative" complement(373582..374466) /db_xref="gi:83631942" /codon_start=1 /gene="agr_c_666" homologyに /translation="mldrdnalqvaavlskalpyiqrfagktivikyggnamtdeelk /transl_table=11 /note="acetylglutamate kinase PA5323 {imported} - 関する記載 NSFARDVVMMKLVGINPIVVHGGGPQIGDLLQRLNIKSSFINGLRVTDSETMDVVEMV /product="acetylglutamate Pseudomonas aeruginosa kinase (strain(argb)" PAO1)" LGGSVNKDIVALINRNGGKAIGLTGKDANFITARKLEVTRATPDMQKPEIIDIGHVGE /protein_id="aab89966.1" /codon_start=1 VTGVRKDIITMLTDSDCIPVIAPIGVGQDGASYNINADLVAGKVAEVLQAEKLMLLTN /db_xref="gi:2649301" /transl_table=11 IAGLMNKEGKVLTGLSTKQVDELIADGTIHGGMLPKIECALSAVKNGVHSAHIIDGRV /translation="menvelliealpyikdfhsttmvikigghamvndriledtikdi /product="agr_c_666p" PHATLLEIFTDEGVGTLITRKGCDDA" VLLYFVGIKPVVVHGGGPEISEKMEKFGLKPKFVEGLRVTDKETMEVVEMVLDGKVNS /protein_id="aak86197.1" KIVTTFIRNGGKAVGLSGKDGLLIVARKKEMRMKKGEEEVIIDLGFVGETEFVNPEII /db_xref="gi:15155294" /productに RILLDNGFIPVVSPVATDLAGNTYNLNADVVAGDIAAALKAKKLIMLTDVPGILENPD /translation="mtsseseiqarllaqalpfmqkyenktivvkygghamgdstlgk DKSTLISRIRLSELENMRSKGVIRGGMIPKVDAVIKALKSGVERAHIIDGSRPHSILI AFAEDIALLKQSGINPIVVHGGGPQIGAMLSKMGIESKFEGGLRVTDAKTVEIVEMVL IDのような記載 ELFTKEGIGTMVEP" AGSINKEIVALINQTGEWAIGLCGKDGNMVFAEKAKKTVIDPDSNIERVLDLGFVGEV VEVDRTLLDLLAKSEMIPVIAPVAPGRDGATYNINADTFAGAIAGALHATRLLFLTDV PGVLDKNKELIKELTVSEARALIKDGTISGGMIPKVETCIDAIKAGVQGVVILNGKTP HSVLLEIFTEGAGTLIVP" ~ Archaeoglobus fulgidus DSM 4304 /noteにプロダクト名称
Agrobacterium tumefaciens C58 circular chromosome (Cereon) Agrobacterium tumefaciens C58 circular chromosome (U. Washington)
GTPS ~ Gene Trek in Procaryote Space ~ 微生物ゲノムの一斉アノテーション chromosome & plasmid ver. 2003 strains 123 Archaea Bacteria 14 109 2004 183 17 166 2005 > 300 strains ( 予定 )
GTPS overview ゲノム & プラスミド RNA 領域の探索 & マスキング Glimmer2.0 による ORF 予測 RBSfinder (DDBJ version)* INSD のCDS DB: DAD of BCT division blastp & InterProScan ORF のランク分けへ
Grading of CDS (A and B) Grade blastp hit Coverage Quality InterProScan hit Quality AAAA AAA AA A BBBB BBB BB B & 70% (CDS Matched protein) or Valid protein Putative membrane or unknown proteins Significant motif Unknown motif No hit Significant or unknown motif
Grading of CDS (subcategory) 1 = 完全一致 2 = 3' のみ一致 3 = INSD にない ( 新規にみつかった ) 4 = Glimmer で予測されない
Result AAAA-A BBBB-B C D E X ver.. 2003 ver.. 2004 283,247 7,208 4,680 79,779 6,788 466,681 431,672 10,250 7,511 107,382 10,225 687,110 848,383 1,254,150
Correlation of number of ORFs and genome size 9000 8000 AAAA-C C & D1-D3 D3 grade (this study) INSD 7000 Number of ORFs 6000 5000 4000 3000 Aeropyrum pernix K1 2000 1000 Mycobacterium leprae TN 0 0 1,000,000 2,000,000 3,000,000 4,000,000 5,000,000 6,000,000 7,000,000 8,000,000 9,000,000 genome size [bp]
E. coli K12 のアノテーション (Acc#: U00096 & AP009048) に 加えられた ORF ECK4368:JW5891:b4568 /gene="ytja" /product="hypothetical protein" /translation="mvketlmfrwgiiflvia LIAAALGFGGLAGTAAGAAKIVFVVGII LFLVSLFMGRKRP"
GTPS annotation data are freely available at http://gtps.ddbj.nig.ac.jp/
GTPS にかかる計算時間に関して プログラム名 プログラムの機能 1 2 3 Glimmer BlastP InterPro 遺伝子領域探索プログラム アミノ酸配列に基づく相同性領域の探索遺伝子領域内のモチーフ探索 この protocaol では InterPro の計算時間が他と比べ 圧倒的にかかる そのため PC クラスタ上での分散環境を構築し 実行を行っている
BLAST と InterProScan(IP) との計算時間の計測 Time (h) 1000 900 800 700 600 500 400 300 200 100 0 217 days 1E+06 5E+05 2E+05 1E+05 50000 20000 10000 5000 2000 1000 500 200 100 7days 10hours BLAST@NIG(1cpu) BLAST@NIG(16cpu) IP@NIG(16cpu) Number of CDS 約 400 倍も計算時間がかかる BLAST/1CDS : 0.6s* InterPro(IP)/1CDS : 5min* *: Xeon 3.2GHz
InterProScan(IP) との計算時間の計測 5000 217day 4500 4000 Time (h) 3500 3000 2500 2000 1500 86day NIG(16cpu) RIKEN(16cpu) RIKEN(256cpu) 1000 500 5.4day 0 1E+06 500000 200000 100000 50000 20000 10000 5000 2000 1000 500 200 100 迅速な更新のためには 高性能計算機資源が必要 Number of CDS NIG(1cpu)/1CDS : 5min* RIKEN(1cpu)/1CDS : 2min *: Xeon 3.2GHz
毎年 INSD から公開される完全ゲノムの件数と WGS プロジェクト数の比較 300 250 200 Complete genomes WGS Number of strains 150 100 50 0 1994 1995 1996 1997 1998 1999 2000 2001 2002 2003 2004 2005 2006 2007 Year WGS: ゲノムプロジェクト由来だが 完全に繋がっていない断片配列の集合が登録されている
創薬ゲノム有用酵素の発掘 2 次代謝物の探索 メタボローム ゲノム配列解析アノテーション遺伝子機能解明 SNP 解析 プロテオーム解析遺伝子機能部位の予測立体構造予測 ゲノム生物学バックボーン DB GTPS annotation 生命現象の物質レベルでの解明 トランスクリプトーム解析タンパク質相互作用転写制御の解明 文献に基づくオントロジ構築人類の進化の解明 バイオインフォマティクスバックボーン DB を繋ぐ潤滑油 表現系の解明遺伝子発現システムの解明
GTPS Gene Trek in Procaryote Space プロトコル開発 国立遺伝学研究所 菅原秀明, 阿部貴志 東京理科大学薬学部 宮崎智 JST BIRD 田中尚人, 平畠壮規 DDBJアノテーター 小菅武英, 大城戸利久 データ解析 web 製作 富士通株式会社 重元康昌 ( 株 ) 東海ソフト開発 桑名良和 InterProScan 実行環境の提供理化学研究所 情報基盤センター OASYS( アノテーションツール ) 三井情報開発株式会社 姫野龍太郎, 黒川原佳 菅原貴俊