Microsoft PowerPoint - 阿部貴志.ppt

Similar documents
国際塩基配列データベース n DNA のデータベース GenBank ( アメリカ :Na,onal Center for Biotechnology Informa,on, NCBI が運営 ) EMBL ( ヨーロッパ : 欧州生命情報学研究所が運営 ) DDBJ ( 日本 : 国立遺伝研内の日

GWB

Microsoft PowerPoint _SINET_cloud

nagasaki_GMT2015_key09

プレゼンテーション2.ppt

プレゼンテーション3

Microsoft Word - CATNewsVol2No7Text.doc

AJACS18_ ppt

7-1(DNA配列から遺伝子を探す).ppt

れており 世界的にも重要課題とされています それらの中で 非常に高い完全長 cdna のカバー率を誇るマウスエンサイクロペディア計画は極めて重要です ゲノム科学総合研究センター (GSC) 遺伝子構造 機能研究グループでは これまでマウス完全長 cdna100 万クローン以上の末端塩基配列データを

国立遺伝学研究所におけるDNAデータバンク:DDBJ

イントロ

Bio-Mirror Project


バクテリアゲノム解析

ゲノム解析で活躍するコンピューター

130712AJACS40

『引越れんらく帳』説明資料

PowerPoint プレゼンテーション

Microsoft Word - GCOEキャリアパス支援テクニカルセミナー090709web.doc

5-53 -

KEGG.ppt

PowerPoint Presentation

DNAFORM Clone Search Engine ユーザーズガイド

1. VarySysDB 1.1 VaryGene2 1.2 LD Search system 1.3 Genome Browser (GBrowse)

Microsoft PowerPoint - 理研豊田_JST統合DB資料

PowerPoint プレゼンテーション

PowerPoint プレゼンテーション


共起関係解析によるタンパク質の機能モジュール探索法の開発

プロジェクト概要 ー ヒト全遺伝子 データベース(H-InvDB)の概要と進展

Microsoft Word - 2TXL実施要綱 doc

P. 2 P. 4 P. 5 P. 6 P. 7 P. 9 P P.11 P.13 P.15 P.16 P.17 P.17 P.18 P.20 P.21 P.23 P P P P P P P P.31

計算機生命科学の基礎II_

「組換えDNA技術応用食品及び添加物の安全性審査の手続」の一部改正について

1. 好塩 好アルカリ細菌のスクリーニングおよび突然変異株の作製 1-1. 廃グリセロール利用可能な微生物のスクリーニング土壌 池等からサンプルを収集し 炭素源としてグリセロール3% を添加したSOT 改培地 ( 後述 ) を用いてスクリーニングを本年度も継続しておこなった 50mg 程度の土壌など

第2章 生物有機化学実験及び実験法

Sequence Read Archive 2013 年年 10 月 25 日 第 10 回シーケンサー利利 用技術講習会 ( 理理研横浜 ) 1

Table 1 Utilization of Data for River Water Table 2 Utilization of Data for Groundwater Quality Analysis5,6,9,10,13,14) Quality Analysis5-13) Fig. 1 G

Microsoft PowerPoint - プレシジョン創薬概論 P_ex_velvet.PPT

「組換えDNA技術応用食品及び添加物の安全性審査の手続」の一部改正について

Microsoft PowerPoint - BIセンターセミナー2013.pptx[読み取り専用]

PowerPoint プレゼンテーション

A ,000 7,539 7,593

人工知能補足_池村

共起関係解析によるタンパク質の機能モジュール探索法の開発

MB-lecture12.pptx

1_alignment.ppt

Microsoft PowerPoint BI_lec



Microsoft PowerPoint - 4_河邊先生_改.ppt

DDBJ Ei-ji Nakama nakama at com-one.com COM-ONE Ltd. DDBJ p. 1

P. 2 P. 4 P. 5 P. 6 P. 7 P. 9 P.10 P.12 P.13 P.14 P.14 P.15 P.17 P.18 P.20 P P P P P.25 P.27 P.28 Copyright 2016 JAPAN POST BA

P. 2 P. 4 P. 5 P. 6 P. 7 P. 9 P P.11 P.14 P.15 P.16 P.16 P.17 P.19 P.20 P.22 P P P P P P P P P

取扱説明書

塩基配列アーカイブのデータベース構築と統合への貢献 に関する成果報告 (H21 年度 ) 科学技術振興機構バイオインフォマティクス推進センター事業研究開発課題 バイオ情報資源の高準化と共用化 平成 21 年度研究開発実施報告書から抜粋 3.4 DDBJ Read Archive(DRA) 研究計画書

PAXgene Tissue DNA Kitプロトコールとトラブルシューティング( /2009)

統合失調症発症に強い影響を及ぼす遺伝子変異を,神経発達関連遺伝子のNDE1内に同定した

Microsoft PowerPoint - 資料6-1_高橋委員(公開用修正).pptx

The copyright of this material is retained by the Information Processing Society of Japan (IPSJ). The material has been made available on the website

Ligases の 分類クラス下に階層構造として表 検索機能を持つ 公共データベースサイトへのリンクと構成タンパク質の LSKB 内リンクにより 当該タンパク質をターゲットとする化合物をさまざまな角度から ることができるほか タンパク質を構成するドメインや PDB 複合体リガンド 文献を参照できる

我々のビッグデータ処理の新しい産業応用 広告やゲーム レコメンだけではない 個別化医療 ( ライフサイエンス ): 精神神経系疾患 ( うつ病 総合失調症 ) の網羅的ゲノム診断法の開発 全人類のゲノム解析と個別化医療実現を目標 ゲノム育種 ( グリーンサイエンス ): ブルーベリー オオムギ イネ

Z...QXD (Page 1)

untitled

Microsoft PowerPoint - T05_田畑先生【CC-BY】.pptx

Microsoft PowerPoint - 遺伝統計学夏の学校2018_Webツール入門.pptx

研究成果報告書

3rd-jikken-ngs

3. XML, DB, DB (AP). DB, DB, AP. RDB., XMLDB, XML,.,,.,, (XML / ), XML,,., AP. AP AP AP 検索キー //A=1 //A=2 //A=3 返却 XML 全体 XML 全体 XML 全体 XMLDB <root> <A


料理集

1. MEGA 5 をインストールする 1.1 ダウンロード手順 MEGA のホームページ ( から MEGA 5 software をコンピュータにインストールする 2. 塩基配列を決定する 2.1 Alignment E

1:.anchors Menubar Sequence Navigation order Plot & Color options Left sidebar ON/OFF Right sidebar ON/OFF History / Bookmark Apply sequence order / p

GWB

.n.s.N.._...{.\1

表1-4.ai

<4D F736F F F696E74202D E838A B83805F D B838093FC96E55F E707074>

シーケンサー利用技術講習会 第10回 サンプルQC、RNAseqライブラリー作製/データ解析実習講習会

12„”‡Pfiú“ƒ-PDFŠp

PowerPoint プレゼンテーション

AJACS_komachi.key

物学的現象をはっきりと掌握することに成功した論文である との高い評価を得ています 2. 研究成果ブフネラゲノムの全塩基配列の決定に当たっては 全ゲノムショットガンシークエンス法 4 を用いました 今回ゲノム解析に成功したのは エンドウヒゲナガアブラムシ (Acyrthosiphon pisum) の

Microsoft PowerPoint - 8_TS-0894(TaqMan_SNPGenotypingAssays_製品情報及び検索方法再修正.pptx

表1-表4宅建99.indd

表1-表4宅建98.indd

表1-表4宅建101.indd

表1-表4宅建いわて-表紙.indd

Microsoft PowerPoint - BI_okuno_


B. 41 II: 2 ;; 4 B [ ] S 1 S 2 S 1 S O S 1 S P 2 3 P P : 2.13:

untitled

untitled

Microsoft Word - 海岸紹介new.doc

生命科学分野の研究用 DB の歴史と動向 文献データは1960 年代より 研究データは1970 年代より 塩基配列データバンクは日米欧の3 極体制で タンパク質データバンクは日米欧の4センターで 他のオミックスデータにも共有の枠組みが拡大 トランスクリプトーム プロテオーム メタボローム フェノーム

名古屋大学農学部 生物情報工学 II 11 月 29 日

untitled

IPSJ SIG Technical Report Vol.2009-BIO-17 No /5/26 DNA 1 1 DNA DNA DNA DNA Correcting read errors on DNA sequences determined by Pyrosequencing

Microsoft Word - 【広報課確認】 _プレス原稿(最終版)_東大医科研 河岡先生_miClear

別添 2 SQL インジェクション ぜい弱性診断で最低限行うべき項目 1 ( ' ( 検索キー )''-- ( 検索キー ) and 'a'='a ( 検索キー ) and 1=1 は最低限 行うこと ) OS コマンドインジェクション 2 (../../../../../../../bin/sle

Transcription:

微生物ゲノムの共通プロトコルによる 遺伝子配列情報の提供 国立遺伝学研究所生命情報 DDBJ 研究センター阿部貴志 http://gtps.ddbj.nig.ac.jp/

DNA Data Bank of Japan International Nucleotide Sequence Database Collaboration (INSDC) (DDBJ) Growth of the International Nucleotide Sequence Database (INSD) USTPO USA Europe EPO NCBI EBI DDBJ JPO Japan > 50 M rentries > 50 billion nucleotides

Genome Project の動向 Ongoing genomes Eukaryotes: 599 Prokaryotes : 1,002 Total: 1,995 359 Genome OnLine Database (http://www.genomesonline.org/)

GIB: Genome Information Broker http:// ://gib.genes.nig.ac.jp/ Number of Strains Archaea 26 Bacteria 293 --------------------------- Total 319 (22-Mar Mar-2006)

INSD から公開されているゲノムデータの問題点 遺伝子領域予測プログラムの違い 最短 ORF 長の設定が異なる 相同性検索の threshold 値の設定の違い 相同性検索 モチーフ解析のリファレンスデータベースの差異 プロダクト記載が不統一 ORF 決定の根拠 ( 確かさ ) が不明 アップデートが不確定

The diversity of ORF prediction programs Other 17% Unknown 15% GLIMMER 37% GeneSmith+ Ohter program 1% GeneSmith 2% GeneHacker GeneHacker+ 2% GenomeGambler 2% Genemark 7% Genemark+ Other program 2% Glimmer+ Other program 15%

Diversity of the minimum length used in prediction program length >20 >(=)30 >33.3aa (100bp) >40aa >50aa >60aa >66.6aa (200bp) >80 >100aa >150aa >200aa >300aa >400aa number 1 25 3 1 7 4 1 2 6 1 1 1 1

同じプロダクトでも記載内容が異なる ~ Hahella chejuensis KCTC 2396 CDS 1023521..1024429 /gene="argb" /locus_tag="hch_01027" /EC_number="2.7.2.8" CDS complement(1141715..1142587) /note="cog0548" COG /codon_start=1 /locus_tag="af_1280" /transl_table=11 /note="similar to GB:L77117 SP:Q60382 PID:1592260 percent ~ Agrobacterium /product="acetylglutamate identity: tumefaciens 56.06; C58 identified circular kinase" by chromosome sequence similarity; CDS /protein_id="abc27909.1" putative" complement(373582..374466) /db_xref="gi:83631942" /codon_start=1 /gene="agr_c_666" homologyに /translation="mldrdnalqvaavlskalpyiqrfagktivikyggnamtdeelk /transl_table=11 /note="acetylglutamate kinase PA5323 {imported} - 関する記載 NSFARDVVMMKLVGINPIVVHGGGPQIGDLLQRLNIKSSFINGLRVTDSETMDVVEMV /product="acetylglutamate Pseudomonas aeruginosa kinase (strain(argb)" PAO1)" LGGSVNKDIVALINRNGGKAIGLTGKDANFITARKLEVTRATPDMQKPEIIDIGHVGE /protein_id="aab89966.1" /codon_start=1 VTGVRKDIITMLTDSDCIPVIAPIGVGQDGASYNINADLVAGKVAEVLQAEKLMLLTN /db_xref="gi:2649301" /transl_table=11 IAGLMNKEGKVLTGLSTKQVDELIADGTIHGGMLPKIECALSAVKNGVHSAHIIDGRV /translation="menvelliealpyikdfhsttmvikigghamvndriledtikdi /product="agr_c_666p" PHATLLEIFTDEGVGTLITRKGCDDA" VLLYFVGIKPVVVHGGGPEISEKMEKFGLKPKFVEGLRVTDKETMEVVEMVLDGKVNS /protein_id="aak86197.1" KIVTTFIRNGGKAVGLSGKDGLLIVARKKEMRMKKGEEEVIIDLGFVGETEFVNPEII /db_xref="gi:15155294" /productに RILLDNGFIPVVSPVATDLAGNTYNLNADVVAGDIAAALKAKKLIMLTDVPGILENPD /translation="mtsseseiqarllaqalpfmqkyenktivvkygghamgdstlgk DKSTLISRIRLSELENMRSKGVIRGGMIPKVDAVIKALKSGVERAHIIDGSRPHSILI AFAEDIALLKQSGINPIVVHGGGPQIGAMLSKMGIESKFEGGLRVTDAKTVEIVEMVL IDのような記載 ELFTKEGIGTMVEP" AGSINKEIVALINQTGEWAIGLCGKDGNMVFAEKAKKTVIDPDSNIERVLDLGFVGEV VEVDRTLLDLLAKSEMIPVIAPVAPGRDGATYNINADTFAGAIAGALHATRLLFLTDV PGVLDKNKELIKELTVSEARALIKDGTISGGMIPKVETCIDAIKAGVQGVVILNGKTP HSVLLEIFTEGAGTLIVP" ~ Archaeoglobus fulgidus DSM 4304 /noteにプロダクト名称

Agrobacterium tumefaciens C58 circular chromosome (Cereon) Agrobacterium tumefaciens C58 circular chromosome (U. Washington)

GTPS ~ Gene Trek in Procaryote Space ~ 微生物ゲノムの一斉アノテーション chromosome & plasmid ver. 2003 strains 123 Archaea Bacteria 14 109 2004 183 17 166 2005 > 300 strains ( 予定 )

GTPS overview ゲノム & プラスミド RNA 領域の探索 & マスキング Glimmer2.0 による ORF 予測 RBSfinder (DDBJ version)* INSD のCDS DB: DAD of BCT division blastp & InterProScan ORF のランク分けへ

Grading of CDS (A and B) Grade blastp hit Coverage Quality InterProScan hit Quality AAAA AAA AA A BBBB BBB BB B & 70% (CDS Matched protein) or Valid protein Putative membrane or unknown proteins Significant motif Unknown motif No hit Significant or unknown motif

Grading of CDS (subcategory) 1 = 完全一致 2 = 3' のみ一致 3 = INSD にない ( 新規にみつかった ) 4 = Glimmer で予測されない

Result AAAA-A BBBB-B C D E X ver.. 2003 ver.. 2004 283,247 7,208 4,680 79,779 6,788 466,681 431,672 10,250 7,511 107,382 10,225 687,110 848,383 1,254,150

Correlation of number of ORFs and genome size 9000 8000 AAAA-C C & D1-D3 D3 grade (this study) INSD 7000 Number of ORFs 6000 5000 4000 3000 Aeropyrum pernix K1 2000 1000 Mycobacterium leprae TN 0 0 1,000,000 2,000,000 3,000,000 4,000,000 5,000,000 6,000,000 7,000,000 8,000,000 9,000,000 genome size [bp]

E. coli K12 のアノテーション (Acc#: U00096 & AP009048) に 加えられた ORF ECK4368:JW5891:b4568 /gene="ytja" /product="hypothetical protein" /translation="mvketlmfrwgiiflvia LIAAALGFGGLAGTAAGAAKIVFVVGII LFLVSLFMGRKRP"

GTPS annotation data are freely available at http://gtps.ddbj.nig.ac.jp/

GTPS にかかる計算時間に関して プログラム名 プログラムの機能 1 2 3 Glimmer BlastP InterPro 遺伝子領域探索プログラム アミノ酸配列に基づく相同性領域の探索遺伝子領域内のモチーフ探索 この protocaol では InterPro の計算時間が他と比べ 圧倒的にかかる そのため PC クラスタ上での分散環境を構築し 実行を行っている

BLAST と InterProScan(IP) との計算時間の計測 Time (h) 1000 900 800 700 600 500 400 300 200 100 0 217 days 1E+06 5E+05 2E+05 1E+05 50000 20000 10000 5000 2000 1000 500 200 100 7days 10hours BLAST@NIG(1cpu) BLAST@NIG(16cpu) IP@NIG(16cpu) Number of CDS 約 400 倍も計算時間がかかる BLAST/1CDS : 0.6s* InterPro(IP)/1CDS : 5min* *: Xeon 3.2GHz

InterProScan(IP) との計算時間の計測 5000 217day 4500 4000 Time (h) 3500 3000 2500 2000 1500 86day NIG(16cpu) RIKEN(16cpu) RIKEN(256cpu) 1000 500 5.4day 0 1E+06 500000 200000 100000 50000 20000 10000 5000 2000 1000 500 200 100 迅速な更新のためには 高性能計算機資源が必要 Number of CDS NIG(1cpu)/1CDS : 5min* RIKEN(1cpu)/1CDS : 2min *: Xeon 3.2GHz

毎年 INSD から公開される完全ゲノムの件数と WGS プロジェクト数の比較 300 250 200 Complete genomes WGS Number of strains 150 100 50 0 1994 1995 1996 1997 1998 1999 2000 2001 2002 2003 2004 2005 2006 2007 Year WGS: ゲノムプロジェクト由来だが 完全に繋がっていない断片配列の集合が登録されている

創薬ゲノム有用酵素の発掘 2 次代謝物の探索 メタボローム ゲノム配列解析アノテーション遺伝子機能解明 SNP 解析 プロテオーム解析遺伝子機能部位の予測立体構造予測 ゲノム生物学バックボーン DB GTPS annotation 生命現象の物質レベルでの解明 トランスクリプトーム解析タンパク質相互作用転写制御の解明 文献に基づくオントロジ構築人類の進化の解明 バイオインフォマティクスバックボーン DB を繋ぐ潤滑油 表現系の解明遺伝子発現システムの解明

GTPS Gene Trek in Procaryote Space プロトコル開発 国立遺伝学研究所 菅原秀明, 阿部貴志 東京理科大学薬学部 宮崎智 JST BIRD 田中尚人, 平畠壮規 DDBJアノテーター 小菅武英, 大城戸利久 データ解析 web 製作 富士通株式会社 重元康昌 ( 株 ) 東海ソフト開発 桑名良和 InterProScan 実行環境の提供理化学研究所 情報基盤センター OASYS( アノテーションツール ) 三井情報開発株式会社 姫野龍太郎, 黒川原佳 菅原貴俊