文科省統合データベースプロジェクトシンポジウム東大武田先端知ビル,2009 年 6 月 12 日 蛋白質構造データバンク事業と 国際的な展開 中村春木 大阪大学蛋白質研究所 PDBj 日本蛋白質構造データバンク
PDB (Protein Data Bank) since 1971: 蛋白質の立体 (3 次元 ) 構造情報 原子種とその座標 アミノ酸残基 実験手法 実験時の情報 実験観測データ ( 構造因子 ) が整理して登録し Web から無料公開を行う X 線結晶解析 核磁気共鳴法 (NMR) 電子顕微鏡観測 蛋白質立体構造
http://www.wwpdb.org/
Agreement signature Nature Structure Biology (2003) Vol. 10, No.12
wwpdb における国際協力 1) データ編集 登録作業を wwpdb のメンバーで協力しながら実施する UCSD EBI Rutgers Univ. RCSB BMRB NIST PDBj 2) 唯一のデータアーカイブを持ち 米国の RCSB-PDB がアーカイブ キーパーとして書き込み権限をもつ 3) データ フォーマットや新たな記述法については 各メンバー間内の討議により決定する (V3.1 V3.2) 4) 各メンバーは 各々独自のデータ ブラウザ ビューア 検索ツール Web サービスを開発することが期待される (Berman, Henrick & Nakamura (2003) Nat. Struct. Biol. 10, 980)
日本 PDBj, 米国 RCSB-PDB, 欧州 PDBe-EBI, BMRB(NMRDB) の四極を結んだ wwpdb を運営 (Ref: Nucleic Acids Res. (2007) 35, D301-D303) シンク ル テ ータ アーカイフ を構築 ( 同時公開の開始 ) データ記述法 (v3.2) を共同で修正 確立 データ内容の修正 (remediation) を実施 Ligand data (RCSB-PDB), Sequence data (PDBe- EBI), Primary citation (PDBj) wwpdbac 会議 (S. K. Burley 議長 ) を開催 2004 年 11 月 Washington DC, 2005 年 8 月 Florence, 2006 年 10 月東京, 2007 年 9 月 Princeton, 2008 年 9 月 EBI 2006 年 10 月 @ 東京 2007 年 9 月 @Princeton 2008 年 9 月, EBI での wwpdbac メンバー 2008 年 9 月 @EBI
wwpdb FTP Traffic 61,364,573 ファイルが 2009 年 3 月の 1 ヶ月間に世界中の wwpdb メンバーサイトからダウンロードされている (RCSB-PDB, EBI-PDBe, and PDBj)
英語サイト 日本語サイト 中国語サイト ハングルサイト
英語サイト 日本語サイト 中国語サイト ハングルサイト
Protein Data Bank Japan 日本蛋白質構造データバンク http://www.pdbj.org/ 大阪大学蛋白質研究所にて実施 ( 独立行政法人 ) 科学技術振興機構バイオインフォマティクス推進センター (http://www-bird.jst.go.jp/) が 2001 年から支援 原子種とその座標 アミノ酸残基 実験手法 実験時の情報 実験観測データ ( 構造因子 ) を整理して登録 Web から無料公開
日本蛋白質構造データバンク :PDBj 1. 国際蛋白質構造データバンク (wwpdb) の創設 (2003 年 ) と協力 2. 蛋白質立体構造データベース登録作業 (~28%) 3. 蛋白質構造情報の標準 XML 記述 (PDBML) の開発とその応用 4. 蛋白質構造解析実験および蛋白質機能に関する文献 データベース情報の付加 5. 蛋白質立体構造に関する新規二次データベースの構築と解析ツールの開発 6. 講習会やセミナーの開催
日本蛋白質構造データバンク :PDBj 1. 国際蛋白質構造データバンク (wwpdb) の創設 (2003 年 ) と協力 2. 蛋白質立体構造データベース登録作業 (~28%) 3. 蛋白質構造情報の標準 XML 記述 (PDBML) の開発とその応用 4. 蛋白質構造解析実験および蛋白質機能に関する文献 データベース情報の付加 5. 蛋白質立体構造に関する新規二次データベースの構築と解析ツールの開発 6. 講習会やセミナーの開催
PDBj におけるデータ処理数の変遷 Total 58,083 data on 10 June, 2009 Yearly registration number 8000 6000 4000 2000 Yearly PDBj processed number Yearly wwpdb processed number 0 0 1 11 21 31 1972 75 80 85 90 95 2000 05 2009 year We process 25-30 % deposited data of the entire world, mainly from Asian and Oceania regions
日本蛋白質構造データバンク :PDBj 1. 国際蛋白質構造データバンク (wwpdb) の創設 (2003 年 ) と協力 2. 蛋白質立体構造データベース登録作業 (~28%) 3. 蛋白質構造情報の標準 XML 記述 (PDBML) の開発とその応用 4. 蛋白質構造解析実験および蛋白質機能に関する文献 データベース情報の付加 5. 蛋白質立体構造に関する新規二次データベースの構築と解析ツールの開発 6. 講習会やセミナーの開催
Get Entry Data from our XML-based browser Access to http://www.pdbj.org/ 12as PDBID (e.g. 12as) should be input in a box and GO Summary for each PDBID is displayed.
Graphic viewer: jvversion 3.6 Access to http://www.pdbj.org/jv/
Development of other Databases and Services Alignment of Sequence and Structures. MAFFTash (Kato. Toh & Standley) Encyclopedia of Protein Structures, eprots (Kinjyo, Kudo, & Ito) Molecular of the Month, MoM (Goodsell & Kudo) Homolog protein search, Sequence Navigator (Standley) Similar fold search, Structure Navigator (Standley & Toh) Protein Folds Browser, Protein Globe (Kinjo & Standley)
Development of other Databases and Services Protein Molecular Surface Database, ef-site (Kinoshita & Nakamura) Search for Similar Surface, efseek (Kinoshita & Nakamura) Electron Microscopy Navigator, EM-Navi (Suzuki) Function Annotation from Folds and Sequences, SeSAW (Standley) Ligand Binding Site Search, GIRAF (Kinjo) Protein Dynamics Database, ProMode (Wako & Endo)
What is required for Databank? For authors benefit ( 登録者のために ) Good portability ( 登録のしやすさ ) Rapid deposition ( 登録が早く便利なこと ) : For users benefit ( ユーザのために ) Good portability ( 使いやすさ ) Rapid search ( 検索が早く便利なこと ) Can be customized ( カスタマイズできること ) : For both authors and users (global community) Good data quality ( データの優れた品質の確保 ) Quality of each data can be validated ( 個々のデータの品質をユーザが判断できる )
データの品質管理 保守について 登録時に 各立体構造の品質が厳しく検査 鑑定される 登録者本人と wwpdbのアノテータが それぞれ検証する この検証に合格しないと PDBIDが発行されない 実験情報 (X 線結晶解析の場合には構造因子 NMRの場合には原子間距離情報 ) が 2008 年 2 月 1 日から 登録時に座標と同時に必須の項目となった データ記述のスキーマがバージョン ( 最新版 : v3.2) 毎に正確に定義され 記述についての validation( 検証 ) が常になされて公開される
Incorrect structures and validation Example: ABC transporter MsbA and EmrE multidrug transporter 1JSQ, 2Z2R Protein Science 16:1013-1016 (2007)
2007 Commentaries on incorrect structures T.A. Jones & G.J. Kleywegt (2007) Experimental Data for Structure Papers Science 317:194-195 R.P. Joosten & G. Vriend (2007) PDB Improvement Starts with Data Deposition. Science 317:195-196 A. Wlodawer (2007) Deposition of Structural Data Redux. Acta Cryst D63:421-423 B.W. Matthews (2007) Five retracted structure reports: Inverted or incorrect? Protein Science 16:1013-1016 M. Crispin, D.I. Stuart & E. Y. Jones (2007). Building meaningful models of glycoproteins. Nature Structural & Molecular Biology 14:354 H.M. Berman, K. Henrick, H. Nakamura & J. Markley (2007). Reply to: Building meaningful models of glycoproteins. Nature Structural & Molecular Biology 14:354-355 B. Rupp. (2006) Real-space solution to the problem of full disclosure Nature 444:817
Possible reasons Rushed as a short communication into the prestigious high impact journal Ignoring all counter theoretical and spectroscopic evidence Fewer professional crystallographers Crystal structures by biologists with limited crystallographic background High throughput methods Solved using black box crystallographic firmware/software Exploding number of structural papers to review and limited number of willing referees with crystallographic knowledge Papers are increasingly refereed by non-crystallographers who are unaware of many potential pitfalls Limited supporting information available for the reviewer
データの品質管理 保守について 登録時に 各立体構造の品質が厳しく検査 鑑定される 登録者本人と wwpdbのアノテータが それぞれ検証する この検証に合格しないと PDBIDが発行されない 実験情報 (X 線結晶解析の場合には構造因子 NMRの場合には原子間距離情報 ) が 2008 年 2 月 1 日から 登録時に座標と同時に必須の項目となった データ記述のスキーマがバージョン ( 最新版 : v3.2) 毎に正確に定義され 記述についての validation( 検証 ) が常になされて公開される
データの品質管理 保守について 登録時に 各立体構造の品質が厳しく検査 鑑定される 登録者本人と wwpdbのアノテータが それぞれ検証する この検証に合格しないと PDBIDが発行されない 実験情報 (X 線結晶解析の場合には構造因子 NMRの場合には原子間距離情報 ) が 2008 年 2 月 1 日から 登録時に座標と同時に必須の項目となった データ記述のスキーマがバージョン ( 最新版 : v3.2) 毎に正確に定義され 記述についての validation( 検証 ) が常になされて公開される
データの品質管理 保守について 登録時に 各立体構造の品質が厳しく検査 鑑定される 構造生物学の専門家集団が必要 ( 最新の測定法に精通している ) 実験情報が必須の項目 膨大な実験結果の情報 ( 手法や測定時のパラメータを含む ) をオントロジーで整理しながら DB 化するために情報科学の専門家が必要 データ記述のスキーマの定義とデータ検証 スキーマ記述やvalidationを行うプログラマや情報技術のエンジニアが必要
メンバー 代表 : 中村春木 PDBj データベース管理運営グループ : 中川敦史, 松浦孝範, 五十嵐令子, 見学有美子, 松浦かんな, 井上真由美, 陳旻瑜 ツール サービス開発グループ : 金城玲, 岩崎憲治, 鈴木博文, 山下鈴子, 工藤高裕, 清水有希子, 鎌田知左 NMR テ ータベース (BMRB-PDBj) グループ : 藤原敏道, 阿久津秀雄, 小林直宏 中谷英一, 原野陽子 研究開発協力者 : Daron M. Standley( 阪大免疫フロンティア ), 木下賢吾 ( 東大医科研 ), 藤博幸 ( 九大生防研 ), 輪湖博 ( 早大 ), 伊藤暢聡 ( 東京医歯大 )
http://www.nsf.gov/pubs/2005/nsb0540/ Report from National Science Board in Sept 2005 from NSF
http://www.elixir-europe.org/ ELIXIR Mission To construct and operate a sustainable infrastructure for biological information in Europe, to support life science research and its translation to medicine and the environment, the bio-industries and society. Partners: 32 partners, 13 member states Funding: 4.5 M from EU FP7 Deliverable: Consortium agreement to define the scope of the infrastructure and how it will be constructed Head of Elixir Project: Dr. Janet Thornton
Goals for ELIXIR Optimal Data Management Coordinated Data Resources with improved access Integration and interoperability of diverse heterogeneous data Good Value for Money Forge Links to data in other related domains A single European voice in international collaborations to influence global decisions and maintain open access to data Enhance European competitiveness in bioscience industries Address need for Increased Funding & its Coordination
Stakeholders Funders of Infrastructure National Government Funding Bodies; EMBL; EU Charities; Industry Data Resource Providers Core Resources Specialist (Many investigators - distributed) Data Providers Experimentalists Tool Providers Bioinformatics Groups Users 36
Why do we need ELIXIR? Data Growth Global context TB Server Storage 1400 1200 1000 800 600 400 200 0 2006 time now Europe Very large user community: USA 3.3 m web hits/day Japan 20,000 unique users per day Need to preserve data and make accessible to all Impact on medicine & agriculture Impact on society & bioindustries Need for increased funding for biodata resources
共立出版 蛋白質核酸酵素 誌での連載ライフサイエンス分野の統合データベース 生命科学系データベース統合化の背景大久保公策 Vol. 52 No. 9 (2007) 1027-1031 統合データベースがめざすもの高木利久 Vol. 52 No. 11 (2007)1388-1389 医薬品の統合データベース金久實 Vol. 52 No. 12 (2007)1486-1491 蛋白質構造情報の高度化と統合データベース中村春木 Vol. 52 No. 14 (2007)1897-1905 ゲノム情報と統合データベース五條堀孝 Vol. 52 No. 15 (2007) 2006-2011 ライフサイエンスにおけるデータベース構築のための人材養成瀬々潤 池村淑道 Vol. 53 No. 1 (2008) 87-93 海外データベースとの連携舘野義男 Vol. 53 No. 2 (2008)182-189 統合データベースプロジェクトのサーヒ スとその利用法川本祥子 坊農秀雄 Vol. 53 No. 3 (2008)281-287 利用者の立場からのコメント中村桂子 佐藤清 堀田凱樹 中井謙太 田畑哲之 津金昌一郎 松田秀雄 西川建 白井宏樹 深海薫 Vol. 53 No. 5 (2008) 686-691 わが国における疾患データベースの統合化田中博 Vol. 53 No. 6 (2008) 774-782 ゲノムワイド関連解析データベースの開発小池麻子 西田奈央 徳永勝士 Vol. 53 No. 7 (2008) 882-887 蛋白質核酸酵素 バックナンバーの全文検索サービス公開にあたって川本祥子 Vol. 53 No. 9 (2008) 1200-1205
For Long-Lived and Sustainable Databases: Roles and Resposibiliteis of Data Producers Data Users Data Managers Data Scientists Conclusion (for both informatics and particular biology field) Funding Agencies ( 日本の場合にはお金だけでなく人 : 安定な雇用も )