トーゴーの日シンポジウム 2016 東大弥生講堂, 5 October 2016 生命科学におけるデータサイエンスの課題と PDB 中村春木 大阪大学蛋白質研究所 harukin@protein.osaka-u.ac.jp http://pdbj.org/, http://wwpdb.org/
, Sir Isaac Newton (1642-1727) 3 11.3 PF ( 理化学研究所計算科学研究機構ホームページから 4 (- or ) Wisdom Knowledge Information Data DIKW (J. Rowley: The wisdom hierarchy, 2007) (Data) Information Knowledge Wisdom) AI
データ科学の課題 データが無ければ問題解決はできない ( より正しくは ) 正確なデータが無ければ問題解決はできない 使われるデータは正しいのか? データの客観的な validation の仕組みが必要 使われるデータは最新か? データの versioning の仕組みが必要 正確なデータが無い場合はどうするか? 実験 シミュレーションにより正確なデータを創出する ( シミュレーション結果もアーカイブする )
PDB: Protein Data Bank since 1971 3! X-ray Crystallography X! Nuclear Magnetic Resonance (NMR) NMR (@IPR) 1 HN (ppm)! Cryo-Electron Microscopy 15 N (ppm) XFEL & Synchrotron (SACLA & SPring-8) CryoEM (@IPR)
3.8 Å PfV (Pf Virus-like particle) &:;<:=!0.>?!(@$A!B1! C6!D+E+8+5+!.9!+F$!(0>>G1 Mw = 7 MDa
PDB H!!! 2%A0
蛋白質の形のデータバンク :PDB 1980 年代 : データ登録の急増 ( 国際結晶学会 : データ登録が論文投稿の必須条件 ) 1990 年代 :RCSB-PDB( 米国 ) が運営を開始 2000 年代 :wwpdbが設立(2003 年 ) 構造ゲノム科学による構造急増 2010 年代 : 新規の手法が開発 123,000 件以上のデータ公開ビッグ データの時代へ
Protein Data Bank Japan http://pdbj.org/ 2000 年から 国立研究開発法人科学技術振興機構 ( 現在は NBDC) の支援を受けて活動 PDBj スタッフ (2016 年 4 月 ) PDBj-BMRB スタッフ PDBj トップページ ( 日 英 中 台 韓 )
The wwpdb (world-wide PDB) wwpdb since 2003 wwpdb.org 第 12 回 wwpdb 国際諮問委員会大阪大学蛋白質研究所 2015 年 10 月 2 日 14
wwpdb の各メンバーの活動とサービス Data-in の活動 :wwpdbの一員としてデータの高品質を保つ その目的のため データ登録法 検証システム versioning システム 新規データフォーマットを開発 Data-out の活動 : 共通データのダウンロードサイト ( 毎週水曜 9 時にアプデート ) の運営 種々のサービスや二次データベースの提供
PDB OneDep ep (Depositions & Annotations)! 2016 7! RCSB PDB:! PDBe:! PDBj: 125K 74K 28K 24K
wwpdb.org OneDep: Unified Deposition Portal for the wwpdb
OneDep: Unified Deposition Portal for the wwpdb http://deposit.wwpdb.org/deposition/
OneDep: Unified Deposition Portal for the wwpdb Re-directed to PDBj site http://deposit-pdbj.wwpdb.org/deposition
PDBj と wwpdb の Data-in 活動 PDB 登録データ件数 120000 120000 100000 100000 80000 80000 60000 60000 40000 40000 PDBj で処理された総件数 (27,779, 2016 年 9 月 27 日 ) PDB の総データ件数 (123,021, 2016 年 9 月 28 日 ) 20000 0 0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 2000 2005 2010 2015 2016* 年 (*2016 年 9 月 28 日付 ) * 世界中で決定された構造の約 1/4 の登録処理を PDBj で実施 22
wwpdb NMR X-ray EM NMR EM,-./!"#$%&'%()#*"$"#+,-./)#0"#1%2%345%#6789:;#
研究者番号 ORCID の利用 Open Researcher and Contributor ID http://orcid.org ORCID の例 : orcid.org/0000-0001-6690-5863 wwpdb では 2016 年 4 月から利用開始 2018 年には必須項目とする予定 24
データ検証 (Validation) レポートの発行と 実験データの公開 Validation report の web 公開 登録時に必須とされている実験情報 X-ray: Structure Factor( 構造因子 ) NMR: 化学シフトと距離拘束情報 EM: 3DEM volume マップ Validation report の例 25
PDB エントリーの version 管理 現行の問題点 座標更新時には 同一の実験データに由来するものでも PDB ID が変更される 論文中で使われる PDB ID と実際に公開される PDBID とが一致しない 新規 PDB ID コードの導入 ( 案 ) 分かり易く透明性のある version 管理による更新データファイル名称 PDB を先頭につけ 4 文字コードも拡張 ( 例 : 現行の 1ABC から PDB_00001ABC のように変更 拡張 ) PDB ID コードの例 : PDB_00001ABC_XYZ_V2-2.cif.gz 実装の計画 ( 案 ) version 管理がなされた新規の PDB ID コードによる ftp サイトを公開 ( ツリー構造として構造情報だけでなく関連する実験情報 メタ情報を含む ) 現行の PDBID を付けた ftp サイトを継続して公開 ( 最新 version の構造情報のみを公開 ) 26
PDB の新規フォーマット : PDBx/mmCIF PDB フォーマットは 40 年以上前に作られ 現在の科学にはうまく合致しない PDB レコードの限界 最大 62 本の高分子鎖まで 最大 99,999 ヶの原子まで リガンドの結合次数や光学活性 ( キラリティー ) が記載されない NMR, 電子顕微鏡, ハイブリッド法, etcへの対応が不備 メタデータの記載が面倒であり情報を引き出しにくい 新規フォーマットでもできるだけ互換性を保つ 新規フォーマットからPDBフォーマットへの変換サービスを公開 2014 年から開始
Large Structures (434) in PDB! 2014 12, large structures PDB PDBx/mmCIF PDBML! A bundle of best-effort PDB files (PDB bundle) wwpdb FTP! wwpdb large structures PDBe PDBj 4v6x: structure of human 80S ribosome, 89 chains, 4 MDa RCSB-PDB
Web-based Molecular Graphics D**!3-N,+,!O..P,8!N,!Q.C/ C+R.S!KNF.M4F+T!UT+V-*MR! # 23#)4'#5-678#%$!	:7;#%'#.<-3=--> ]N,9T*C4PN,R!\TNO!+FF!9-.!55&:;!V+T9,.TR! &.9.T!LNR.J!WF.X!LNR.! ####?@A#5.3#B:-CDE#FA5G4HBGI# 3+O..T!Y.F+,E.T!?HBG-I# ZN,!Q.S.FF!?GJFGI# [+T4E*!D+E+O4T+J![*TN\4O*!34?4E*J! U.T9/I+,!;.EE.T! ####?HBGKI MMTF (Macromolecular Transmission Format) compression %+#
PDB PDB (ca. 1974) PDBx/mmCIF (ca. 1997) PDBML (ca. 2005) RDF (ca. 2011) PDB PDBx/ mmcif PDBML & RDF PDBx/mmCIF
ATOM 1 N GLN A 39 24.690-27.754 24.275 1.00 60.76 N ATOM 2 CA GLN A 39 23.581-26.768 24.416 1.00 60.98 C ATOM 3 C GLN A 39 23.990-25.379 23.905 1.00 59.98 C ATOM 4 O GLN A 39 25.070-25.209 23.330 1.00 60.25 O ATOM 5 CB GLN A 39 23.136-26.685 25.878 1.00 60.69 C ATOM 6 N VAL A 40 23.115-24.395 24.122 1.00 59.58 N ATOM 7 CA VAL A 40 23.342-23.010 23.690 1.00 57.26 C ATOM 8 C VAL A 40 24.000-22.152 24.778 1.00 56.00 C ATOM 9 O VAL A 40 23.992-20.920 24.692 1.00 55.53 O ATOM 10 CB VAL A 40 22.015-22.337 23.275 1.00 57.32 C PDB loop atom_site.group_pdb _atom_site.id _atom_site.auth_atom_id _atom_site.type_symbol _atom_site.auth_comp_id _atom_site.auth_asym_id _atom_site.auth_seq_id _atom_site.cartn_x _atom_site.cartn_y _atom_site.cartn_z _atom_site.pdbx_pdb_model_num _atom_site.occupancy _atom_site.pdbx_auth_alt_id _atom_site.b_iso_or_equiv ATOM 1 N N GLN A 39 24.690-27.754 24.275 1 1.000. 60.760 ATOM 2 CA C GLN A 39 23.581-26.768 24.416 1 1.000. 60.980 ATOM 3 C C GLN A 39 23.990-25.379 23.905 1 1.000. 59.980 ATOM 4 O O GLN A 39 25.070-25.209 23.330 1 1.000. 60.250 ATOM 5 CB C GLN A 39 23.136-26.685 25.878 1 1.000. 60.690 ATOM 6 N N VAL A 40 23.115-24.395 24.122 1 1.000. 59.580 ATOM 7 CA C VAL A 40 23.342-23.010 23.690 1 1.000. 57.260 ATOM 8 C C VAL A 40 24.000-22.152 24.778 1 1.000. 56.000 ATOM 9 O O VAL A 40 23.992-20.920 24.692 1 1.000. 55.530 ATOM 10 CB C VAL A 40 22.015-22.337 23.275 1 1.000. 57.320 ATOM 11 N N ALA A 41 24.560-22.804 25.797 1 1.000. 54.570 PDBx/mmCIF
PDBx/mmCIF ソフトウェア サポート Phenix and Refmac produce native PDBx files for deposition MMDB - macromolecular object library in CCP4 iotbx.cif/ucif - CCTBx C++/Python IO library with dictionary validation CCIF CCP4 C++ library with FORTRAN support and dictionary validation CBFLib - ANSI-C library for CIF & imgcif files mmlib - Python toolkit supporting CIF & mmcif BioPython - Python toolkit for computational biology PyCifRW - Python CIF/mmCIF parsing tools BioJava - Java mmcif IO package STAR::Parser Perl mmcif parser and molecular object library RCSBTools - C++/Python parsing and dictionary validation tools plus many other supporting format conversion and data management applications Visualization - UCSF Chimera, Jmol, OpenRasMol, Coot, CCP4mg, jv, Molmil
新規フォーマットへの wwpdb のサービスサイト http://mmcif.wwpdb.org/ or http://mmcif.pdbj.org/
新規フォーマットへの変換サービスサイト http://mmcif.pdbj.org/converter/index.php?l=en
wwpdb の各メンバーの活動とサービス Data-in の活動 :wwpdbの一員としてデータの高品質を保つ その目的のため データ登録法 検証システム versioning システム 新規データフォーマットを開発 Data-out の活動 : 共通データのダウンロードサイト ( 毎週水曜 9 時にアプデート ) の運営 種々のサービスや二次データベースの提供
http://pdbj.org/ PDBj における Data-out 活動 Amino acid sequence (FASTA) Data viewer at PDBj Graphic viewer: jv and Molmil http://pdbj.org/jv/ Molecular surface DB: ef-site http://ef-site.hgc.jp/ef-site/ KEGG, IDEAL(IDP/IDR), Binding MOAD, etc にもリンク Kinjo et al. NAR 40, D453 (2012)
Molmil: PDBj で独自開発した WebGL による分子ビューア JavaScript/WebGL テクノロジーを活用 PDB, PDBx/mmCIF, PDBML フォーマットが利用可能 PDB, chem_comp (Compound), ef-site, ProMode Elastic が閲覧可能 スクリーンショットを出力可能 ios8, ios9 (ipad, iphone etc) で利用可能
PDBj における特徴的な Data-out 蛋白質分子表面の形状と静電物性の表示 : ef-site (large structures にも対応 ) Protein Molecular Surface DB
PDBj Data-out 電顕による TRPV1 イオンチャネル (5irx)
PDBj における特徴的な Data-out 電顕画像と原子構造とを同時に可視化 EM Navigator: Viewer of Images of EM-DB Yorodumi: Viewer of both Image and Atomic Structure
Omokage search: PDB, EMDB, SASBDB のデータベース横断的に類似形状を探索 Suzuki, Kawabata, Nakamura (2016) Bioinformatics 32, 619-620
Omokage search: PDB, EMDB, SASBDB のデータベース横断的に類似形状を探索 Query: human RNA polymerase II with RNA (EMDB: 2190) Similar shapes from 224,894 images/structures
wwpdb/rdf PDBj http://rdf.wwpdb.org/ Semantic Web wwpdb/rdf Service from wwpdb Kinjo et al. (2012) Nucl. Acids Res. 40, D453-D460. Yokochi et al. (2016) J. Biomed. Semantics, 7:16. Kinjo et al. (2012) Nucl. Acids Res. 40, D453-D460. X-ray Structure Cryo-EM SAXS BMRB/RDF PDBj-BMRB http://bmrbpub.protein.osaka-u.ac.jp NMR Structure Large Complex Sequence In UniProt RDF: Exp. Information (X-ray, NMR, EM, etc) PPI (interaction)
wwpdb/rdf PDBj http://rdf.wwpdb.org/ Semantic Web wwpdb/rdf Service from wwpdb Kinjo et al. (2012) Nucl. Acids Res. 40, D453-D460. Yokochi et al. (2016) J. Biomed. Semantics, 7:16. Linked Data: Connect Distributed Data across the Web http://linkeddata.org BMRB/RDF PDBj-BMRB http://bmrbpub.protein.osaka-u.ac.jp PDB In UniProt RDF: Linking Open Data Cloud Diagram by Cyganiak & Jentzsch
NBDC RDF-portal への統合化 wwpdb/rdf BMRB/RDF NBDC RDF-Portal https://integbio.jp/rdf/
PDB SIFTS (Structure integration with function, taxonomy and sequence) EBI PDBj SIFTS/RDF BioHackathon FALDO (Feature Annotation Location Description Ontology: Bolleman et al, 2016)
SIFTS PDB
PDBj スタッフ 謝辞 Data-in Data-out BMRB
RDF 開発 謝辞 川島秀一 (DBCLS) 大久保克彦 (JST-NBDC, 日立製作所 ) Jerven Bolleman (UniProt, EBI: FALDO) Sameer Velankar (SIFTS & PDBe, EBI) RESTful web Michelle Ragsac (UCSD internship student)