トーゴーの日シンポジウム 2016 東大弥生講堂, 5 October 2016 生命科学におけるデータサイエンスの課題と PDB 中村春木 大阪大学蛋白質研究所

Similar documents
PDB の 新 フォーマット 金城玲 日本蛋白質構造データバンク (PDBj) 大阪大学蛋白質研究所 1

この講義でやること PDBjのwebページの復習 webページのデータの元になっているデータ形 式の解説 上記の演習 2

Microsoft PowerPoint - PSSJ_2019神戸(栗栖)

PDBj : : 1

Microsoft PowerPoint - PDBjing実習.ppt

PDB データの読み解き方 mmcif と PDBML 金城玲 大阪大学蛋白質研究所 PDBj講習会 1

ウェブサービスとは WWWを介してデータの取得 解析などをサー バ側で行うサービス 人が直接使うことは意図されていない プログラム等を使って大量に処理できる(単純) 作業を意図している SOAP, REST

PDBのデータとその見方 探し方 PDBj講習会 金城玲 大阪大学蛋白質研究所

PowerPoint Presentation

「蛋白質構造データバンクのデータ検証高度化と統合化」KO-MTG発表資料

ob14-ktym-revised.key

mmCIF とPDBML形式

yakugaku-kot.ppt

Microsoft PowerPoint - 統合DBシンポ090612rev1.ppt

Microsoft PowerPoint - 蛋白質科学会ランチョン2011_15min_001

2017年度研究開発実施報告書(統合化推進プログラム_栗栖チーム)

PowerPoint プレゼンテーション

morita.PDF

Microsoft PowerPoint - HOMCOS講習会_ ppt [互換モード]

計算機生命科学の基礎II_

AJACS18_ ppt

第1部 蛋白質とは Protein Data Bank (PDB)とは

PowerPoint Presentation

橡dbweb2002-sato.PDF

タイトル

Microsoft PowerPoint - 3rd-jikken-vscreen [互換モード]

giw2005-bioruby-bof.key

<4D F736F F D20838C837C815B836789DB91E890E096BE2E646F6378>

fiš„v8.dvi

PSCHG000.PS

ngoto-biotree-public.ppt

Ligases の 分類クラス下に階層構造として表 検索機能を持つ 公共データベースサイトへのリンクと構成タンパク質の LSKB 内リンクにより 当該タンパク質をターゲットとする化合物をさまざまな角度から ることができるほか タンパク質を構成するドメインや PDB 複合体リガンド 文献を参照できる

未踏成果報告会-fix.key

DDBJ Ei-ji Nakama nakama at com-one.com COM-ONE Ltd. DDBJ p. 1

untitled

PDFŠp…f†[…^

AP_12_15_yonezawa.indd

国立遺伝学研究所におけるDNAデータバンク:DDBJ

2 : Open Clip Art Library [4] Microsoft Office PowerPoint Web PowerPoint 2 Yahoo! Web [5] SlideShare Yahoo! Web Yahoo! Web

タイトル

NBDC-DBCLS-共同研究計画.key

資料1 ライフサイエンス分野における研究データの共有について

com.ibm.etools.egl.jsfsearch.tutorial.doc.ps

1_26.dvi

eService

蛋白質科学会アーカイブ RNA/蛋白質複合体の単結晶が得られるまで〜Exportin-5/RanGTP/pre-microRNA複合体を例として〜

DNA mrna Glycine: G Serine: S Alanine: A Methionine: M Valine: V Phenylalanine: F Aspartic acid: D

1 5 1) 2 5 Web CMS 3. CMS CMS CMS ( 1 ) ( 2 ) ( 3 ) CMS IT CMS CMS CMS CMS Web Web Web CMS TIFF JPEG MB GB

1_alignment.ppt

untitled

JST _ _nakamura2015_YR


()

IPSJ SIG Technical Report Vol.2009-DBS-149 No /11/ Bow-tie SCC Inter Keyword Navigation based on Degree-constrained Co-Occurrence Graph

共起関係解析によるタンパク質の機能モジュール探索法の開発

Undulator.dvi

平成 26 年度研究開発実施報告書 ライフサイエンスデータベース統合推進事業 統合化推進プログラム 研究代表者 [ 中村春木 ] [ 大阪大学蛋白質研究所 所長 / 教授 ] [ 蛋白質構造データバンクの高度化と統合的運用 ] 1

Publishing BioMagResBank data derived from NMR

untitled

NLC配布用.ppt

使える! IBM Systems Director Navigator for i の新機能

Update of JaLC

2. Web of Data 2. 1,,.,. HTML,,.,HTML,Content Management System Consumer Generated Media,., Machine Readable Document, HTML,,.,, (Human Readable

untitled

食糧 その科学と技術 No.43( )

DEIM Forum 2009 C8-4 QA NTT QA QA QA 2 QA Abstract Questions Recomme

IBM 次世代クラウド・プラットフォーム コードネーム “BlueMix”ご紹介

< > Introduction to Basic Physical Chemistry 1,2 2 [ advanced [ [ [ [ [ KULASIS

Microsoft Word - GCOEキャリアパス支援テクニカルセミナー090709web.doc

講演タイトル

XFEL/SPring-8

Microsoft Word - CBSNet-It連携ガイドver8.2.doc

生物工学会誌 第95巻 第5号 バイオインフォマティクスを使い尽くす秘訣教えます!【第5回】

Microsoft Word - toyoshima-deim2011.doc

Cisco Feature Navigator 簡易説明書

1., 1 COOKPAD 2, Web.,,,,,,.,, [1]., 5.,, [2].,,.,.,, 5, [3].,,,.,, [4], 33,.,,.,,.. 2.,, 3.., 4., 5., ,. 1.,,., 2.,. 1,,

KEGG.ppt

目次 1. VISCANA 機能の改良 VISCANA ウィンドウ外観 フラグメント番号表示 クラスタリング配列の選択機能 データ読込 保持仕様の追加 修正 CSV ファイル出力機能

37-4.indd

アミーチ2

untitled

FMO法演習

100326_セミナー資料_物体認識.pptx

Accuracy check of grading of XCT Report Accuracy check of grading and calibration of CT value on the micro-focus XCT system Tetsuro Hirono Masahiro Ni

Microsoft PowerPoint - takeda-panel.ppt

Microsoft Word - CBESNet-It連携ガイドver8.1.doc

Oracle Database 12c

独立行政法人情報通信研究機構 Development of the Information Analysis System WISDOM KIDAWARA Yutaka NICT Knowledge Clustered Group researched and developed the infor

DEIM Forum 2010 D Development of a La

IPSJ SIG Technical Report 3,a),b),,c) Web Web Web Patrash Patrash Patrash Design and Implementation of 3D interface for Patrash: Personalized Autonomo

腎不全-第22回.indd

タイトル

nagasaki_GMT2015_key09

Microsoft PowerPoint BI_lec

How to Use the PowerPoint Template

Microsoft PowerPoint - PDBjing ppt

プレゼンテーション3

_314I01BM浅谷2.indd



Transcription:

トーゴーの日シンポジウム 2016 東大弥生講堂, 5 October 2016 生命科学におけるデータサイエンスの課題と PDB 中村春木 大阪大学蛋白質研究所 harukin@protein.osaka-u.ac.jp http://pdbj.org/, http://wwpdb.org/

, Sir Isaac Newton (1642-1727) 3 11.3 PF ( 理化学研究所計算科学研究機構ホームページから 4 (- or ) Wisdom Knowledge Information Data DIKW (J. Rowley: The wisdom hierarchy, 2007) (Data) Information Knowledge Wisdom) AI

データ科学の課題 データが無ければ問題解決はできない ( より正しくは ) 正確なデータが無ければ問題解決はできない 使われるデータは正しいのか? データの客観的な validation の仕組みが必要 使われるデータは最新か? データの versioning の仕組みが必要 正確なデータが無い場合はどうするか? 実験 シミュレーションにより正確なデータを創出する ( シミュレーション結果もアーカイブする )

PDB: Protein Data Bank since 1971 3! X-ray Crystallography X! Nuclear Magnetic Resonance (NMR) NMR (@IPR) 1 HN (ppm)! Cryo-Electron Microscopy 15 N (ppm) XFEL & Synchrotron (SACLA & SPring-8) CryoEM (@IPR)

3.8 Å PfV (Pf Virus-like particle) &:;<:=!0.>?!(@$A!B1! C6!D+E+8+5+!.9!+F$!(0>>G1 Mw = 7 MDa

PDB H!!! 2%A0

蛋白質の形のデータバンク :PDB 1980 年代 : データ登録の急増 ( 国際結晶学会 : データ登録が論文投稿の必須条件 ) 1990 年代 :RCSB-PDB( 米国 ) が運営を開始 2000 年代 :wwpdbが設立(2003 年 ) 構造ゲノム科学による構造急増 2010 年代 : 新規の手法が開発 123,000 件以上のデータ公開ビッグ データの時代へ

Protein Data Bank Japan http://pdbj.org/ 2000 年から 国立研究開発法人科学技術振興機構 ( 現在は NBDC) の支援を受けて活動 PDBj スタッフ (2016 年 4 月 ) PDBj-BMRB スタッフ PDBj トップページ ( 日 英 中 台 韓 )

The wwpdb (world-wide PDB) wwpdb since 2003 wwpdb.org 第 12 回 wwpdb 国際諮問委員会大阪大学蛋白質研究所 2015 年 10 月 2 日 14

wwpdb の各メンバーの活動とサービス Data-in の活動 :wwpdbの一員としてデータの高品質を保つ その目的のため データ登録法 検証システム versioning システム 新規データフォーマットを開発 Data-out の活動 : 共通データのダウンロードサイト ( 毎週水曜 9 時にアプデート ) の運営 種々のサービスや二次データベースの提供

PDB OneDep ep (Depositions & Annotations)! 2016 7! RCSB PDB:! PDBe:! PDBj: 125K 74K 28K 24K

wwpdb.org OneDep: Unified Deposition Portal for the wwpdb

OneDep: Unified Deposition Portal for the wwpdb http://deposit.wwpdb.org/deposition/

OneDep: Unified Deposition Portal for the wwpdb Re-directed to PDBj site http://deposit-pdbj.wwpdb.org/deposition

PDBj と wwpdb の Data-in 活動 PDB 登録データ件数 120000 120000 100000 100000 80000 80000 60000 60000 40000 40000 PDBj で処理された総件数 (27,779, 2016 年 9 月 27 日 ) PDB の総データ件数 (123,021, 2016 年 9 月 28 日 ) 20000 0 0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 2000 2005 2010 2015 2016* 年 (*2016 年 9 月 28 日付 ) * 世界中で決定された構造の約 1/4 の登録処理を PDBj で実施 22

wwpdb NMR X-ray EM NMR EM,-./!"#$%&'%()#*"$"#+,-./)#0"#1%2%345%#6789:;#

研究者番号 ORCID の利用 Open Researcher and Contributor ID http://orcid.org ORCID の例 : orcid.org/0000-0001-6690-5863 wwpdb では 2016 年 4 月から利用開始 2018 年には必須項目とする予定 24

データ検証 (Validation) レポートの発行と 実験データの公開 Validation report の web 公開 登録時に必須とされている実験情報 X-ray: Structure Factor( 構造因子 ) NMR: 化学シフトと距離拘束情報 EM: 3DEM volume マップ Validation report の例 25

PDB エントリーの version 管理 現行の問題点 座標更新時には 同一の実験データに由来するものでも PDB ID が変更される 論文中で使われる PDB ID と実際に公開される PDBID とが一致しない 新規 PDB ID コードの導入 ( 案 ) 分かり易く透明性のある version 管理による更新データファイル名称 PDB を先頭につけ 4 文字コードも拡張 ( 例 : 現行の 1ABC から PDB_00001ABC のように変更 拡張 ) PDB ID コードの例 : PDB_00001ABC_XYZ_V2-2.cif.gz 実装の計画 ( 案 ) version 管理がなされた新規の PDB ID コードによる ftp サイトを公開 ( ツリー構造として構造情報だけでなく関連する実験情報 メタ情報を含む ) 現行の PDBID を付けた ftp サイトを継続して公開 ( 最新 version の構造情報のみを公開 ) 26

PDB の新規フォーマット : PDBx/mmCIF PDB フォーマットは 40 年以上前に作られ 現在の科学にはうまく合致しない PDB レコードの限界 最大 62 本の高分子鎖まで 最大 99,999 ヶの原子まで リガンドの結合次数や光学活性 ( キラリティー ) が記載されない NMR, 電子顕微鏡, ハイブリッド法, etcへの対応が不備 メタデータの記載が面倒であり情報を引き出しにくい 新規フォーマットでもできるだけ互換性を保つ 新規フォーマットからPDBフォーマットへの変換サービスを公開 2014 年から開始

Large Structures (434) in PDB! 2014 12, large structures PDB PDBx/mmCIF PDBML! A bundle of best-effort PDB files (PDB bundle) wwpdb FTP! wwpdb large structures PDBe PDBj 4v6x: structure of human 80S ribosome, 89 chains, 4 MDa RCSB-PDB

Web-based Molecular Graphics D**!3-N,+,!O..P,8!N,!Q.C/ C+R.S!KNF.M4F+T!UT+V-*MR! # 23#)4'#5-678#%$!&#9:7;#%'#.<-3=--> ]N,9T*C4PN,R!\TNO!+FF!9-.!55&:;!V+T9,.TR! &.9.T!LNR.J!WF.X!LNR.! ####?@A#5.3#B:-CDE#FA5G4HBGI# 3+O..T!Y.F+,E.T!?HBG-I# ZN,!Q.S.FF!?GJFGI# [+T4E*!D+E+O4T+J![*TN\4O*!34?4E*J! U.T9/I+,!;.EE.T! ####?HBGKI MMTF (Macromolecular Transmission Format) compression %+#

PDB PDB (ca. 1974) PDBx/mmCIF (ca. 1997) PDBML (ca. 2005) RDF (ca. 2011) PDB PDBx/ mmcif PDBML & RDF PDBx/mmCIF

ATOM 1 N GLN A 39 24.690-27.754 24.275 1.00 60.76 N ATOM 2 CA GLN A 39 23.581-26.768 24.416 1.00 60.98 C ATOM 3 C GLN A 39 23.990-25.379 23.905 1.00 59.98 C ATOM 4 O GLN A 39 25.070-25.209 23.330 1.00 60.25 O ATOM 5 CB GLN A 39 23.136-26.685 25.878 1.00 60.69 C ATOM 6 N VAL A 40 23.115-24.395 24.122 1.00 59.58 N ATOM 7 CA VAL A 40 23.342-23.010 23.690 1.00 57.26 C ATOM 8 C VAL A 40 24.000-22.152 24.778 1.00 56.00 C ATOM 9 O VAL A 40 23.992-20.920 24.692 1.00 55.53 O ATOM 10 CB VAL A 40 22.015-22.337 23.275 1.00 57.32 C PDB loop atom_site.group_pdb _atom_site.id _atom_site.auth_atom_id _atom_site.type_symbol _atom_site.auth_comp_id _atom_site.auth_asym_id _atom_site.auth_seq_id _atom_site.cartn_x _atom_site.cartn_y _atom_site.cartn_z _atom_site.pdbx_pdb_model_num _atom_site.occupancy _atom_site.pdbx_auth_alt_id _atom_site.b_iso_or_equiv ATOM 1 N N GLN A 39 24.690-27.754 24.275 1 1.000. 60.760 ATOM 2 CA C GLN A 39 23.581-26.768 24.416 1 1.000. 60.980 ATOM 3 C C GLN A 39 23.990-25.379 23.905 1 1.000. 59.980 ATOM 4 O O GLN A 39 25.070-25.209 23.330 1 1.000. 60.250 ATOM 5 CB C GLN A 39 23.136-26.685 25.878 1 1.000. 60.690 ATOM 6 N N VAL A 40 23.115-24.395 24.122 1 1.000. 59.580 ATOM 7 CA C VAL A 40 23.342-23.010 23.690 1 1.000. 57.260 ATOM 8 C C VAL A 40 24.000-22.152 24.778 1 1.000. 56.000 ATOM 9 O O VAL A 40 23.992-20.920 24.692 1 1.000. 55.530 ATOM 10 CB C VAL A 40 22.015-22.337 23.275 1 1.000. 57.320 ATOM 11 N N ALA A 41 24.560-22.804 25.797 1 1.000. 54.570 PDBx/mmCIF

PDBx/mmCIF ソフトウェア サポート Phenix and Refmac produce native PDBx files for deposition MMDB - macromolecular object library in CCP4 iotbx.cif/ucif - CCTBx C++/Python IO library with dictionary validation CCIF CCP4 C++ library with FORTRAN support and dictionary validation CBFLib - ANSI-C library for CIF & imgcif files mmlib - Python toolkit supporting CIF & mmcif BioPython - Python toolkit for computational biology PyCifRW - Python CIF/mmCIF parsing tools BioJava - Java mmcif IO package STAR::Parser Perl mmcif parser and molecular object library RCSBTools - C++/Python parsing and dictionary validation tools plus many other supporting format conversion and data management applications Visualization - UCSF Chimera, Jmol, OpenRasMol, Coot, CCP4mg, jv, Molmil

新規フォーマットへの wwpdb のサービスサイト http://mmcif.wwpdb.org/ or http://mmcif.pdbj.org/

新規フォーマットへの変換サービスサイト http://mmcif.pdbj.org/converter/index.php?l=en

wwpdb の各メンバーの活動とサービス Data-in の活動 :wwpdbの一員としてデータの高品質を保つ その目的のため データ登録法 検証システム versioning システム 新規データフォーマットを開発 Data-out の活動 : 共通データのダウンロードサイト ( 毎週水曜 9 時にアプデート ) の運営 種々のサービスや二次データベースの提供

http://pdbj.org/ PDBj における Data-out 活動 Amino acid sequence (FASTA) Data viewer at PDBj Graphic viewer: jv and Molmil http://pdbj.org/jv/ Molecular surface DB: ef-site http://ef-site.hgc.jp/ef-site/ KEGG, IDEAL(IDP/IDR), Binding MOAD, etc にもリンク Kinjo et al. NAR 40, D453 (2012)

Molmil: PDBj で独自開発した WebGL による分子ビューア JavaScript/WebGL テクノロジーを活用 PDB, PDBx/mmCIF, PDBML フォーマットが利用可能 PDB, chem_comp (Compound), ef-site, ProMode Elastic が閲覧可能 スクリーンショットを出力可能 ios8, ios9 (ipad, iphone etc) で利用可能

PDBj における特徴的な Data-out 蛋白質分子表面の形状と静電物性の表示 : ef-site (large structures にも対応 ) Protein Molecular Surface DB

PDBj Data-out 電顕による TRPV1 イオンチャネル (5irx)

PDBj における特徴的な Data-out 電顕画像と原子構造とを同時に可視化 EM Navigator: Viewer of Images of EM-DB Yorodumi: Viewer of both Image and Atomic Structure

Omokage search: PDB, EMDB, SASBDB のデータベース横断的に類似形状を探索 Suzuki, Kawabata, Nakamura (2016) Bioinformatics 32, 619-620

Omokage search: PDB, EMDB, SASBDB のデータベース横断的に類似形状を探索 Query: human RNA polymerase II with RNA (EMDB: 2190) Similar shapes from 224,894 images/structures

wwpdb/rdf PDBj http://rdf.wwpdb.org/ Semantic Web wwpdb/rdf Service from wwpdb Kinjo et al. (2012) Nucl. Acids Res. 40, D453-D460. Yokochi et al. (2016) J. Biomed. Semantics, 7:16. Kinjo et al. (2012) Nucl. Acids Res. 40, D453-D460. X-ray Structure Cryo-EM SAXS BMRB/RDF PDBj-BMRB http://bmrbpub.protein.osaka-u.ac.jp NMR Structure Large Complex Sequence In UniProt RDF: Exp. Information (X-ray, NMR, EM, etc) PPI (interaction)

wwpdb/rdf PDBj http://rdf.wwpdb.org/ Semantic Web wwpdb/rdf Service from wwpdb Kinjo et al. (2012) Nucl. Acids Res. 40, D453-D460. Yokochi et al. (2016) J. Biomed. Semantics, 7:16. Linked Data: Connect Distributed Data across the Web http://linkeddata.org BMRB/RDF PDBj-BMRB http://bmrbpub.protein.osaka-u.ac.jp PDB In UniProt RDF: Linking Open Data Cloud Diagram by Cyganiak & Jentzsch

NBDC RDF-portal への統合化 wwpdb/rdf BMRB/RDF NBDC RDF-Portal https://integbio.jp/rdf/

PDB SIFTS (Structure integration with function, taxonomy and sequence) EBI PDBj SIFTS/RDF BioHackathon FALDO (Feature Annotation Location Description Ontology: Bolleman et al, 2016)

SIFTS PDB

PDBj スタッフ 謝辞 Data-in Data-out BMRB

RDF 開発 謝辞 川島秀一 (DBCLS) 大久保克彦 (JST-NBDC, 日立製作所 ) Jerven Bolleman (UniProt, EBI: FALDO) Sameer Velankar (SIFTS & PDBe, EBI) RESTful web Michelle Ragsac (UCSD internship student)