PDB データの読み解き方 mmcif と PDBML 金城玲 大阪大学蛋白質研究所 PDBj講習会 1

Similar documents
この講義でやること PDBjのwebページの復習 webページのデータの元になっているデータ形 式の解説 上記の演習 2

mmCIF とPDBML形式

第1部 蛋白質とは Protein Data Bank (PDB)とは

トーゴーの日シンポジウム 2016 東大弥生講堂, 5 October 2016 生命科学におけるデータサイエンスの課題と PDB 中村春木 大阪大学蛋白質研究所

ウェブサービスとは WWWを介してデータの取得 解析などをサー バ側で行うサービス 人が直接使うことは意図されていない プログラム等を使って大量に処理できる(単純) 作業を意図している SOAP, REST

Microsoft Word - ECALSDS01_Vr1_5_080305_ja.doc

サイボウズ Office 8 リンク集マニュアル

Webプログラミング演習

Microsoft PowerPoint - PSSJ_2019神戸(栗栖)

Java Scriptプログラミング入門 3.6~ 茨城大学工学部情報工学科 08T4018Y 小幡智裕

<4D F736F F F696E74202D20352D335F8D5C90AC CF909482CC90B690AC82C695D28F572E707074>

XMLとXSLT

メタデータスキーマレジストリ MetaBridge の概要

勉強会の流れ Google API の概要 デモ curl で実際に体験 Copyright 2010 SRA OSS, Inc. Japan All rights reserved. 2

1. GML 変換メニュー メニュー GML 変換 の説明です 1.1. シェープファイルから GML へ変換 シェープファイルから GML(Geography Markup Language) 形式の XML ファイルを作成します BdLGutter.shp BridgeFactor.shp Br

機器の自動配置

STN新プラットフォームの構造作図

intra-mart Accel Platform — IM-Repository拡張プログラミングガイド   初版  

intra-mart Accel Collaboration — ファイルライブラリ 管理者操作ガイド   第6版  

作図コマンド : pscoast -R125/148/30/46 -JM15c -B5g5 -Di -W5 -S235 -X6c -Y4c > test.ps 作図例 : 2 分布図の作成 2.1 点を描く 地点の分布を作図するときは たとえば以下のように行います > pscoast -R125/1

プロセス出力 ダイアログが表示されます 以下のいずれかを指定します オーバーレイ作成 ボタンをクリックし 新規にオーバーレイを作成します プロセス操作の結果作成されたアイテムは 新規オーバーレイに作成されます 既存のアイテムは削除され プロセス操作の結果作成されたアイテムに置き換えられます 既存の編

目次 1. はじめに 拡張 DMエディタについて 作業規定の準則との対応 GeoCoach3D(DM 三次元エディタ ) との違い ファイル入出力 DMとの変換 不整三角網... 5

使用する前に

<4D F736F F F696E74202D208A778F708FEE95F197AC92CA82F08EC08CBB82B782E98B5A8F E97708B5A8F70816A5F94D196EC8D758E742E >

スライド 1

Rational Roseモデルの移行 マニュアル

WebOTXマニュアル

<4D F736F F F696E74202D E48FE A92C789C192CA926D82C982C282A282C45F696E6F75652E >

スライド 0

GrADS の使い方 GrADS(Grid Analysis and Display System) は おもに 客観解析データのような格子点データを地図上に作図するために使われるアプリケーションです 全球スケールの気象を扱う分野で広く使われています GrADS は Unix 系の OS 上でよく利

Moodleアンケートの質問一括変換ツール

CONTENTS マニュアルの表記... S01-02_01 1.DataNature Smart 全体概要図... S01-02_11 2. 基本操作... S01-02_ ジョブの作成... S01-02_21 加工条件設定... S01-02_21 Step1: 処理対象データの指

UMLプロファイル 機能ガイド

以下のソフトウェアに専用ライセンスを設定することで 変換機能が使えるようになります アプリケーション名バージョン日付 JPGIS-XML ビュー F 7.1.0α 以降 2013/06/27 以降 フリーウェア JPGIS-XML ビュー F のバージョン から XML の 筆 と 図郭

目次 JAVIS Appli の基本機能... 3 JAVIS Appli について... 3 音声確認機能 JAVIS Appli( 有償版 ) の機能... 4 音声で読みの確認をする... 4 辞書機能... 5 単語を登録する... 5 単語を削除する... 6 音声コードの作成... 7

Winmostar- Gromacs Tutorial 2 タンパク系 (pdb2gmx を使用 ) V6.005 株式会社クロスアビリティ 2016/1/15

アプリケーション インスペクションの特別なアクション(インスペクション ポリシー マップ)

プログラム

- VHDL 演習 ( 組み合せ論理回路 ) 回路 半加算器 (half adder,fig.-) 全加算器を構成する要素である半加算器を作成する i) リスト - のコードを理解してから, コンパイル, ダウンロードする ii) 実験基板上のスイッチ W, が, の入力,LED, が, の出力とな

PowerPoint プレゼンテーション

intra-mart Accel Platform — IM-FileExchange 管理者操作ガイド   第3版  

地域社会研究4_表紙

1


<4D F736F F D E64976C8F E6388E9F81842E646F63>

<4D F736F F F696E74202D2093B CC8BE68AD B B82CC8AD AF95FB96405F88EA94CA ED28CFC82AF82C995D28F575F826C A6D94462E >

homes01_P _chousa_sai.indd

ITdumpsFree Get free valid exam dumps and pass your exam test with confidence

Microsoft PowerPoint - H26.3版 閲覧マニュアル

intra-mart Accel Collaboration — アンケート 管理者操作ガイド   第2版  

目次 1. 変換の対象 砂防指定地 XML 作成メニュー シェープファイルからXMLへ変換 砂防指定地 XMLとシェープファイルの対応.csv 変換処理 CSVファイルによる属性指定... 5

棚POWER 操作テキスト 「棚割分析編-売上データ登録~棚割モデルとの紐付け-」

IGESデータの基礎知識

Handbook_Studio_ja

Microsoft Word - ModelAnalys操作マニュアル_

WebOTX V6 J2EEアプリケーションのトラブルシューティング

データ構造

サイボウズ Office 10「リンク集」

ご存知ですか? データ転送

テキストファイルの入出力1

PowerPoint プレゼンテーション

変更履歴 版数変更日変更内容 /9/1 初版設定

Microsoft PowerPoint - download.ppt

概要 水中のエタノール分子の溶媒和自由エネルギーを エネルギー表示 (ER) 法を用いて計算します 溶質 + 溶媒 溶媒のみ 溶質のみ それぞれの MD 計算を実施した後 エネルギー分布関数と自由エネルギーを計算します 溶液の MD ( 溶媒 + 溶質 ) 溶媒の MD

Transcription:

PDB データの読み解き方 mmcif と PDBML 金城玲 大阪大学蛋白質研究所

この講義の内容 PDB の 新しい フォーマットの必要性 PDB の 新しい フォーマットである mmcif その XML への 直訳 である PDBML mmcif と PDBML の基礎である PDBx 辞書 これらの具体例 2

PDB の 新 フォーマット 旧 フォーマットは いわゆる PDB ファイ ルのフォーマットのこと 新 フォーマットは mmcif ファイルの フォーマットのこと 実は新しくない 20 年から本格的に移行します 3

従来の PDB フォーマットの例 HEDER TITLE COMPND COMPND COMPND COMPND SOURCE SOURCE SOURCE SOURCE SOURCE KEYWDS EXPDT NUMMDL MODEL NEUROPEPTIDE MET-ENKEPHLIN IN DPMC SUV MOL_ID: ; 2 MOLECULE: MET-ENKEPHLIN; 3 CHIN: ; ENGINEERED: YES MOL_ID: ; 2 SYNTHETIC: YES; 3 ORGNISM_SCIENTIFIC: HOMO SPIENS; ORGNISM_COMMON: HUMN; ORGNISM_TXID: 9606 SUV DMPC, NEUROPEPTIDE SOLUTION NMR 20 2 3 6 7 8 9 0 N C C O CB CG CD CD2 CE CE2 -.388 -.868-3.679-2. -.76-6.23-7.09-6.09-7.76-7.06 -.99 -.392-3.966-3.99-3.78-2.6-3.0 -.283-3.0-0.798 27-JUL-2.22-0.76 -.0-0.6 0.20 -.023 -.877 -.307-3.0-2..00.00.00.00.00.00.00.00.00.00 2LWC.00.00.00.00.00.00.00.00.00.00 N C C O C C C C C C

mmcif の例 data_2s # _entry.id 2S # _audit_conform.dict_name mmcif_pdbx.dic _audit_conform.dict_version.007 _audit_conform.dict_location http://mmcif.pdb.org/dictionaries/ascii/mmcif_pdbx.dic # _database_2.database_id PDB _database_2.database_code 2S # loop database_pdb_rev.num _database_pdb_rev.date _database_pdb_rev.date_original _database_pdb_rev.status _database_pdb_rev.replaces _database_pdb_rev.mod_type 998-2-30 997-2-02 2S 0 2 999-02-6 2S 3 3 2009-02-2 2S

mmcif の例 続き loop atom_site.group_pdb _atom_site.id _atom_site.type_symbol _atom_site.label_atom_id _atom_site.label_alt_id _atom_site.label_comp_id _atom_site.label_asym_id _atom_site.label_entity_id _atom_site.label_seq_id _atom_site.pdbx_pdb_ins_code _atom_site.cartn_x _atom_site.cartn_y _atom_site.cartn_z _atom_site.occupancy _atom_site.b_iso_or_equiv _atom_site.cartn_x_esd _atom_site.cartn_y_esd _atom_site.cartn_z_esd _atom_site.occupancy_esd _atom_site.b_iso_or_equiv_esd _atom_site.pdbx_formal_charge _atom_site.auth_seq_id _atom_site.auth_comp_id _atom_site.auth_asym_id _atom_site.auth_atom_id _atom_site.pdbx_pdb_model_num N N. L 2 C C. L 3 C C. L O O. L C CB. L 6 N N. 7 C C. 8 C C. 9 O O. 0 C CB..7 2.0 3.70.207 2.902.23.2 6.66 7.87.988 37.86 39.08 38.628 37.9 39.99 39.3 39.0 38.93 37.8 0.762 29.06 28.39 27.7 27.890 29.730 26.906 26.282 27.263 27.068 2.702.00.00.00.00.00.00.00.00.00.00.6 30.68 2.7 2.9 6.77 9.29 8. 6. 7.99 2.00 L L L L L N C C O CB N C C O CB 6

実際に見てみる PDB ID GOF 7

PDB 形式 と mmcif を見る 8

mmcif をもう少し見てみる datablock Entry ID 繰り返し項目 (loop) 9

mmcif の基本 データは色々なカテゴリに分類されている _category.item 例 _entry.id entry はカテゴリ名 id はその 項目 (item) _entry.id GOF は entry カテゴリの id 項目の値 が GOF である という意味 データの記述法は2通り Key-value: 一つのカテゴリに一つの値しかない場合 Loop: 一つのカテゴリに複数の値がある場合 0

Key-value の例 _cell.entry_id _cell.length_a _cell.length_b _cell.length_c _cell.angle_alpha _cell.angle_beta _cell.angle_gamma _cell.z_pdb _cell.pdbx_unique_axis # GOF 98.000 89.00 86.700 90.00 7.80 90.00 最後の # はそのカテゴリの記述の終わりを示す慣習 (convention)

Loop の例 ループの開始 loop entity.id _entity.type _entity.src_method _entity.pdbx_description _entity.formula_weight 項目のリスト 1行1項目 は慣習 _entity.pdbx_number_of_molecules _entity.details _entity.pdbx_mutation _entity.pdbx_fragment _entity.pdbx_ec polymer man 'GLCTOSE OXIDSE' 6879.20..3.9 2 non-polymer syn 'COPPER (II) ION' 63.6 3 non-polymer syn 'SODIUM ION' 22.990 non-polymer syn 'CETIC CID' 60.02 2 water nat water 8.0 36 # 各項目は空白で区切られる 項目リストと同じ順番で並ぶ 空白を含むデータは引用府 ' で囲む 最後の # はループの終わりを示す慣習 (convention) 2

PDBx: PDB exchange dictionary mmcif のカテゴリや項目は PDBx で定められている PDBx では 項目のデータ型や項目間の依存関係も記述さ れている http://mmcif.pdb.org/dictionaries/mmcif_pdbx_v0.dic/index/ を参照のこと 3

主なカテゴリ ( グループ _entity 化合物データ chem_comp _citation 構造の特色 分子全体 2次構造など struct, struct_conf, struct_sheet, struct_conn, pdbx_struct_assembly,... _chem_comp 各原子の情報 座標など atom_site _struct entity, entity_poly, pdbx_entity_nonpoly,... _atom 研究対象の分子情報 文献情報 citation, citation_author,...

カテゴリ間の関係 loop struct_asym.id _struct_asym.pdbx_blank_pdb_chainid_flag _struct_asym.pdbx_modified _struct_asym.entity_id 子 (child) _struct_asym.details N N B N N 2 C N N 3 D N N E N N F N N # 親子関係 も PDBx で定義されている loop entity.id 親 (parent) _entity.type _entity.src_method _entity.pdbx_description _entity.formula_weight _entity.pdbx_number_of_molecules _entity.details _entity.pdbx_mutation _entity.pdbx_fragment _entity.pdbx_ec polymer man 'GLCTOSE OXIDSE' 2 non-polymer syn 'COPPER (II) ION' 3 non-polymer syn 'SODIUM ION' non-polymer syn 'CETIC CID' water nat water # 6879.20 63.6 22.990 60.02 8.0 2 36..3.9

label と auth loop atom_site.group_pdb _atom_site.id _atom_site.type_symbol _atom_site.label_atom_id _atom_site.label_alt_id _atom_site.label_comp_id _atom_site.label_asym_id _atom_site.label_entity_id _atom_site.label_seq_id _atom_site.pdbx_pdb_ins_code _atom_site.cartn_x _atom_site.cartn_y _atom_site.cartn_z _atom_site.occupancy _atom_site.b_iso_or_equiv _atom_site.cartn_x_esd _atom_site.cartn_y_esd _atom_site.cartn_z_esd _atom_site.occupancy_esd _atom_site.b_iso_or_equiv_esd _atom_site.pdbx_formal_charge _atom_site.auth_seq_id _atom_site.auth_comp_id _atom_site.auth_asym_id _atom_site.auth_atom_id _atom_site.pdbx_pdb_model_num N N. L 2 C C. L 3 C C. L O O. L C CB. L 6 N N. 7 C C. 8 C C. 9 O O. 0 C CB. label_... : wwpdb が内部的に付与したラベル auth_... : 登録者が任意に付与したラベル.7 2.0 3.70.207 2.902.23.2 6.66 7.87.988 37.86 39.08 38.628 37.9 39.99 39.3 39.0 38.93 37.8 0.762 29.06 28.39 27.7 27.890 29.730 26.906 26.282 27.263 27.068 2.702.00.00.00.00.00.00.00.00.00.00.6 30.68 2.7 2.9 6.77 9.29 8. 6. 7.99 2.00 L L L L L N C C O CB N C C O CB 6

なぜ PDBx/mmCIF へ完全移行するのか 7

PDB フォーマットの限界 固定コラム長 大きさの限界 最大 99,999 原子まで 最大 36 chain まで 但し 反則ワザあり 座標は最大 桁 負号がある場合は 3 桁 まで アノテーションの不完全さ 複雑奇怪な REMRK 行の自動処理では 例外 処 理がルーチン化している 残基番号の一貫性がない 外部データベースとの連携が難しい 8

巨大構造の例 HIV- capsid (3J3Q),36 鎖 2,0,800 原子 2 PDB エントリ 3J3Q にまとめられて いる VU, VU6,... mmcif, PDBML のみ 9

その他の巨大構造について http://mmcif.pdb.org/large-pdbx-examples/ ftp://ftp.pdbj.org/pub/pdb/data/large_structures/mmcif/ ftp://ftp.pdbj.org/pub/pdb/data/large_structures/xml/ 20

PDB ファイルのアノテーション JRNL JRNL JRNL JRNL JRNL JRNL JRNL JRNL REMRK REMRK REMRK REMRK REMRK REMRK REMRK REMRK REMRK REMRK REMRK REMRK REMRK REMRK REMRK REMRK REMRK REMRK REMRK REMRK REMRK UTH N.ITO,S.E.PHILLIPS,C.STEVENS,Z.B.OGEL,M.J.MCPHERSON, UTH 2 J.N.KEEN,K.D.YDV,P.F.KNOWLES TITL NOVEL THIOETHER BOND REVELED BY.7 CRYSTL STRUCTURE TITL 2 OF GLCTOSE OXIDSE. REF NTURE V. 30 87 99 REFN ISSN 0028-0836 PMID 200280 DOI 0.038/300870 2 2 3 3 3 3 3 REFERENCE UTH N.ITO,S.E.V.PHILLIPS,K.K.S.YDV,P.F.KNOWLES TITL THE CRYSTL STRUCTURE OF FREE RDICL ENZYME, GLCTOSE TITL 2 OXIDSE REF TO BE PUBLISHED REFN REFERENCE 2 UTH M.J.MCPHERSON,Z.B.OGEL,C.STEVENS,K.D.S.YDV,J.M.KEEN, UTH 2 P.F.KNOWLES TITL GLCTOSE OXIDSE OF DCTYLIUM DENDROIDES: GENE CLONING ND TITL 2 SEQUENCE NLYSIS REF J.BIOL.CHEM. V. 267 86 992 REFN ISSN 002-928 RESOLUTION. REFINEMENT. PROGRM UTHORS.70 NGSTROMS. : PROLSQ : KONNERT,HENDRICKSON 注釈の種類により異なる文法 機械的処理が大変です 2

mmcif の単純な解決法 巨大構造 任意長のコラム数 空白区切り アノテーション 記述形式は key-value か loop のみ 22

PDBML: XML 形式の mmcif PDBx 辞書 PDBML Schema mmcif PDBML データファイル mmcif 形式 STR 定義 PDBx mmcif dictionary PDBML XML PDBx PDBML Schema 23

PDBML を使う理由 XML を扱うソフトウェアが充実している 読み込み 書き出し 検証 XML スキーマを使う フォーマットの変換 2

PDBML を使わない理由 mmcif を駆使できる場合 PDB のデータを 目で 読みたい場合 大きなファイルサイズが負担になる場合 2

実際に PDBML を見てみる リソース タブをクリック PDBML に注目 26

PDBML ファイルの種類 all no-atom all から atom_site( 原子座標 ) の情報を除いたもの ext-atom mmcif に含まれる全ての情報 atom_site のデータのみを簡略化して記述したもの PDBMLplus no-atom のデータに PDBj が独自にアノテーション を加えたもの 27

ファイルサイズ PDB エントリ GOF の場合 フォーマット PDB mmcif PDBML(all) PDBML(no-atom) PDBML(extatom) サイズ バイト 7K 9K.6M 820K 889K 行数 77 792 979 697 66 28

PDBML の基本構造 <xml version=".0" encoding="utf-8" > <PDBx:datablock datablockname="gof" xmlns:pdbx="http://pdbml.pdb.org/schema/pdbx-v0.xsd" xmlns:xsi="http://www.w3.org/200/xmlschema-instance" xsi:schemalocation="http://pdbml.pdb.org/schema/pdbx-v0.xsd..."> <PDBx:atom_siteCategory> <PDBx:atom_site id=""> <PDBx:B_iso_or_equiv>3.6</PDBx:B_iso_or_equiv> <PDBx:Cartn_x>38.80</PDBx:Cartn_x> ( そのカテゴリの項目が繰り返す ) </PDBx:atom_site> <PDBx:atom_site id="2"> <PDBx:B_iso_or_equiv>2.26</PDBx:B_iso_or_equiv> <PDBx:Cartn_x>38.36</PDBx:Cartn_x> </PDBx:atom_site> (atom_site が繰り返す ) </PDBx:atom_siteCategory> (xxxcategory が繰り返す ) </PDBx:datablock> 29

属性と要素の使い分け 属性 (attribute) <category a=... b=... > <item>...</item> <item2>...</item2> </category> 各カテゴリの属性と 要素はともにそのカ テゴリの項目 (item) 属性はそのカテゴリ の 主キー に相当 する 要素 (element) 30

mmcif と PDBML の比較 mmcif PDBML loop audit_author.name _audit_author.pdbx_ordinal 'Ito, N.' 'Phillips, S.E.V.' 2 'Knowles, P.F.' 3 <PDBx:audit_authorCategory> <PDBx:audit_author pdbx_ordinal=""> <PDBx:name>Ito, N.</PDBx:name> </PDBx:audit_author> <PDBx:audit_author pdbx_ordinal="2"> <PDBx:name>Phillips, S.E.V.</PDBx:name> </PDBx:audit_author> <PDBx:audit_author pdbx_ordinal="3"> <PDBx:name>Knowles, P.F.</PDBx:name> </PDBx:audit_author> </PDBx:audit_authorCategory> 3

atom_site( 原子座標 ) をみてみる <PDBx:atom_site id=""> <PDBx:B_iso_or_equiv>3.6</PDBx:B_iso_or_equiv> <PDBx:Cartn_x>38.80</PDBx:Cartn_x> <PDBx:Cartn_y>0.236</PDBx:Cartn_y> <PDBx:Cartn_z>.02</PDBx:Cartn_z> <PDBx:auth_asym_id></PDBx:auth_asym_id> <PDBx:auth_atom_id>N</PDBx:auth_atom_id> <PDBx:auth_comp_id>L</PDBx:auth_comp_id> <PDBx:auth_seq_id></PDBx:auth_seq_id> <PDBx:group_PDB></PDBx:group_PDB> <PDBx:label_alt_id xsi:nil="true" /> <PDBx:label_asym_id></PDBx:label_asym_id> <PDBx:label_atom_id>N</PDBx:label_atom_id> <PDBx:label_comp_id>L</PDBx:label_comp_id> <PDBx:label_entity_id></PDBx:label_entity_id> <PDBx:label_seq_id></PDBx:label_seq_id> <PDBx:occupancy>.00</PDBx:occupancy> <PDBx:pdbx_PDB_model_num></PDBx:pdbx_PDB_model_num> <PDBx:type_symbol>N</PDBx:type_symbol> </PDBx:atom_site> 32

extatom <PDBx:datablock datablockname="gof-extatom" xmlns:pdbx="http://pdbml.pdb.org/schema/pdbx-v0-ext.xsd" xmlns:xsi="http://www.w3.org/200/xmlschema-instance" xsi:schemalocation="http://pdbml.pdb.org/schema/pdbx-v0-ext.xsd pdbx-v0-ext.xsd"> <PDBx:category_atom_record> <PDBx:atom_record id=""> <PDBx:atom_record id="2"> <PDBx:atom_record id="3"> <PDBx:atom_record id="">....... L L L L L L L L N C C O N C C O N C C O 38.80 0.236.02.00 38.36-0.999 0.37.00 37.098 -.7.06.00 36.69-0.96 2.028.00 3.6 2.26.2 29. </PDBx:atom_record> </PDBx:atom_record> </PDBx:atom_record> </PDBx:atom_record> atom_site カテゴリのよく使う項目だけを一行で空白区切りで記述したもの XML の精神には適合しないが データ量は圧縮できる 記述の定義は http://pdbml.pdb.org/schema/pdbx-v0-ext.xsd を参照のこと 33

参考文献 mmcif J.D. Westbrook, P.E. Bourne, Bioinformatics 6:9-68 (2000) http://mmcif.rcsb.org/ PDBML J.D. Westbrook, N. Ito, H. Nakamura, K. Henrick, H. M. Berman, Bioinformatics 2:988-992 (200) http://pdbml.rcsb.org/ 3

演習問題 () PDB エントリ GOF の PDB ファイル mmcif ファイル PDBML(all) ファイル をダウンロードしてみる 3

演習問題 2 GOF の mmcif ファイルで以下のカテゴリの内 容を確認する struct entity entity_poly pdbx_entity_nonpoly struct_asym struct_ref 36

演習問題 3 先ほど調べたカテゴリの各項目の意味を PDBx 辞書を使って調 べてみる http://mmcif.pdb.org/dictionaries/mmcif_pdbx_v0.dic/index/index.html 37

演習問題 4 カテゴリ間の関係を調べる entity と struct_asym entity と struct_ref pdbx_entity_nonpoly と chem_comp citation と citation_author 38

演習問題 5 カテゴリ間の関係は PDBx 辞書ではどのように 記述されているか調べてみる 39