PDB の 新 フォーマット 金城玲 日本蛋白質構造データバンク (PDBj) 大阪大学蛋白質研究所 1

Similar documents
この講義でやること PDBjのwebページの復習 webページのデータの元になっているデータ形 式の解説 上記の演習 2

PDB データの読み解き方 mmcif と PDBML 金城玲 大阪大学蛋白質研究所 PDBj講習会 1

mmCIF とPDBML形式

トーゴーの日シンポジウム 2016 東大弥生講堂, 5 October 2016 生命科学におけるデータサイエンスの課題と PDB 中村春木 大阪大学蛋白質研究所

PDBのデータとその見方 探し方 PDBj講習会 金城玲 大阪大学蛋白質研究所

Microsoft PowerPoint - HOMCOS講習会_ ppt [互換モード]

第1部 蛋白質とは Protein Data Bank (PDB)とは

ウェブサービスとは WWWを介してデータの取得 解析などをサー バ側で行うサービス 人が直接使うことは意図されていない プログラム等を使って大量に処理できる(単純) 作業を意図している SOAP, REST

PowerPoint プレゼンテーション

Microsoft PowerPoint - PDBjing実習.ppt

PDBj : : 1

Microsoft PowerPoint - PSSJ_2019神戸(栗栖)

取扱説明書 [F-05E]

P P P P P P P P P P P P P

プログラム

[A](2): [B](4): DNA [B] [B](4):

かんたん操作ガイド[arrows M02]

かんたん操作ガイド[arrows RM02]



かんたん操作ガイド[arrows M03]

SD SD SD

2 key. 3

- 1 -

%

ID010-2

2

財団法人母子健康協会第三十回シンポジウム

橡matufw


NewBead_no17_4c_pdf.indd

untitled

O

スライド 1

40_No43.indd

2

2007.3„”76“ƒ


201_P1_P24(2)

indd


sayo pdf

月信11-12pdf用.indd

広報ちくしの_ indd


katagami No.65

P01-14.indd

新善-1208

レッツ中央205号.indd

8_p01.indd

えふ・サポート-113号-162.indd

untitled




d


1_p01.indd

レッツ中央210号.indd


レッツ中央212号.indd

0405宅建表01.indd

広報ちくしの_ indd


目次 研究目的 背景システム開発について実験および評価結論

勉強会の流れ Google API の概要 デモ curl で実際に体験 Copyright 2010 SRA OSS, Inc. Japan All rights reserved. 2

, ,279 w

Microsoft Word - CygwinでPython.docx

表1-表4

構成管理記録テンプレート仕様書

2 概要 市場で不具合が発生にした時 修正箇所は正常に動作するようにしたけど将来のことを考えるとメンテナンス性を向上させたいと考えた リファクタリングを実施して改善しようと考えた レガシーコードなのでどこから手をつけて良いものかわからない メトリクスを使ってリファクタリング対象を自動抽出する仕組みを

タイトル

Winmostar- Gromacs Tutorial 2 タンパク系 (pdb2gmx を使用 ) V6.005 株式会社クロスアビリティ 2016/1/15


V8.1新規機能紹介記事

ソフトウェア基礎 Ⅰ Report#2 提出日 : 2009 年 8 月 11 日 所属 : 工学部情報工学科 学籍番号 : K 氏名 : 當銘孔太

スライド 1

タイトル


<955C8E86819A2E6169>

yakugaku-kot.ppt

健診の手引き_0707変.indd

目次 更新履歴... 1 画面設計書の目的... 3 必要な内容... 3 画面一覧... 4 必要な内容... 4 画面遷移... 5 画面レイアウト... 6 入力パラメータ... 7 必要な内容... 7 項目定義... 8 必要な内容... 8 部品の種類... 9 ( 参考 ) 部品指定と

JavaプログラミングⅠ

システム設計書 システム名 : 居酒屋検索システム 教育情報システム学講座 岩淵直人 プロクター鎌田奉訓 1. 要求仕様書に関する内容 システム機能の概要 居酒屋の新規登録および削除 編集が行えること 検索機能は人数 料金 場所 ジャンル( 和 洋 中 ) で検索できること 検

目次 1. CSV の種類と権限 各アドレス帳 CSV ファイルの登録 更新 削除 会社アドレス帳 CSV の登録 更新 削除 個人アドレス帳 CSV の登録 更新 削除 端末認証リスト CSV ファイルの登録 更新 削除 端末認証リスト CSV の登録 更

untitled

HITACHI 液晶プロジェクター CP-AX3505J/CP-AW3005J 取扱説明書 -詳細版- 【技術情報編】

取扱説明書 [F-12C]

<4D F736F F D D815B A982E782CC E E646F6378>

リスト 1 1 <HTML> <HEAD> 3 <META http-equiv="content-type" content="text/html; charset=euc-jp"> 4 <TITLE> 住所の検索 </TITLE> 5 </HEAD> 6 <BODY> <FORM method=

取扱説明書 -詳細版- 液晶プロジェクター CP-AW3019WNJ

独立行政法人産業技術総合研究所 PMID-Extractor ユーザ利用マニュアル バイオメディシナル情報研究センター 2009/03/09 第 1.0 版

2 (1) (2) SCI 2 SCI

ACD/1D NMR Processor:基本トレーニング

EL-G37


VESTA講習-v001-gaku.PDF

Microsoft Word 基_シラバス.doc


Transcription:

PDB の 新 フォーマット 金城玲 日本蛋白質構造データバンク (PDBj) 大阪大学蛋白質研究所 1

概要 PDB の 新 フォーマットとは? PDBx/mmCIF なぜ 新 フォーマットに移行するのか? PDB format の限界 対応済みソフトウェア 自作のソフトはどうする? 2

新 フォーマットとは? 3

PDBx/mmCIF のことです! PDBx (PDB exchange dictionary) に基づく STAR(Self-defining Text Archive and Retrieval) 文法で記述されている CIF(Crystallographic Information Format) を PDB 用に拡張したもの : macromolecular CIF mmcif 4

PDBx/mmCIF を見てみる 5

もう少し良く見てみる datablock entry ID 繰返し項目 (loop)...... 6

PDBx/mmCIF の基本 データはいろいろなカテゴリに分類されている _category.item 例 : _entry.id _entry はカテゴリ名 id はその項目 (item) _entry.id 3W4I は entry カテゴリの id 項目の値が 3W4I である という意味 データの記述の仕方は 2 通り key-value: 一つのカテゴリに一つの値しかない場合 loop: 一つのカテゴリに複数の値がある場合 7

key-value の例 _cell.entry_id 3W4I _cell.length_a 148.696 _cell.length_b 181.529 _cell.length_c 50.612 _cell.angle_alpha 90.00 _cell.angle_beta 90.00 _cell.angle_gamma 90.00 _cell.z_pdb 16 _cell.pdbx_unique_axis? _cell.length_a_esd? _cell.length_b_esd? _cell.length_c_esd? _cell.angle_alpha_esd? _cell.angle_beta_esd? _cell.angle_gamma_esd? # 最後の # はそのカテゴリの記述の終わりを表す convention 8

loop の例 loop_ ループの開始 _entity.id _entity.type _entity.src_method _entity.pdbx_description _entity.formula_weight _entity.pdbx_number_of_molecules 項目のリスト _entity.details _entity.pdbx_mutation _entity.pdbx_fragment _entity.pdbx_ec 1 polymer man 'D-amino-acid oxidase' 39521.289 4??? 1.4.3.3 2 non-polymer syn 'FLAVIN-ADENINE DINUCLEOTIDE' 785.557 4???? 3 non-polymer syn PYRIDINE-2,3-DIOL 111.100 4???? # 実際のデータ 各項目は空白で区切られる 項目リストと同じ順番で並ぶ 空白を含むデータは引用府 ' で囲む 最後の # はそのループの終わりを表す convention 9

なぜ PDBx/mmCIF を使うか? 10

固定コラム数 PDB フォーマットはもう限界です! 最大 99,999 原子まで 最大 36 chain まで 現実には 反則ワザ でもう少し増やしていますが 座標は最大 4 桁まで ( 負号がある場合は 3 桁まで ) アノテーションの不完全さ 複雑怪奇な REMARK 行の自動処理は 例外 処理がルーチン化している 残基番号の一貫性がない 外部 DB との連携が難しい 11

巨大構造の例 HIV-1 capsid (3J3Q 他 ) 1,356 鎖 2,440,800 原子 25 PDB エントリ 1VU5,1VU6,... 3J3Q にまとめられている mmcif, PDBML のみ 12

その他の巨大構造について http://mmcif.pdb.org/large-pdbx-examples/ ftp://ftp.pdbj.org/pub/pdb/data/large_structures/mmcif/ ftp://ftp.pdbj.org/pub/pdb/data/large_structures/xml/ 13

ATOM 行 の例 ( 整合性 ) loop atom_site.group_pdb _atom_site.id _atom_site.type_symbol _atom_site.label_atom_id _atom_site.label_alt_id _atom_site.label_comp_id _atom_site.label_asym_id _atom_site.label_entity_id _atom_site.label_seq_id PDB で正規化されたデータ _atom_site.pdbx_pdb_ins_code _atom_site.cartn_x _atom_site.cartn_y _atom_site.cartn_z _atom_site.occupancy _atom_site.b_iso_or_equiv _atom_site.cartn_x_esd 対応 _atom_site.cartn_y_esd _atom_site.cartn_z_esd _atom_site.occupancy_esd _atom_site.b_iso_or_equiv_esd _atom_site.pdbx_formal_charge _atom_site.auth_seq_id _atom_site.auth_comp_id _atom_site.auth_asym_id 登録者が指定したデータ _atom_site.auth_atom_id _atom_site.pdbx_pdb_model_num ATOM 1 N N. MET A 1 1? 38.130 3.618-16.026 1.00 62.74?????? 1 MET A N 1 ATOM 2 C CA. MET A 1 1? 38.828 4.206-14.836 1.00 62.58?????? 1 MET A CA 1 ATOM 3 C C. MET A 1 1? 37.812 4.785-13.869 1.00 61.80?????? 1 MET A C 1 ATOM 4 O O. MET A 1 1? 37.403 5.938-13.998 1.00 61.77?????? 1 MET A O 1 ATOM 5 C CB. MET A 1 1? 39.811 5.286-15.292 1.00 63.05?????? 1 MET A CB 1 ATOM 6 C CG. MET A 1 1? 40.786 5.768-14.235 1.00 65.31?????? 1 MET A CG 1 ATOM 7 S SD. MET A 1 1? 41.764 4.451-13.470 1.00 70.00?????? 1 MET A SD 1 ATOM 8 C CE. MET A 1 1? 40.683 4.024-12.124 1.00 70.52?????? 1 MET A CE 1 ATOM 9 N N. ARG A 1 2? 37.368 3.972-12.920 1.00 60.73?????? 2 ARG A N 1 ATOM 10 C CA. ARG A 1 2? 36.391 4.441-11.938 1.00 59.98?????? 2 ARG A CA 1 14

PDBx/mmCIF 対応ソフトウェア 分子グラフィクス CHEMERA Jmol OpenRasMol 構造決定 CCP4 Phenix 15

自作ソフトはどうしたら良い? ライブラリを使う C/C++, Java, Perl, Python などが既に使える 自分でパーサを書く STAR 形式の BNF 文法を勉強する ものぐさな人は 今まで PDB フォーマットを扱っていた要領で 慣習 を利用することもできる ATOM 行だけなら比較的簡単です または PDBML(XML) を使う 16

In 2014... Large structure without PDB files. 対応する split エントリはリリースされない 現在の split エントリは削除され あらたに large structure としてまとめられて再リリースされる http://mmcif.pdb.org/large-pdbx-examples/ のデータでソフトのテストをして下さい 17

参考文献 S. R. Hall, J. Chem. Inf. Comput. Sci. (1991) 31, 326-333 (STAR 形式の概要 ) S. R. Hall, J. Chem. Inf. Comput. Sci. (1994) 34, 505-508 (STAR 形式の仕様 ) http://mmcif.pdb.org/ (mmcif 関連情報の拠点 ) International Tables for Crystallography G Ch. 3.6... mmcif の基本概念など PDBj 講習会の資料など mmcif と PDBML 18