共起関係解析によるタンパク質の機能モジュール探索法の開発

Similar documents
共起関係解析によるタンパク質の機能モジュール探索法の開発

Ligases の 分類クラス下に階層構造として表 検索機能を持つ 公共データベースサイトへのリンクと構成タンパク質の LSKB 内リンクにより 当該タンパク質をターゲットとする化合物をさまざまな角度から ることができるほか タンパク質を構成するドメインや PDB 複合体リガンド 文献を参照できる

Microsoft PowerPoint - 3rd-jikken-vscreen [互換モード]

Microsoft Word - GCOEキャリアパス支援テクニカルセミナー090709web.doc

研究成果報告書

Microsoft PowerPoint - BIセンターセミナー2013.pptx[読み取り専用]

NL11

untitled

プロジェクト概要 ー ヒト全遺伝子 データベース(H-InvDB)の概要と進展

ヒトゲノム情報を用いた創薬標的としての新規ペプチドリガンドライブラリー PharmaGPEP TM Ver2S のご紹介 株式会社ファルマデザイン

生命情報学

5_motif 公開版.ppt

Microsoft Word J.^...O.|Word.i10...j.doc

ChIP-seq


Microsoft Word - ランチョンプレゼンテーション詳細.doc

生物物理夏学・計算ハンズオン.docx

国際塩基配列データベース n DNA のデータベース GenBank ( アメリカ :Na,onal Center for Biotechnology Informa,on, NCBI が運営 ) EMBL ( ヨーロッパ : 欧州生命情報学研究所が運営 ) DDBJ ( 日本 : 国立遺伝研内の日

次世代シークエンサーを用いたがんクリニカルシークエンス解析

CourseDescriptions_

PowerPoint Presentation

PDBj : : 1


Taro13-第6章(まとめ).PDF

EPSON エプソンプリンタ共通 取扱説明書 ネットワーク編

untitled

ありがとうございました

EPSON エプソンプリンタ共通 取扱説明書 ネットワーク編

公務員人件費のシミュレーション分析


橡hashik-f.PDF

198

ネットショップ・オーナー2 ユーザーマニュアル


1

新婚世帯家賃あらまし

05[ ]戸田(責)村.indd

/9/ ) 1) 1 2 2) 4) ) ) 2x + y 42x + y + 1) 4) : 6 = x 5) : x 2) x ) x 2 8x + 10 = 0

Microsoft Word - 実習テキスト.doc

人芯経営論 ・・・リーダーシップ考②

平成13年度 地域工業活性化支援事業報告書(多摩全域)

はたらく若者ハンドブック


Microsoft PowerPoint - 7.pptx

平成20年5月 協会創立50年の歩み 海の安全と環境保全を目指して 友國八郎 海上保安庁 長官 岩崎貞二 日本船主協会 会長 前川弘幸 JF全国漁業協同組合連合会 代表理事会長 服部郁弘 日本船長協会 会長 森本靖之 日本船舶機関士協会 会長 大内博文 航海訓練所 練習船船長 竹本孝弘 第二管区海上保安本部長 梅田宜弘

aphp37-11_プロ1/ky869543540410005590

日本内科学会雑誌第96巻第11号

本文/扉1

プログラム


Program


Œ{Ł¶/1ŒÊ −ªfiª„¾ [ 1…y†[…W ]

bioinfo ppt



301-A2.pdf

r


データ科学2.pptx

ACtive 010 2

1 研究開発のねらい 糖鎖は 細胞表面のタンパク質や脂質に結合し 血液型の決定 細胞接着 抗原抗体反応 ウイルス感染などの生体反応で重要な役割を果たす生体分子である 糖鎖による多様な生物学的機能のうち 糖鎖結合タンパク質による糖鎖の特異的認識があり 糖鎖 - タンパク質間の相互作用の解析に糖鎖アレイ

yakugaku-kot.ppt

アノテーション・フィルタリング用パイプラインとクリニカルレポートの作成

3

第2章 生物有機化学実験及び実験法

計算機生命科学の基礎II_

橡matufw

untitled

O


財団法人母子健康協会第三十回シンポジウム

NewBead_no17_4c_pdf.indd

indd

Microsoft PowerPoint - 阿部貴志.ppt

KEGG_PATHWAY.ppt

1_alignment.ppt

KEGG.ppt

2017_Eishin_Style_H01

81

A A = a 41 a 42 a 43 a 44 A (7) 1 (3) A = M 12 = = a 41 (8) a 41 a 43 a 44 (3) n n A, B a i AB = A B ii aa

R pdf

7-1(DNA配列から遺伝子を探す).ppt

GWB

<4D F736F F D20838C837C815B836789DB91E890E096BE2E646F6378>

.1 A cos 2π 3 sin 2π 3 sin 2π 3 cos 2π 3 T ra 2 deta T ra 2 deta T ra 2 deta a + d 2 ad bc a 2 + d 2 + ad + bc A 3 a b a 2 + bc ba + d c d ca + d bc +

記号と準備

Mathematical Logic I 12 Contents I Zorn

論文題目  腸管分化に関わるmiRNAの探索とその発現制御解析

バイオインフォマティクスⅠ

PowerPoint プレゼンテーション

<4D F736F F D E95F14E565F838C D955F907D90E096BE5F8F4390B394C5816A2E646F63>

PowerPoint プレゼンテーション

点眼薬 FAQ.PDF

の活性化が背景となるヒト悪性腫瘍の治療薬開発につながる 図4 研究である 研究内容 私たちは図3に示すようなyeast two hybrid 法を用いて AKT分子に結合する細胞内分子のスクリーニングを行った この結果 これまで機能の分からなかったプロトオンコジン TCL1がAKTと結合し多量体を形

Microsoft PowerPoint - T07 豊田先生.pptx

II


PowerPoint プレゼンテーション

thermofisher.com mirVana miRNA mimics/inhibitors 検索マニュアル

Transcription:

2013.11.29 統合データ解析トライアル 中間激励会 共起関係解析によるタンパク質の機能モジュール探索法の開発 九州工業大学 情報工 生命情報 藤井聡 2013 藤井聡 ( 九州工業大学 )licensed under CC 表示 2.1 日本 1

背景 疾病関連遺伝子 ドメイン モチーフ ドラッグターゲット T/G Gefitinib LUNG CANCER OMIM NHGRI GWAS Catalog Human Variation DB etc... PROSITE Pfam InterPro CATH SCOP etc.. EGFR CYP2D6 ABCG2 DrugBank PubChem KEGG DRUG etc.. etc.. 2

EGFR tyrosine kinase domain の結晶構造 LEU858ARG, NONSMALL CELL LUNG CANCER (OMIM) 機能モジュール : 3 次元構造中で近傍に存在しており関係性が高い ROTEIN_KINASE_ATP PROSITE) PROTEIN_KINASE_TYR (PROSITE) 3

目的 非常に多くのゲノム プロテオームに関する情報の集積体 ( データベース ) が構築されている 疾病関連遺伝子やタンパク質の機能を示すドメインやモチーフ 薬剤などの相互作用部位を現すリガンド相互作用 タンパク質 - タンパク質相互作用などが挙げられる しかし 単独では価値を理解することが難しいものも多い 疾病情報やドメインなどの機能情報同士の間に浮かび上がる共起関係に注目し 構造と機能の有機的な結び付きを現す機能モジュールを探索する手法を開発することを目的とする 4

方法 研究項目として 検出するターゲットは PROSITE, Pfam から得ることのできる機能ドメインと機能モチーフに対象を絞る 共起関係は 1 対 1 の関係に絞って解析手法を確立する 1. データの取得と生成 データの整形 2. 共起関係の解析手法の確立 3. データベース作成ならび検索サイトの作成 最終的にその得られた共起関係のリストを 空間的な距離やその出現数 統計的な有意性を含めてデータベースとして公開するまでを第 1 目標とする 5

研究開発の主なスケジュール 研究開発項目 平成 25 年 10 月 平成 25 年 11 月 平成 25 年 12 月 平成 26 年 1 月 1. データの取得と生成 データの整形 2. 共起関係の解析手法の開発 3. データベース作成ならび検索サイトの作成 6

データの取得と生成 データの整形 タンパク質の3 次元構造データ PDBjより全 PDB 構造を取得する ドメイン モチーフの情報 タンパク質に存在するドメイン モチーフの情報はPROSITEから得る ドメイン モチーフの位置についての情報が存在しないので タンパク質配列に対してPROSITEのps_scanにより配列に対して予測計算を行い求める Pfamのドメイン情報も進行状況次第で取り入れる タンパク質構造の冗長化 タンパク質の構造は同じタンパク質から複数得られていたり タンパク質の一部分のみの構造が得られていたりしているので冗長化を行う必要がある すでに前研究でUniprotを利用しタンパク質構造情報の冗長化は行っているので それをドメイン モチーフにも適応させる 7

データの取得と生成 データの整形 タンパク質の3 次元構造データ PDBjより全 PDB 構造を取得する ドメイン モチーフの情報 タンパク質に存在するドメイン モチーフの情報はPROSITEから得る ドメイン モチーフの位置についての情報が存在しないので タンパク質配列に対してPROSITEのps_scanにより配列に対して予測計算を行い求める Pfamのドメイン情報も進行状況次第で取り入れる タンパク質構造の冗長化 タンパク質の構造は同じタンパク質から複数得られていたり タンパク質の一部分のみの構造が得られていたりしているので冗長問題点 : モチーフの位置が微妙にずれることがある 化を行う必要がある PDB chainをタンパク質配列にblast 等でアライメント すでに前研究でUniprot して位置を定める必要あり を利用しタンパク質構造情報の冗長化は行っているので それをドメイン モチーフにも適応させる 8

共起関係の検出 1 タンパク質構造中で近傍に存在する共起関係の検出 2 タンパク質全体で高頻度に見られる共起関係の検出 EGFR FYN NTRK1 3 1+2 両方の条件に合致する共起関係の検出 9

結果 : 2 つのモチーフ同士の距離 Uniprot. ID_A PDB.cha in.id_a Prosite_A Start_A End_B Uniprot. ID_B PDB.cha in.id_b Prosite_B Start_B End_B Cα.dist (min) Cα.dist (ave.) P09326 2edoA PS00001 25 28 P09326 2edoA PS00006 29 32 3.804 10.017 P15424 3i61A PS00008 560 565 P15424 3i61A PS51194 355 512 9.029 27.395 P63577 3p32A PS00005 35 37 P63577 3p32A PS00006 31 34 3.838 7.817 P38501 3h4fA PS00006 5 8 P38501 3h4fB PS00008 225 230 35.963 39.736 Q9X273 3azrB PS00008 252 257 Q9X273 3azrB PS00008 293 298 8.404 16.302 Prosite モチーフ数 : 2,006 総 PDBchain 数 : 221,581 総タンパク質数 : 28,865 モチーフ Hit 数 : 3,163,170 モチーフ組み合わせ数 : 146,673,695 10

モチーフ間の Cα 最短距離の分布 11

共起関係の検出法 モチーフ A とモチーフ B の潜在 Site の組み合わせ総数 (T A,B ) [i] という PDB 構造の chain [j ] におけるモチーフ A の潜在 Site 数 (S A,i,j ) S A,i,j = L i,j m A + 1, L i,j m A 0, L i,j < m A L i,j : [i] というPDB 構造のchain [j ] の配列長 m A : モチーフAの長さ モチーフ A とモチーフ B の共起数 (N A,B ) AAA PPPP cccccc T A,B = ( S A,i,j i j cccccc S B,i,j ) j mmmmmm hiiiii PDDD cccccc Hit したモチーフ A とモチーフ B の潜在 Site の組み合わせ数 (N A ) Hit したモチーフ B とモチーフ A の潜在 Site の組み合わせ数 (N B ) N A = S B,i,j i mmmmmm hiiiii PDDD N B = S A,i,j i j cccccc j 12

結果 : 共起関係の enrichment Motif_combination N A,B N A N B T A,B p-value FDR PS00115_PS51133 2362 8917230 473465 91929148880 0 0 PS00783_PS01106 77 965236 329600 94485660482 0 0 PS00006_PS51388 396 1.27E+09 17486 85477197004 9.99E-16 3.55E-15 PS00163_PS50310 16 395938 1511892 1.00611E+11 0.000159 0.000356 PS00008_PS01194 5827 1.54E+09 364364 97893945372 0.073852 0.130755 PS00585_PS01073 1 611674 310966 91321151148 0.615961 0.922663 PS00008_PS50031 21 1.25E+09 2252 79521254315 0.993606 1 PS00008_PS50810 48 1.14E+09 5461 73018045354 0.999994 1 *p-value は超幾何分布により算出 FDR < 0.05: 12,867entries N A,B P(X = k) = 1 k N B k T A,B N B N A k T A,B N A FDR は BH 法により計算 13

距離と共起の Enrichment の両方での 共起の Enrichment における有意性が FDR< 0.05 である 含まれているモチーフ同士の Cα 最短距離がすべて 3.5-6.0 Å 内にある 上の 2 つの条件に合うモチーフの共起のみにしぼった Motif combination N A,B N A N B T A,B p-value FDR N(3.5-6.0 Å) PS00621_PS50240 31 19265 978872 8.82E+10 0 0 31 PS00135_PS00286 7 860346 3720 9.73E+10 0 0 7 PS50883_PS50925 20 23706 31138 6.01E+10 0 0 20 PS51096_PS51480 4 60 4242 3.91E+10 0 0 4 PS00623_PS00626 5 103158 141064 9.63E+10 1.45E-08 4.01E-08 5 PS00135_PS51390 2 752375 1426 8.92E+10 2.87E-07 7.50E-07 2 PS00029_PS00367 7 8426690 17903 9.67E+10 0.00022 0.000489 7 PS00107_PS00221 5 3359325 51156 9.8E+10 0.009238 0.018139 5 PS00299_PS50002 2 300387 160106 8.62E+10 0.019142 0.036359 2 PS50240_PS51004 1 55998 73610 1.91E+10 0.020202 0.0383 1 181 entries 14

実例 : PS00029_PS00367 の共起関係 PS00367: (A: 268-279) Biopterin-dependent aromatic amino acid hydroxylases signature P17752 P04177 P70080 Tryptophan 5-hydroxylase 1 (Human) 3hf6A 1mlwA 3hf8A 3hfbA Tyrosine 3-monooxygenase (Rat) 1tohA 2tohA Tryptophan 5-hydroxylase 1 (Chicken) 3e2tA PS00029: (A: 320-341) Leucine zipper pattern PDBID:3HF6 (human tryptophan hydroxylase type 1 ) 15

実例 : PS00286_PS00135 の共起関係 PS00286: (I: 503-522) Squash family of serine protease inhibitors signature PS00135: (E: 189-200) Serine proteases, trypsin family, serine active site P01074 2staI P35031 2staE P01074 1ppeI P00760 1ppeE P10293 2btcI P00760 2btcE P12071 1h9iI P00761 1h9iE P10295 1f2sI P00760 1f2sE P10293 2stbI P35031 2stbE P30709 1mctI P00761 1mctA PDBID:2STA(SALMON TRYPSIN IN COMPLEX WITH SQUASH SEED INHIBITOR) 16

まとめ 現状はスケジュールどおりに進行している 課題は残っているが 共起関係の検出を一通り行った タンパク質の冗長化が現状ではうまく行えていない Blast を行い冗長化を行う必要がある モチーフ同士の距離の関係では 相互作用しているかのようなピークが見られた 共起関係の enrichment によっても絞ることができた 距離の関係と Enrichment の両方を使って絞り込むと 重要そうな共起関係が検出できていた 今後は 残っている課題を解決して 出力をデータベースにまとめ検索サイトを作成する 17