5_motif 公開版.ppt

Similar documents
生命情報学

A Constructive Approach to Gene Expression Dynamics

PowerPoint Presentation

オートマトン 形式言語及び演習 1. 有限オートマトンとは 酒井正彦 形式言語 言語とは : 文字列の集合例 : 偶数個の 1 の後に 0 を持つ列からなる集合 {0, 110, 11110,

毎回変動し, 必ずしも良い結果を出力するとは限らない. 理由の一つとして,GS 法は配列データごとに, ランダムに与えた初期値に基づいて類似部分配列の位置を確率的に更新している為, 計算途中でそれらの位置が常に変動し, 結果が安定しないという問題が発生する. 本稿では, この問題を解決する為に, 配

Microsoft PowerPoint - 09re.ppt [互換モード]

M M M M

1 発病のとき

アルゴリズム入門

Microsoft PowerPoint - 3.ppt [互換モード]

GWB



untitled

コンピュータ応用・演習 情報処理システム

平成27年度三菱重工グループ保険 フルガードくん(シニア)

log1-500

オートマトン 形式言語及び演習 3. 正規表現 酒井正彦 正規表現とは 正規表現 ( 正則表現, Regular Expression) オートマトン : 言語を定義する機械正規表現 : 言語

ヒトゲノム情報を用いた創薬標的としての新規ペプチドリガンドライブラリー PharmaGPEP TM Ver2S のご紹介 株式会社ファルマデザイン

Microsoft PowerPoint - Compiler03note.pptx

文法と言語 ー文脈自由文法とLR構文解析2ー

Microsoft PowerPoint - BIセンターセミナー2013.pptx[読み取り専用]

Microsoft PowerPoint - lecture a.pptx

Microsoft PowerPoint - lecture a.pptx

アラインメントはグラフで表現できる

修士論文予稿集の雛型

PowerPoint プレゼンテーション

2 目次 1 はじめに 2 システム 3 ユーザインタフェース 4 評価 5 まとめと課題 参考文献

ソフトウェア基礎 Ⅰ Report#2 提出日 : 2009 年 8 月 11 日 所属 : 工学部情報工学科 学籍番号 : K 氏名 : 當銘孔太

情報数理学

Microsoft PowerPoint _ビッグデータWS.pptx

Microsoft PowerPoint - 1.ppt [互換モード]

PowerPoint プレゼンテーション

Microsoft PowerPoint - Compiler03.pptx

プレポスト【解説】

オートマトン 形式言語及び演習 4. 正規言語の性質 酒井正彦 正規言語の性質 反復補題正規言語が満たす性質 ある与えられた言語が正規言語でないことを証明するために その言語が正規言語であると


_unix_text_command.pptx

第4回

GWB

Microsoft PowerPoint - H17-5時限(パターン認識).ppt

0

PowerPoint プレゼンテーション

進捗状況の確認 1. gj も gjp も動いた 2. gj は動いた 3. gj も動かない 2

11yama

Microsoft PowerPoint - pr_12_template-bs.pptx

Microsoft PowerPoint - アルデIII 10回目12月09日

このルールをそのまま正規表現として書くと 下記のようになります ^A[0-9]{2}00[0-9]{3}([0-9]{2})?$ ちょっと難しく見えるかもしれませんが 下記のような対応になっています 最初 固定 年度 固定 通番 ( 枝番 ) 最後 ルール "A" 数字 2 桁 0 を 2 桁 数字

nlp1-12.key

Microsoft PowerPoint - 5.ppt [互換モード]

Java Scriptプログラミング入門 3.6~ 茨城大学工学部情報工学科 08T4018Y 小幡智裕

SAP11_03

untitled

画像処理工学

(Microsoft Word - \221\262\213\306\230_\225\266.doc)

PowerPoint Presentation

RCDIGITAL

<4D F736F F F696E74202D20352D335F8D5C90AC CF909482CC90B690AC82C695D28F572E707074>

人工知能補足_池村

スライド 1

第2章 生物有機化学実験及び実験法

NLP プログラミング勉強会 5 HMM による品詞推定 自然言語処理プログラミング勉強会 5 隠れマルコフモデルによる品詞推定 Graham Neubig 奈良先端科学技術大学院大学 (NAIST) 1

オートマトンと言語

SQL インジェクションの脆弱性

データ構造

Taro-再帰関数Ⅱ(公開版).jtd

NLP プログラミング勉強会 4 単語分割 自然言語処理プログラミング勉強会 4 - 単語分割 Graham Neubig 奈良先端科学技術大学院大学 (NAIST) 1

untitled

表1票4.qx4

福祉行財政と福祉計画[第3版]

1 研究開発のねらい 糖鎖は 細胞表面のタンパク質や脂質に結合し 血液型の決定 細胞接着 抗原抗体反応 ウイルス感染などの生体反応で重要な役割を果たす生体分子である 糖鎖による多様な生物学的機能のうち 糖鎖結合タンパク質による糖鎖の特異的認識があり 糖鎖 - タンパク質間の相互作用の解析に糖鎖アレイ



PowerPoint プレゼンテーション

フィルタとは

2-1 / 語問題 項書換え系 4.0. 準備 (3.1. 項 代入 等価性 ) 定義 3.1.1: - シグネチャ (signature): 関数記号の集合 (Σ と書く ) - それぞれの関数記号は アリティ (arity) と呼ばれる自然数が定められている - Σ (n) : アリ


C8

Microsoft Word - Javacc.docx

NGSデータ解析入門Webセミナー

Microsoft Word - TMFM_Product.doc

共起関係解析によるタンパク質の機能モジュール探索法の開発

nlp1-04a.key

PowerPoint プレゼンテーション

9 WEB監視

情報量と符号化

An Automated Proof of Equivalence on Quantum Cryptographic Protocols

バイオインフォマティクスⅠ

共起頻度は, そのものです. 例えば, 野球 の Dice 係数の上位の単語は, サッカー : 格闘技 : プロ野球 : ゴルフ : テニス : 試合 : 選手 : 高校野球 :0.157

Microsoft PowerPoint - 簡易マニュアル_ver1.1.ppt [互換モード]

Microsoft PowerPoint 新道路研究会_公開用.pptx

生命情報学

日心TWS


多変量解析 ~ 重回帰分析 ~ 2006 年 4 月 21 日 ( 金 ) 南慶典

次世代シークエンサーを用いたがんクリニカルシークエンス解析

混沌系工学特論 #5

情報処理Ⅰ

untitled

文字列探索

Transcription:

配列モチーフ 機能ドメイン 機能部位 機能的 構造的に重要な部位 は進化の過程で保存 される傾向がある 進化的に保存された ドメイン 配列モチーフ 機能ドメイン中の特徴的な 保存配列パターン マルチプルアライメント から抽出 配列モチーフの表現方法 パターン プロファイル 2

n n n n n n n n ENCODE

n PROSITE パターンの例 n C-x(2,4)-C-x(3)-[LIVMFYWC]-x(8)-H-x(3,5)-H.

E.coli H.influenzae X.fastidiosa Buchnera S.aureus A.thaliana H.pylori T.whipplei EEVCARQIDAVLKT----------------QGAAAFEGAVIAYEPVWAIGTGKSATPAQA EEVCARQIDAVINA----------------LGVEAFNGAVIAYEPIWAIGTGKSATPAQA EAILRAQLEPVLSL----------------VGSAGFARAVVAYEPIWAIGTGRTATPDQA EQVIQRQLNLILKN----------------LGTSAFKNIIIAYEPIWAIGTGVSADPEHV NDVVGEQVKKAVAG----------------LSEDQLKSVVIAYEPIWAIGTGKSSTSEDA MDVVAAQTKAIADR----------------VTN--WSNVVIAYEPVWAIGTGKVASPAQA FKAVKEFLSEQLEN----------------IDLN-YPNLVVAYEPIWAIGTKKSASLEDI LSRFRSVLSHLKAISDKKHSIGYALGSKTHFLDSDQLHMLVAYEPSSAINSGNCANSGDI. ::**** **.: :. E.coli H.influenzae X.fastidiosa Buchnera S.aureus A.thaliana H.pylori T.whipplei QAVHKFIRDHIAKVDAN-IAEQVIIQYGGSVNASNAAELFAQPDIDGALVGGASLKADAF QAVHAFIRGHIAAKSQA-VAEQVIIQYGGSVNDANAAELFTQPDIDGALVGGASLKAPAF QAVHAFIRGEVAKADAR-IADSLPILYGGSVKPDNASELFSQPDVDGGLVGGASLVAEDF QLIHVFIKNYILKYSSI-NRNDIIIQYGGSINHTNVKKFIEQPDINGLLIGNSSLSAKEF NEMCAFVRQTIADLSSKEVSEATRIQYGGSVKPNNIKEYMAQTDIDGALVGGASLK---V QEVHDELRKWLAKNVSADVAATTRIIYGGSVNGGNCKELGGQADVDGFLVGGASLKP-EF YLTHGFLKQILN--------QKTPLLYGGSVNTQNAKEILGIDSVDGLLIGSASWELENF VRMAAAIKDIVN----------VRVLYGGGVNLFNASAVFNEDLLDGILVGRASLNASDF :: : : ***.:: * ::* *:* :*. A-Y-E-P-[IVS]-[WS]-A-I-[GN]-[TS]-[GK] [AVG]-[YLV]-E-P-[LIVMEPKST]-[WYEAS]-[SAL]-[IV]-[GN]-[TEKDVS]-[GKNAD]

配列パターン 保存配列をアミノ酸のパターンとして表現 正規表現による表現方法 w 文字列の集合を一つの文字列で表現する方法 例 w [AV]-Y-E-P-[LIVM]-W-[SA]-I-G-T-[GK] w C-x(2,4)-C-x(3)-[LIVMFYWC]-x(8)-H-x(3,5)-H x: 任意のアミノ酸 x(2,4): 任意のアミノ酸が2 4個続く []: この中のアミノ酸のどれか {}: この中のアミノ酸以外のどれか 見た目に分かりやすいが アミノ酸の出現 頻度情報は失われてしまう 6

n n n n n

E.coli H.influenzae X.fastidiosa Buchnera S.aureus A.thaliana H.pylori T.whipplei E.coli H.influenzae X.fastidiosa Buchnera S.aureus A.thaliana H.pylori T.whipplei EEVCARQIDAVLKT----------------QGAAAFEGAVIAYEPVWAIGTGKSATPAQA EEVCARQIDAVINA----------------LGVEAFNGAVIAYEPIWAIGTGKSATPAQA EAILRAQLEPVLSL----------------VGSAGFARAVVAYEPIWAIGTGRTATPDQA EQVIQRQLNLILKN----------------LGTSAFKNIIIAYEPIWAIGTGVSADPEHV NDVVGEQVKKAVAG----------------LSEDQLKSVVIAYEPIWAIGTGKSSTSEDA MDVVAAQTKAIADR----------------VTN--WSNVVIAYEPVWAIGTGKVASPAQA FKAVKEFLSEQLEN----------------IDLN-YPNLVVAYEPIWAIGTKKSASLEDI LSRFRSVLSHLKAISDKKHSIGYALGSKTHFLDSDQLHMLVAYEPSSAINSGNCANSGDI. ::**** **.: :. A-Y-E-P-[IVS]-[WS]-A-I-[GN]-[TS]-[GK] QAVHKFIRDHIAKVDAN-IAEQVIIQYGGSVNASNAAELFAQPDIDGALVGGASLKADAF QAVHAFIRGHIAAKSQA-VAEQVIIQYGGSVNDANAAELFTQPDIDGALVGGASLKAPAF QAVHAFIRGEVAKADAR-IADSLPILYGGSVKPDNASELFSQPDVDGGLVGGASLVAEDF QLIHVFIKNYILKYSSI-NRNDIIIQYGGSINHTNVKKFIEQPDINGLLIGNSSLSAKEF NEMCAFVRQTIADLSSKEVSEATRIQYGGSVKPNNIKEYMAQTDIDGALVGGASLK---V QEVHDELRKWLAKNVSADVAATTRIIYGGSVNGGNCKELGGQADVDGFLVGGASLKP-EF V YLTHGFLKQILN--------QKTPLLYGGSVNTQNAKEILGIDSVDGLLIGSASWELENF VRMAAAIKDIVN----------VRVLYGGGVNLFNASAVFNEDLLDGILVGRASLNASDF I :: : : ***.:: * ::* *:* :*. S

n n n

配列プロファイル 位置特異的スコアマトリックス 位置 i におけるアミノ酸 j の出現頻度 n(i,j) : 位置 i においてアミノ酸 j が出現した個数 N : アライメントに含まれる配列の本数 位置 i におけるアミノ酸 j のスコア P(j) : アライメントを構築している配列全体または データベース全体から得られるアミノ酸組成 11

d 1 d 2 d 3 d 4 i 0 i 1 i 2 i 3 i 4 m 0 m 1 m 2 m 3 m 4 m 5

配列プロファイル 隠れマルコフモデル 隠れマルコフモデル 有限オートマトン 確率 出力記号集合Σ 状態集合 S={1,2,,n} 遷移確率 状態 k 状態 l akl 出力確率 ek(b) 0.3 0.4 A: 0.2 B: 0.8 1 0.6 2 0.7 3 0.5 A: 0.1 B: 0.9 0.5 A: 0.9 B: 0.1 14

配列プロファイル 隠れマルコフモデル 隠れマルコフモデルのアルゴリズム Viterbi アルゴリズム 出力記号列から状態列を推定 構文解析 2312312 BABBABB 0.3 0.4 A: 0.2 B: 0.8 1 0.6 A: 0.1 B: 0.9 2 0.7 3 0.5 0.5 A: 0.9 B: 0.1 15

配列プロファイル 隠れマルコフモデル 隠れマルコフモデルのアルゴリズム Baum-Welch アルゴリズム EM (Expectation-Maximization) アルゴリズム 出力記号列からパラメータを推定 学習 BABBABB BBAABBABB ABBABBB BABAABB 0.3 0.4 A: 0.2 B: 0.8 1 0.6 2 1 2 0.7 3 0.5 3 A: 0.1 B: 0.9 0.5 A: 0.9 B: 0.1 16

d 1 d 2 d 3 d 4 i 0 i 1 i 2 i 3 i 4 m 0 m 1 m 2 m 3 m 4 m 5

n w n w n w n w n w

ホモロジー検索とモチーフ検索 質問配列 質問配列 ホモロジー 知識獲得 検索 配列データベース モチーフ辞書 類似配列 モチー フ検索 専門知識 生物学的 意味解釈 専門知識 23

n w w n w n w w w n w