生命情報学

Similar documents
A Constructive Approach to Gene Expression Dynamics

生命情報学

bioinfo ppt

生命情報学

生物物理 Vol. 45 No. 1 (2005) だけ正確なアラインメントが必要な方 (4) 立体構造とアミノ酸配列の関係, あるいは立体構造と機能との関係に興味がある方 2. おもなサービス 2.1 ペアワイズ3Dアラインメントこれは2つの構造をアラインメントする基本的な機能であり,MATRAS

Microsoft PowerPoint - 10.pptx

Microsoft PowerPoint SIGAL.ppt

Microsoft PowerPoint - 13approx.pptx

Microsoft PowerPoint - DA2_2019.pptx

PowerPoint Presentation

生命情報学

情報システム評価学 ー整数計画法ー

CourseDescriptions_

混沌系工学特論 #5

Microsoft PowerPoint - 13.ppt [互換モード]

オートマトン 形式言語及び演習 3. 正規表現 酒井正彦 正規表現とは 正規表現 ( 正則表現, Regular Expression) オートマトン : 言語を定義する機械正規表現 : 言語

<4D F736F F F696E74202D2097A791CC8D5C91A282A982E782CC8FEE95F1928A8F6F2E >

tnbp59-21_Web:P2/ky132379509610002944

Microsoft PowerPoint - lecture a.pptx

Information Theory

Microsoft PowerPoint - 9.pptx

Microsoft PowerPoint - 9.pptx

Microsoft PowerPoint - 10.pptx

オートマトン 形式言語及び演習 1. 有限オートマトンとは 酒井正彦 形式言語 言語とは : 文字列の集合例 : 偶数個の 1 の後に 0 を持つ列からなる集合 {0, 110, 11110,

Microsoft PowerPoint - ppt-7.pptx

Microsoft Word 生体分子構造学.docx

Microsoft PowerPoint - mp11-06.pptx

PowerPoint Presentation

Microsoft PowerPoint - 3rd-jikken-vscreen [互換モード]

Information Theory

Microsoft PowerPoint - lecture a.pptx

umeda_1118web(2).pptx

<4D F736F F D20838C837C815B836789DB91E890E096BE2E646F6378>

PowerPoint プレゼンテーション

Microsoft PowerPoint - LiteracyI web.ppt

Microsoft PowerPoint - PDBjing実習.ppt

5_motif 公開版.ppt

Microsoft PowerPoint - 三次元座標測定 ppt

線形代数とは

Microsoft PowerPoint - DA2_2017.pptx

Microsoft PowerPoint - NA03-09black.ppt

航空機の運動方程式

PowerPoint Presentation

FEM原理講座 (サンプルテキスト)

多次元レーザー分光で探る凝縮分子系の超高速動力学

vecrot

国際塩基配列データベース n DNA のデータベース GenBank ( アメリカ :Na,onal Center for Biotechnology Informa,on, NCBI が運営 ) EMBL ( ヨーロッパ : 欧州生命情報学研究所が運営 ) DDBJ ( 日本 : 国立遺伝研内の日

ボルツマンマシンの高速化

Microsoft PowerPoint - BIセンターセミナー2013.pptx[読み取り専用]

0 21 カラー反射率 slope aspect 図 2.9: 復元結果例 2.4 画像生成技術としての計算フォトグラフィ 3 次元情報を復元することにより, 画像生成 ( レンダリング ) に応用することが可能である. 近年, コンピュータにより, カメラで直接得られない画像を生成する技術分野が生

Microsoft PowerPoint - qcomp.ppt [互換モード]

Microsoft PowerPoint - 資料04 重回帰分析.ppt

コンピュータ応用・演習 情報処理システム

ii 3.,. 4. F. (), ,,. 8.,. 1. (75% ) (25% ) =9 7, =9 8 (. ). 1.,, (). 3.,. 1. ( ).,.,.,.,.,. ( ) (1 2 )., ( ), 0. 2., 1., 0,.

多変量解析 ~ 重回帰分析 ~ 2006 年 4 月 21 日 ( 金 ) 南慶典

簡単な検索と整列(ソート)

アルゴリズム入門

2011年度 大阪大・理系数学

Microsoft PowerPoint - LiteracyI web.ppt

DVIOUT-17syoze

第2章 生物有機化学実験及び実験法

連続講演会 東京で学ぶ京大の知 シリーズ 16 社会に浸透する情報技術第 2 回 ゲノム情報のコンピュータ解析 高校数学 +α による先端的解析手法 京都大学が東京 品川の 京都大学東京オフィス で開く連続講演会 東京で学ぶ京大の知 のシリーズ 16 社会に浸透する情報技術 9 月 22 日の第 2

H AB φ A,1s (r r A )Hφ B,1s (r r B )dr (9) S AB φ A,1s (r r A )φ B,1s (r r B )dr (10) とした (S AA = S BB = 1). なお,H ij は共鳴積分 (resonance integra),s ij は重

Microsoft Word - note02.doc

ニュートン重力理論.pptx

オートマトン 形式言語及び演習 4. 正規言語の性質 酒井正彦 正規言語の性質 反復補題正規言語が満たす性質 ある与えられた言語が正規言語でないことを証明するために その言語が正規言語であると

<4D F736F F D20332E322E332E819C97AC91CC89F090CD82A982E78CA982E9466F E393082CC8D5C91A291CC90AB945C955D89BF5F8D8296D85F F8D F5F E646F63>

生物学入門

4 月 東京都立蔵前工業高等学校平成 30 年度教科 ( 工業 ) 科目 ( プログラミング技術 ) 年間授業計画 教科 :( 工業 ) 科目 :( プログラミング技術 ) 単位数 : 2 単位 対象学年組 :( 第 3 学年電気科 ) 教科担当者 :( 高橋寛 三枝明夫 ) 使用教科書 :( プロ

コンピュータ工学講義プリント (7 月 17 日 ) 今回の講義では フローチャートについて学ぶ フローチャートとはフローチャートは コンピュータプログラムの処理の流れを視覚的に表し 処理の全体像を把握しやすくするために書く図である 日本語では流れ図という 図 1 は ユーザーに 0 以上の整数 n

Nakamura

2-1 / 語問題 項書換え系 4.0. 準備 (3.1. 項 代入 等価性 ) 定義 3.1.1: - シグネチャ (signature): 関数記号の集合 (Σ と書く ) - それぞれの関数記号は アリティ (arity) と呼ばれる自然数が定められている - Σ (n) : アリ

第4回バイオインフォマティクスアルゴリズム実習

学習指導要領

2011年度 筑波大・理系数学

<8D828D5A838A817C A77425F91E6318FCD2E6D6364>

2018年度 筑波大・理系数学

スライド 1

Microsoft PowerPoint - 発表II-3原稿r02.ppt [互換モード]

機構学 平面機構の運動学

Microsoft PowerPoint - 05.pptx

スライド タイトルなし

2018/6/12 表面の電子状態 表面に局在する電子状態 表面電子状態表面準位 1. ショックレー状態 ( 準位 ) 2. タム状態 ( 準位 ) 3. 鏡像状態 ( 準位 ) 4. 表面バンドのナローイング 5. 吸着子の状態密度 鏡像力によるポテンシャル 表面からzの位置の電子に働く力とポテン

Microsoft Word - å“Ÿåłžå¸°173.docx

曲線 = f () は を媒介変数とする自然な媒介変数表示 =,= f () をもつので, これを利用して説明する 以下,f () は定義域で連続であると仮定する 例えば, 直線 =c が曲線 = f () の漸近線になるとする 曲線 = f () 上の点 P(,f ()) が直線 =c に近づくこ

Microsoft Word - 卒業論文.doc

Microsoft Word ã‡»ã…«ã‡ªã…¼ã…‹ã…žã…‹ã…³ã†¨åłºæœ›å•¤(佒芤喋çfl�)

33 MD-SAXS 法 [ 技術の概要 ] マルチドメインタンパク質や天然変性タンパク質など フレキシブルで結晶化しにくく X 線結晶構造解析が難しいタンパク質は数多く存在する また 結晶構造と溶液構造が異なると想定される場合もある そのような場合 低解像度ながら 溶液構造情報を X 線小角散乱

Microsoft PowerPoint - 2.ppt [互換モード]

数学の世界

Microsoft Word - K-ピタゴラス数.doc

FMO法のリガンド-タンパク質相互作用解析への応用

論理と計算(2)

34 タンパク質の立体構造予測 タンパク質の配列から 立体構造を予測します あらゆるレベルに応じた対応をします モデリング可能なもの高精度モデリングを行います モデリングが難しいもの技術の粋をこらして鋳型を探します 人工鋳型も作成します 構造がないもの天然変性領域を予測します 支援に供する設備名など

画像解析論(2) 講義内容

Microsoft Word - 5章摂動法.doc

情報処理Ⅰ

Microsoft PowerPoint - pr_12_template-bs.pptx

タンパク質の合成と 構造 機能 7 章 +24 頁 転写と翻訳リボソーム遺伝子の調節タンパク質の構造弱い結合とタンパク質の機能

Microsoft PowerPoint - 第3回2.ppt

Transcription:

生命情報学 (6) タンパク質構造解析 阿久津達也 京都大学化学研究所 バイオインフォマティクスセンター

タンパク質立体構造

アミノ酸とタンパク質 アミノ酸 :20 種類 アミノ酸 R 側鎖 タンパク質 : アミノ酸の鎖 ( 短いものはペプチドと呼ばれる ) 蛋白質 アミノ基 H R C N H H N H C O C H H N C O OH カルボシキル基 O H C C R ペプチド結合

タンパク質の種類と高次構造 タンパク質の分類 球状タンパク質繊維状タンパク質膜タンパク質 一次構造 ( アミノ酸配列 ) 二次構造 (α β それ以外 ( ループ コイル )) 三次構造 ( 三次元構造 立体構造 ) 四次構造 ( 複数の鎖 )

タンパク質立体構造の決定 主に X 線結晶解析か NMR 解析による 一般にX 線解析の方が精度が高いしかし 結晶中の構造しかわからない アミノ酸配列決定より困難 半年から 1 年くらいかかることも珍しく無い 既知アミノ酸配列 >> 10 万 既知立体構造 < 数万

タンパク質立体構造の特徴 基本的には鎖 ( ひも ) 状 二種類の特徴的な構造が頻繁に現れ 立体構造の骨格 ( コア ) を作る α へリックス ( らせん状の部分 ) β シート ( ひも状の部分が並んだ部分 ) α β ループ

タンパク質立体構造の例 (1) 立体構造 :Cα 原子の座標列で概要がわかる α へリックスと β シートが構造の骨格を形成

タンパク質立体構造の例 (2)

タンパク質立体構造の例 (3)

構造とアミノ酸の種類の関係 ( 球状 ) タンパク質 内側 : 疎水性アミノ酸外側 : 親水性アミノ酸 α へリックス 内側 : 疎水性外側 : 親水性 β ストランド 疎水性と親水性が交互に現れる ループ領域 親水性が高い

立体構造アラインメント

タンパク質立体構造比較の必要性 立体構造と機能の間には密接な関係 配列が似ていなくても構造類似のタンパク質が多数存在 構造分類データベース SCOP( 人間が分類 ) FSSP(DALI プログラムにより分類 ) CATH(SSAP プログラムなどにより分類 )

立体構造アラインメント 立体構造の類似性判定のために有用 どのように回転 平行移動すれば 最適な残基間の対応づけ ( アラインメント ) が得られるかを計算 配列アラインメントの場合と異なり 決定版というようなアルゴリズムが無い

構造アラインメント例 ヘモグロビン ミオグロビン

RMSD(Root Mean Square Deviation) 点 (e.g., Cα 原子 ) の対応関係がわかっている場合に最適な重ね合わせとなる回転 平行移動を計算 行列計算により O(n) 時間で計算可能 p4 p2 p3 p1 q2 q1 q3 q4 d rms ( P, Q) T min T 1 n n i= 1 T ( p i ) q i 2

構造アラインメントプログラム : stralign 広くは利用されていないが 理論 ( 計算幾何学 ) 的考察に基づいてアルゴリズムが設計されている 問題の定義入力 : 3 次元点列 : P=( p 1,, p m ), Q=(q 1,, q n ), および 実数 δ (m n とする ) 出力 : 以下を満たし かつ 長さ ( アラインされる点のペアの個数 ) が最大となる P,Q 間のアラインメント M ( および 付随する平行 回転移動 T ) ( p max i, q j ) M T ( p i ) q j δ

stralign の基本アルゴリズム M 0 {} for all triplets PP=(p i1,p i2,p i3 ) from P do for all triplets QQ=(q j1,q j2,q j3 ) from Q do Compute rigid motion T PP,QQ from PP to QQ Compute alignment M between T PP,QQ (P) and Q if M > M 0 then M 0 M Output M 0

回転 平行移動 T PP,QQ の計算法 PP=(p 1,p 2,p 3 ) QQ=(q 1,q 2,q 3 ) に対する T PP,QQ の計算法 p1 q1 q3 q2 p 1 が q 1 に重なるように PP を並行移動 p 1 p 2 と q 1 q 2 が同一直線上にあるように PP を回転移動 p2 p3 T PP,QQ PP と QQ が同一平面上にあるように PP を p 1 p 2 を軸として回転移動

T(P) と Q に対するアラインメント M の計算 p1 p2 p3 q1 q2 q3 q4 cδ q1 q2 q3 q4 p1 p2 p3 = + = otherwise 0 ) ( if 1 1] 1, [ 1], [ ] 1, [ max ], [ cδ T w w j i S j i S j i S j i S j i ij ij q p

基本アルゴリズムの性能解析 (1) 補題 : PP=(p 1,p 2,p 3 ), QQ=(q 1,q 2,q 3 ) とし T を T(p i ) - q i δ (i=1,2,3) を満たす変換とすると 任意の p reg(p 1,p 2,p 3 ) について以下が成立 T(p) - q δ ならば T PP,QQ (p) - q 8δ p1 p3 p2 p T T(p) δ q 8δ T PP,QQ T PP,QQ (p) reg( p1, p2, p3) { x x p1 p2 p1, dist( x, p1 p2) dist( p3, p1 p2) }

基本アルゴリズムの性能解析 (2) 定理 : δに対する最適アラインメントを M OPT とすると 基本アルゴリズムは O(n 8 ) 時間で 以下を満たすアラインメント M ( と変換 T) を出力する ( p max i, q j ) M T ( p i ) q j 8δ and M M OPT 証明概略 M OPT に現れる P,Q の部分集合を それぞれ P,Q とする すると P が reg の中に全部含まれるような PP P が存在 M OPT において PP に対応する QQ も存在し 補題の仮定を満たす よって T(P ) は Q と 8δ 以内でマッチするため アル ゴリズムは M M OPT を満たすアラインメントを出力 注 : ( かなり大きくなるが ) 定数倍の時間をかければ 8δ は δ に近づけることが可能

実用版 stralign 基本アルゴリズムは O(n 8 ) 時間かかるので非実用的 ランダムサンプリングや sparse DP などを用いると O(n 5 ) 時間くらいに近づけることができるが それでも非実用的 そこで 理論的な性能保証はあきらめ 実用的なアルゴリズムを開発 PP,QQ として長さ 10~20 残基程度の連続した fragment を利用し T PP,QQ は rmsd の計算法により求める 全部で O(n 2 ) ペアしか調べないので O(n 2 ) DP の計算量 = O(n 4 ) 時間 実際には rmsd が大きいペアには DP を行わないため より高速 解の精度を高めるため アラインメント rmsd fitting を数回繰り返す 多くの場合 数秒程度でアラインメント可能

他の構造アラインメント アルゴリズム 数多くの構造アライメント手法が提案 例 DALI( 距離行列のアラインメント ) SSAP( 二重 DP) [Taylor & Orengo 1989] CE (Combinatorial Expansion) [Shindyalov & Bourne 1998] VAST (Vector Alignment Search Tool) [Gibrat et al. 1998] DP+Iterative Improvement [Gernstein & Levitt 1998] StrMul ( 二重 DP を基にした多重構造アラインメント ) [Daiyasu & Toh 2000]

DALI (Alignment of Distance Matrices) Distance Matrix のアラインメント [Holm & Sander 1993] Distance Matrix ( 同一タンパク P 内の ) 残基間の距離を行列形式で表現したもの P と Q の distance matrix ( ただし アラインメントされる残基のみから構成される行列 ) ができるだけ類似するようなアラインメントを計算 Simulated Annealing に類似した方法を用いて アラインメントを計算 G L A D V G A E R V 0 3 5 8 6 3 0 1 5 4 5 1 0 2 7 8 5 2 0 3 6 4 7 3 0 0 5 8 1 6 5 0 2 5 7 8 2 0 2 2 1 5 2 0 3 6 7 2 3 0 アラインメント G L A D - V G - A E R V G A D V G A E V G A D V 0 5 8 6 5 0 2 7 8 2 0 3 6 7 3 0 G A E V 0 5 8 6 5 0 2 7 8 2 0 2 6 7 2 0

タンパク質立体構造予測

タンパク質立体構造予測 アミノ酸配列から タンパク質の立体構造 (3 次元構造 ) をコンピュータにより推定 実験よりは はるかに精度が悪い アミノ酸配列 T C A V F G L G G V R L S V D コンピュータ だいたいの形 (fold) がわかれば良いのであれば ある程度有効 タンパク質立体構造

立体構造予測法の分類 物理的原理に基づく方法 (ab initio 法 ) エネルギー最小化 分子動力学法 ホモロジーモデリング 配列アラインメントにより主鎖のだいたいの配置を決定した後 主鎖や側鎖の配置の最適化を分子動力学法などで実行 2 次構造予測 各アミノ酸が α β それ以外のいずれかにあるかを予測 ランダムに予測すれば 33.3 % の予測率であるが 高性能の手法を用いれば 80% 近い予測率 格子モデル スレッディング 予測したい配列と既知構造の間のアラインメントを計算 フラグメント アセンブリー法 数残基から十数残基からなる複数のフラグメント候補をデータベース検索により選択した後 分子動力学法などを用いてそれらをつなげ合わせる

二次構造予測 アミノ酸配列中の各残基が α β それ以外のどれに属するかを予測 でたらめに推定しても 33.3% の的中率 最も高精度なソフトを使えば 80%~ の的中率 ニューラルネット HMM サポートベクタマシンなどの利用 L A P I K α β それ以外

フォールド予測 (Fold Recognition) 精密な 3 次元構造ではなく だいたいの形 (fold) を予測 アミノ酸配列 T C A V F G L G G V R L S V D 立体構造は 1000 種類程度の形に分類される との予測 (Chotia, 1992) に基づく 1000 個のテンプレート構造

タンパク質スレッディング 立体構造 ( テンプレート ) とアミノ酸配列の間のアラインメント

スレッディングとアラインメント A L G F G S L Y G A L G G V S L G A L G F G S L Y G A L G G V S L G

スレディング法の分類 プロファイルによるスレッディング 動的計画法で最適解が計算可能 PSI-BLAST 3D-1D 法構造アライメント結果に基づくスレッディング 残基間ポテンシャルによるスレッディング NP 困難 ただし 整数計画法などが効果的に適用可能コンタクトポテンシャル距離依存ポテンシャルその他のポテンシャル

プロファイル アラインメントにおけるスコア行列と類似 残基 3 残基 2 残基 4 立体構造 スレッディングの場合 残基位置ごとにスコア ( 位置依存スコア ) 残基 1 残基 1 残基 2 残基 3 残基 4 A 3.8-3.5 1.2 2.3 C 1.5 1.3-0.3-4.6 D -1.5-2.9 4.2 3.1 E 0.2 2.1 3.7-1.3

プロファイルによるアラインメント 動的計画法 (DP) により最適解を計算 スコア行列のかわりにプロファイルを使う アミノ酸配列 : プロファイル : A C D E AED... 残基 1 残基 2 残基 3 残基 4 3.8 1.5-1.5 0.2 アライメント 123... AED... スコア 3.8-4.1+4.2 =3.9-3.5 1.3-2.9-4.1 1.2-0.3 4.2 3.7 1234... A-ED... 3.8-2.0+3.7+ 3.1=8.7 2.3-4.6 3.1-1.3 1-23... AEDC... 3.8-2.0-2.9+ -0.3=-1.4

3D-1D プロファイル 最初の version は Eisenberg らが 1991 年に提案 構造中の残基 ( 位置 ) を 18 種類の環境に分類 α β 主鎖 側鎖 内外性 E P 2 B 3 P 1 B 2 B 1 極性 二次構造 (3 種類 ) 内外性 + 極性 (6 種類 )

3D-1D プロファイル 残基 1 残基 2 タンパク質立体構造 残基 4 残基 3 環境クラス B 1 α B 1 β B 1 A -0.66-0.79-0.91 A -0.79-0.79-0.91 内外性 E P 2 P 1 B 3 B 2 B 1 極性 アミノ酸 R -1.67-1.16-2.16 R -1.16-1.16-2.16 Y W 0.18 1.00 0.07 1.17 0.17 1.05 Y W 0.07 1.17 0.07 1.17 0.17 1.05 3D-1D スコア 残基 1 残基 2 残基 3 3D- プロファイル

その他のプロファイル 配列のマルチプルアラインメントに基づくプロファイル PSI-BLAST HMM 立体構造のマルチプルアラインメントに基づくプロファイル作成 角度情報なども考慮したプロファイル プロファイル vs プロファイルによるアラインメント

ポテンシャル型スコア関数を用いたスレッディング 全体のポテンシャルエネルギーを最小化 (Σf d (X,Y) が最小となるようなスレッディングを計算 ) 立体構造 d f (T, F) d T C A V F G L G K V R L S V D アミノ酸配列

プロファイル型スコア関数とポテンシャル型スコア関数 プロファイル型スコア関数 et al. 1991) (Eisenberg A C D E Pos1 Pos2 Pos3 Pos4 3.8 1.5-1.5 0.2-3.5 1.3-2.9 2.1 1.2-0.3 4.2 3.7 2.3-4.6 3.1-1.3 ポテンシャル型スコア関数 (Miyazawa, Sippl,...) A d score L d

立体構造予測におけるブレークスルー スレッディング法の発明 (Eisenberg et al., 1991) 構造既知の配列と類似性が無い配列の構造予測 PSI-BLAST の開発 (Altschul et al, 1997) プロファイルに基づくマルチプルアラインメントの繰り返し実行によるスレッディング David Baker によるフラグメントアセンブリ法 (1997) 統計情報 + シミュレーション

フラグメント アセンブリ法 Univ. Washington の Baker らが開発 現時点では最強の方法とされている 方法 数残基から十数残基の断片構造 ( フラグメント ) をプロファイル比較法などを用いて既知構造データベースから取得 各断片配列ごとにいくつかの候補を選ぶ フラグメントをつなぎ合わせることにより全体構造を予測 つなぎ合わせる際には分子動力学法などによるエネルギー最適化などを行う

立体構造予測コンテスト :CASP CASP (Critical Assessment of Techniques for Protein Structure Prediction) ブラインドテストにより予測法を評価 1 2 3 半年以内に立体構造が実験により決定する見込みの配列 ( 数十種類 ) をインターネット上で公開 参加者は予測結果を送付 構造決定後 正解とのずれなどを評価 順位づけ 結果の公表 会議 専門学術誌 (Proteins) ホームページ http://predictioncenter.gc.ucdavis.edu/ 1994 年より 2 年ごとに開催

まとめ 立体構造比較 構造分類データベースが作成されている 比較のためには構造アラインメントが有用 ただし 決定版はなく様々な方法が提案されている 立体構造予測 正確な座標は予測できないだいたいの形の予測であればある程度有効二次構造予測であれば 80%~ 程度 スレッディング法 プロファイル型スコア関数 動的計画法で最適解が計算可能 ポテンシャル型スコア関数 NP 困難だが整数計画法などにより最適解が計算可能