生命情報学 - PDF Free Download

生命情報学 (6) タンパク質構造解析阿久津達也京都大学化学研究所バイオインフォマティクスセンター

タンパク質立体構造

アミノ酸とタンパク質アミノ酸 :20 種類アミノ酸 R 側鎖タンパク質 : アミノ酸の鎖 ( 短いものはペプチドと呼ばれる ) 蛋白質アミノ基 H R C N H H N H C O C H H N C O OH カルボシキル基 O H C C R ペプチド結合

タンパク質の種類と高次構造タンパク質の分類球状タンパク質繊維状タンパク質膜タンパク質一次構造 ( アミノ酸配列 ) 二次構造 (α β それ以外 ( ループコイル )) 三次構造 ( 三次元構造立体構造 ) 四次構造 ( 複数の鎖 )

タンパク質立体構造の決定主に X 線結晶解析か NMR 解析による一般にX 線解析の方が精度が高いしかし結晶中の構造しかわからないアミノ酸配列決定より困難半年から 1 年くらいかかることも珍しく無い既知アミノ酸配列 >> 10 万既知立体構造 < 数万

タンパク質立体構造の特徴基本的には鎖 ( ひも ) 状二種類の特徴的な構造が頻繁に現れ立体構造の骨格 ( コア ) を作る α へリックス ( らせん状の部分 ) β シート ( ひも状の部分が並んだ部分 ) α β ループ

タンパク質立体構造の例 (1) 立体構造 :Cα 原子の座標列で概要がわかる α へリックスと β シートが構造の骨格を形成

タンパク質立体構造の例 (2)

タンパク質立体構造の例 (3)

構造とアミノ酸の種類の関係 ( 球状 ) タンパク質内側 : 疎水性アミノ酸外側 : 親水性アミノ酸 α へリックス内側 : 疎水性外側 : 親水性 β ストランド疎水性と親水性が交互に現れるループ領域親水性が高い

立体構造アラインメント

タンパク質立体構造比較の必要性立体構造と機能の間には密接な関係配列が似ていなくても構造類似のタンパク質が多数存在構造分類データベース SCOP( 人間が分類 ) FSSP(DALI プログラムにより分類 ) CATH(SSAP プログラムなどにより分類 )

立体構造アラインメント立体構造の類似性判定のために有用どのように回転平行移動すれば最適な残基間の対応づけ ( アラインメント ) が得られるかを計算配列アラインメントの場合と異なり決定版というようなアルゴリズムが無い

構造アラインメント例ヘモグロビンミオグロビン

RMSD(Root Mean Square Deviation) 点 (e.g., Cα 原子 ) の対応関係がわかっている場合に最適な重ね合わせとなる回転平行移動を計算行列計算により O(n) 時間で計算可能 p4 p2 p3 p1 q2 q1 q3 q4 d rms ( P, Q) T min T 1 n n i= 1 T ( p i ) q i 2

構造アラインメントプログラム : stralign 広くは利用されていないが理論 ( 計算幾何学 ) 的考察に基づいてアルゴリズムが設計されている問題の定義入力 : 3 次元点列 : P=( p 1,, p m ), Q=(q 1,, q n ), および実数 δ (m n とする ) 出力 : 以下を満たしかつ長さ ( アラインされる点のペアの個数 ) が最大となる P,Q 間のアラインメント M ( および付随する平行回転移動 T ) ( p max i, q j ) M T ( p i ) q j δ

stralign の基本アルゴリズム M 0 {} for all triplets PP=(p i1,p i2,p i3 ) from P do for all triplets QQ=(q j1,q j2,q j3 ) from Q do Compute rigid motion T PP,QQ from PP to QQ Compute alignment M between T PP,QQ (P) and Q if M > M 0 then M 0 M Output M 0

回転平行移動 T PP,QQ の計算法 PP=(p 1,p 2,p 3 ) QQ=(q 1,q 2,q 3 ) に対する T PP,QQ の計算法 p1 q1 q3 q2 p 1 が q 1 に重なるように PP を並行移動 p 1 p 2 と q 1 q 2 が同一直線上にあるように PP を回転移動 p2 p3 T PP,QQ PP と QQ が同一平面上にあるように PP を p 1 p 2 を軸として回転移動

T(P) と Q に対するアラインメント M の計算 p1 p2 p3 q1 q2 q3 q4 cδ q1 q2 q3 q4 p1 p2 p3 = + = otherwise 0 ) ( if 1 1] 1, [ 1], [ ] 1, [ max ], [ cδ T w w j i S j i S j i S j i S j i ij ij q p

基本アルゴリズムの性能解析 (1) 補題 : PP=(p 1,p 2,p 3 ), QQ=(q 1,q 2,q 3 ) とし T を T(p i ) - q i δ (i=1,2,3) を満たす変換とすると任意の p reg(p 1,p 2,p 3 ) について以下が成立 T(p) - q δ ならば T PP,QQ (p) - q 8δ p1 p3 p2 p T T(p) δ q 8δ T PP,QQ T PP,QQ (p) reg( p1, p2, p3) { x x p1 p2 p1, dist( x, p1 p2) dist( p3, p1 p2) }

基本アルゴリズムの性能解析 (2) 定理 : δに対する最適アラインメントを M OPT とすると基本アルゴリズムは O(n 8 ) 時間で以下を満たすアラインメント M ( と変換 T) を出力する ( p max i, q j ) M T ( p i ) q j 8δ and M M OPT 証明概略 M OPT に現れる P,Q の部分集合をそれぞれ P,Q とするすると P が reg の中に全部含まれるような PP P が存在 M OPT において PP に対応する QQ も存在し補題の仮定を満たすよって T(P ) は Q と 8δ 以内でマッチするためアルゴリズムは M M OPT を満たすアラインメントを出力注 : ( かなり大きくなるが ) 定数倍の時間をかければ 8δ は δ に近づけることが可能

実用版 stralign 基本アルゴリズムは O(n 8 ) 時間かかるので非実用的ランダムサンプリングや sparse DP などを用いると O(n 5 ) 時間くらいに近づけることができるがそれでも非実用的そこで理論的な性能保証はあきらめ実用的なアルゴリズムを開発 PP,QQ として長さ 10~20 残基程度の連続した fragment を利用し T PP,QQ は rmsd の計算法により求める全部で O(n 2 ) ペアしか調べないので O(n 2 ) DP の計算量 = O(n 4 ) 時間実際には rmsd が大きいペアには DP を行わないためより高速解の精度を高めるためアラインメント rmsd fitting を数回繰り返す多くの場合数秒程度でアラインメント可能

他の構造アラインメントアルゴリズム数多くの構造アライメント手法が提案例 DALI( 距離行列のアラインメント ) SSAP( 二重 DP) [Taylor & Orengo 1989] CE (Combinatorial Expansion) [Shindyalov & Bourne 1998] VAST (Vector Alignment Search Tool) [Gibrat et al. 1998] DP+Iterative Improvement [Gernstein & Levitt 1998] StrMul ( 二重 DP を基にした多重構造アラインメント ) [Daiyasu & Toh 2000]

DALI (Alignment of Distance Matrices) Distance Matrix のアラインメント [Holm & Sander 1993] Distance Matrix ( 同一タンパク P 内の ) 残基間の距離を行列形式で表現したもの P と Q の distance matrix ( ただしアラインメントされる残基のみから構成される行列 ) ができるだけ類似するようなアラインメントを計算 Simulated Annealing に類似した方法を用いてアラインメントを計算 G L A D V G A E R V 0 3 5 8 6 3 0 1 5 4 5 1 0 2 7 8 5 2 0 3 6 4 7 3 0 0 5 8 1 6 5 0 2 5 7 8 2 0 2 2 1 5 2 0 3 6 7 2 3 0 アラインメント G L A D - V G - A E R V G A D V G A E V G A D V 0 5 8 6 5 0 2 7 8 2 0 3 6 7 3 0 G A E V 0 5 8 6 5 0 2 7 8 2 0 2 6 7 2 0

タンパク質立体構造予測

タンパク質立体構造予測アミノ酸配列からタンパク質の立体構造 (3 次元構造 ) をコンピュータにより推定実験よりははるかに精度が悪いアミノ酸配列 T C A V F G L G G V R L S V D コンピュータだいたいの形 (fold) がわかれば良いのであればある程度有効タンパク質立体構造

立体構造予測法の分類物理的原理に基づく方法 (ab initio 法 ) エネルギー最小化分子動力学法ホモロジーモデリング配列アラインメントにより主鎖のだいたいの配置を決定した後主鎖や側鎖の配置の最適化を分子動力学法などで実行 2 次構造予測各アミノ酸が α β それ以外のいずれかにあるかを予測ランダムに予測すれば 33.3 % の予測率であるが高性能の手法を用いれば 80% 近い予測率格子モデルスレッディング予測したい配列と既知構造の間のアラインメントを計算フラグメントアセンブリー法数残基から十数残基からなる複数のフラグメント候補をデータベース検索により選択した後分子動力学法などを用いてそれらをつなげ合わせる

二次構造予測アミノ酸配列中の各残基が α β それ以外のどれに属するかを予測でたらめに推定しても 33.3% の的中率最も高精度なソフトを使えば 80%~ の的中率ニューラルネット HMM サポートベクタマシンなどの利用 L A P I K α β それ以外

フォールド予測 (Fold Recognition) 精密な 3 次元構造ではなくだいたいの形 (fold) を予測アミノ酸配列 T C A V F G L G G V R L S V D 立体構造は 1000 種類程度の形に分類されるとの予測 (Chotia, 1992) に基づく 1000 個のテンプレート構造

タンパク質スレッディング立体構造 ( テンプレート ) とアミノ酸配列の間のアラインメント

スレッディングとアラインメント A L G F G S L Y G A L G G V S L G A L G F G S L Y G A L G G V S L G

スレディング法の分類プロファイルによるスレッディング動的計画法で最適解が計算可能 PSI-BLAST 3D-1D 法構造アライメント結果に基づくスレッディング残基間ポテンシャルによるスレッディング NP 困難ただし整数計画法などが効果的に適用可能コンタクトポテンシャル距離依存ポテンシャルその他のポテンシャル

プロファイルアラインメントにおけるスコア行列と類似残基 3 残基 2 残基 4 立体構造スレッディングの場合残基位置ごとにスコア ( 位置依存スコア ) 残基 1 残基 1 残基 2 残基 3 残基 4 A 3.8-3.5 1.2 2.3 C 1.5 1.3-0.3-4.6 D -1.5-2.9 4.2 3.1 E 0.2 2.1 3.7-1.3

プロファイルによるアラインメント動的計画法 (DP) により最適解を計算スコア行列のかわりにプロファイルを使うアミノ酸配列 : プロファイル : A C D E AED... 残基 1 残基 2 残基 3 残基 4 3.8 1.5-1.5 0.2 アライメント 123... AED... スコア 3.8-4.1+4.2 =3.9-3.5 1.3-2.9-4.1 1.2-0.3 4.2 3.7 1234... A-ED... 3.8-2.0+3.7+ 3.1=8.7 2.3-4.6 3.1-1.3 1-23... AEDC... 3.8-2.0-2.9+ -0.3=-1.4

3D-1D プロファイル最初の version は Eisenberg らが 1991 年に提案構造中の残基 ( 位置 ) を 18 種類の環境に分類 α β 主鎖側鎖内外性 E P 2 B 3 P 1 B 2 B 1 極性二次構造 (3 種類 ) 内外性 + 極性 (6 種類 )

3D-1D プロファイル残基 1 残基 2 タンパク質立体構造残基 4 残基 3 環境クラス B 1 α B 1 β B 1 A -0.66-0.79-0.91 A -0.79-0.79-0.91 内外性 E P 2 P 1 B 3 B 2 B 1 極性アミノ酸 R -1.67-1.16-2.16 R -1.16-1.16-2.16 Y W 0.18 1.00 0.07 1.17 0.17 1.05 Y W 0.07 1.17 0.07 1.17 0.17 1.05 3D-1D スコア残基 1 残基 2 残基 3 3D- プロファイル

その他のプロファイル配列のマルチプルアラインメントに基づくプロファイル PSI-BLAST HMM 立体構造のマルチプルアラインメントに基づくプロファイル作成角度情報なども考慮したプロファイルプロファイル vs プロファイルによるアラインメント

ポテンシャル型スコア関数を用いたスレッディング全体のポテンシャルエネルギーを最小化 (Σf d (X,Y) が最小となるようなスレッディングを計算 ) 立体構造 d f (T, F) d T C A V F G L G K V R L S V D アミノ酸配列

プロファイル型スコア関数とポテンシャル型スコア関数プロファイル型スコア関数 et al. 1991) (Eisenberg A C D E Pos1 Pos2 Pos3 Pos4 3.8 1.5-1.5 0.2-3.5 1.3-2.9 2.1 1.2-0.3 4.2 3.7 2.3-4.6 3.1-1.3 ポテンシャル型スコア関数 (Miyazawa, Sippl,...) A d score L d

立体構造予測におけるブレークスルースレッディング法の発明 (Eisenberg et al., 1991) 構造既知の配列と類似性が無い配列の構造予測 PSI-BLAST の開発 (Altschul et al, 1997) プロファイルに基づくマルチプルアラインメントの繰り返し実行によるスレッディング David Baker によるフラグメントアセンブリ法 (1997) 統計情報 + シミュレーション

フラグメントアセンブリ法 Univ. Washington の Baker らが開発現時点では最強の方法とされている方法数残基から十数残基の断片構造 ( フラグメント ) をプロファイル比較法などを用いて既知構造データベースから取得各断片配列ごとにいくつかの候補を選ぶフラグメントをつなぎ合わせることにより全体構造を予測つなぎ合わせる際には分子動力学法などによるエネルギー最適化などを行う

立体構造予測コンテスト :CASP CASP (Critical Assessment of Techniques for Protein Structure Prediction) ブラインドテストにより予測法を評価 1 2 3 半年以内に立体構造が実験により決定する見込みの配列 ( 数十種類 ) をインターネット上で公開参加者は予測結果を送付構造決定後正解とのずれなどを評価順位づけ結果の公表会議専門学術誌 (Proteins) ホームページ http://predictioncenter.gc.ucdavis.edu/ 1994 年より 2 年ごとに開催

まとめ立体構造比較構造分類データベースが作成されている比較のためには構造アラインメントが有用ただし決定版はなく様々な方法が提案されている立体構造予測正確な座標は予測できないだいたいの形の予測であればある程度有効二次構造予測であれば 80%~ 程度スレッディング法プロファイル型スコア関数動的計画法で最適解が計算可能ポテンシャル型スコア関数 NP 困難だが整数計画法などにより最適解が計算可能