生命情報学 (6) タンパク質構造解析 阿久津達也 京都大学化学研究所 バイオインフォマティクスセンター
タンパク質立体構造
アミノ酸とタンパク質 アミノ酸 :20 種類 アミノ酸 R 側鎖 タンパク質 : アミノ酸の鎖 ( 短いものはペプチドと呼ばれる ) 蛋白質 アミノ基 H R C N H H N H C O C H H N C O OH カルボシキル基 O H C C R ペプチド結合
タンパク質の種類と高次構造 タンパク質の分類 球状タンパク質繊維状タンパク質膜タンパク質 一次構造 ( アミノ酸配列 ) 二次構造 (α β それ以外 ( ループ コイル )) 三次構造 ( 三次元構造 立体構造 ) 四次構造 ( 複数の鎖 )
タンパク質立体構造の決定 主に X 線結晶解析か NMR 解析による 一般にX 線解析の方が精度が高いしかし 結晶中の構造しかわからない アミノ酸配列決定より困難 半年から 1 年くらいかかることも珍しく無い 既知アミノ酸配列 >> 10 万 既知立体構造 < 数万
タンパク質立体構造の特徴 基本的には鎖 ( ひも ) 状 二種類の特徴的な構造が頻繁に現れ 立体構造の骨格 ( コア ) を作る α へリックス ( らせん状の部分 ) β シート ( ひも状の部分が並んだ部分 ) α β ループ
タンパク質立体構造の例 (1) 立体構造 :Cα 原子の座標列で概要がわかる α へリックスと β シートが構造の骨格を形成
タンパク質立体構造の例 (2)
タンパク質立体構造の例 (3)
構造とアミノ酸の種類の関係 ( 球状 ) タンパク質 内側 : 疎水性アミノ酸外側 : 親水性アミノ酸 α へリックス 内側 : 疎水性外側 : 親水性 β ストランド 疎水性と親水性が交互に現れる ループ領域 親水性が高い
立体構造アラインメント
タンパク質立体構造比較の必要性 立体構造と機能の間には密接な関係 配列が似ていなくても構造類似のタンパク質が多数存在 構造分類データベース SCOP( 人間が分類 ) FSSP(DALI プログラムにより分類 ) CATH(SSAP プログラムなどにより分類 )
立体構造アラインメント 立体構造の類似性判定のために有用 どのように回転 平行移動すれば 最適な残基間の対応づけ ( アラインメント ) が得られるかを計算 配列アラインメントの場合と異なり 決定版というようなアルゴリズムが無い
構造アラインメント例 ヘモグロビン ミオグロビン
RMSD(Root Mean Square Deviation) 点 (e.g., Cα 原子 ) の対応関係がわかっている場合に最適な重ね合わせとなる回転 平行移動を計算 行列計算により O(n) 時間で計算可能 p4 p2 p3 p1 q2 q1 q3 q4 d rms ( P, Q) T min T 1 n n i= 1 T ( p i ) q i 2
構造アラインメントプログラム : stralign 広くは利用されていないが 理論 ( 計算幾何学 ) 的考察に基づいてアルゴリズムが設計されている 問題の定義入力 : 3 次元点列 : P=( p 1,, p m ), Q=(q 1,, q n ), および 実数 δ (m n とする ) 出力 : 以下を満たし かつ 長さ ( アラインされる点のペアの個数 ) が最大となる P,Q 間のアラインメント M ( および 付随する平行 回転移動 T ) ( p max i, q j ) M T ( p i ) q j δ
stralign の基本アルゴリズム M 0 {} for all triplets PP=(p i1,p i2,p i3 ) from P do for all triplets QQ=(q j1,q j2,q j3 ) from Q do Compute rigid motion T PP,QQ from PP to QQ Compute alignment M between T PP,QQ (P) and Q if M > M 0 then M 0 M Output M 0
回転 平行移動 T PP,QQ の計算法 PP=(p 1,p 2,p 3 ) QQ=(q 1,q 2,q 3 ) に対する T PP,QQ の計算法 p1 q1 q3 q2 p 1 が q 1 に重なるように PP を並行移動 p 1 p 2 と q 1 q 2 が同一直線上にあるように PP を回転移動 p2 p3 T PP,QQ PP と QQ が同一平面上にあるように PP を p 1 p 2 を軸として回転移動
T(P) と Q に対するアラインメント M の計算 p1 p2 p3 q1 q2 q3 q4 cδ q1 q2 q3 q4 p1 p2 p3 = + = otherwise 0 ) ( if 1 1] 1, [ 1], [ ] 1, [ max ], [ cδ T w w j i S j i S j i S j i S j i ij ij q p
基本アルゴリズムの性能解析 (1) 補題 : PP=(p 1,p 2,p 3 ), QQ=(q 1,q 2,q 3 ) とし T を T(p i ) - q i δ (i=1,2,3) を満たす変換とすると 任意の p reg(p 1,p 2,p 3 ) について以下が成立 T(p) - q δ ならば T PP,QQ (p) - q 8δ p1 p3 p2 p T T(p) δ q 8δ T PP,QQ T PP,QQ (p) reg( p1, p2, p3) { x x p1 p2 p1, dist( x, p1 p2) dist( p3, p1 p2) }
基本アルゴリズムの性能解析 (2) 定理 : δに対する最適アラインメントを M OPT とすると 基本アルゴリズムは O(n 8 ) 時間で 以下を満たすアラインメント M ( と変換 T) を出力する ( p max i, q j ) M T ( p i ) q j 8δ and M M OPT 証明概略 M OPT に現れる P,Q の部分集合を それぞれ P,Q とする すると P が reg の中に全部含まれるような PP P が存在 M OPT において PP に対応する QQ も存在し 補題の仮定を満たす よって T(P ) は Q と 8δ 以内でマッチするため アル ゴリズムは M M OPT を満たすアラインメントを出力 注 : ( かなり大きくなるが ) 定数倍の時間をかければ 8δ は δ に近づけることが可能
実用版 stralign 基本アルゴリズムは O(n 8 ) 時間かかるので非実用的 ランダムサンプリングや sparse DP などを用いると O(n 5 ) 時間くらいに近づけることができるが それでも非実用的 そこで 理論的な性能保証はあきらめ 実用的なアルゴリズムを開発 PP,QQ として長さ 10~20 残基程度の連続した fragment を利用し T PP,QQ は rmsd の計算法により求める 全部で O(n 2 ) ペアしか調べないので O(n 2 ) DP の計算量 = O(n 4 ) 時間 実際には rmsd が大きいペアには DP を行わないため より高速 解の精度を高めるため アラインメント rmsd fitting を数回繰り返す 多くの場合 数秒程度でアラインメント可能
他の構造アラインメント アルゴリズム 数多くの構造アライメント手法が提案 例 DALI( 距離行列のアラインメント ) SSAP( 二重 DP) [Taylor & Orengo 1989] CE (Combinatorial Expansion) [Shindyalov & Bourne 1998] VAST (Vector Alignment Search Tool) [Gibrat et al. 1998] DP+Iterative Improvement [Gernstein & Levitt 1998] StrMul ( 二重 DP を基にした多重構造アラインメント ) [Daiyasu & Toh 2000]
DALI (Alignment of Distance Matrices) Distance Matrix のアラインメント [Holm & Sander 1993] Distance Matrix ( 同一タンパク P 内の ) 残基間の距離を行列形式で表現したもの P と Q の distance matrix ( ただし アラインメントされる残基のみから構成される行列 ) ができるだけ類似するようなアラインメントを計算 Simulated Annealing に類似した方法を用いて アラインメントを計算 G L A D V G A E R V 0 3 5 8 6 3 0 1 5 4 5 1 0 2 7 8 5 2 0 3 6 4 7 3 0 0 5 8 1 6 5 0 2 5 7 8 2 0 2 2 1 5 2 0 3 6 7 2 3 0 アラインメント G L A D - V G - A E R V G A D V G A E V G A D V 0 5 8 6 5 0 2 7 8 2 0 3 6 7 3 0 G A E V 0 5 8 6 5 0 2 7 8 2 0 2 6 7 2 0
タンパク質立体構造予測
タンパク質立体構造予測 アミノ酸配列から タンパク質の立体構造 (3 次元構造 ) をコンピュータにより推定 実験よりは はるかに精度が悪い アミノ酸配列 T C A V F G L G G V R L S V D コンピュータ だいたいの形 (fold) がわかれば良いのであれば ある程度有効 タンパク質立体構造
立体構造予測法の分類 物理的原理に基づく方法 (ab initio 法 ) エネルギー最小化 分子動力学法 ホモロジーモデリング 配列アラインメントにより主鎖のだいたいの配置を決定した後 主鎖や側鎖の配置の最適化を分子動力学法などで実行 2 次構造予測 各アミノ酸が α β それ以外のいずれかにあるかを予測 ランダムに予測すれば 33.3 % の予測率であるが 高性能の手法を用いれば 80% 近い予測率 格子モデル スレッディング 予測したい配列と既知構造の間のアラインメントを計算 フラグメント アセンブリー法 数残基から十数残基からなる複数のフラグメント候補をデータベース検索により選択した後 分子動力学法などを用いてそれらをつなげ合わせる
二次構造予測 アミノ酸配列中の各残基が α β それ以外のどれに属するかを予測 でたらめに推定しても 33.3% の的中率 最も高精度なソフトを使えば 80%~ の的中率 ニューラルネット HMM サポートベクタマシンなどの利用 L A P I K α β それ以外
フォールド予測 (Fold Recognition) 精密な 3 次元構造ではなく だいたいの形 (fold) を予測 アミノ酸配列 T C A V F G L G G V R L S V D 立体構造は 1000 種類程度の形に分類される との予測 (Chotia, 1992) に基づく 1000 個のテンプレート構造
タンパク質スレッディング 立体構造 ( テンプレート ) とアミノ酸配列の間のアラインメント
スレッディングとアラインメント A L G F G S L Y G A L G G V S L G A L G F G S L Y G A L G G V S L G
スレディング法の分類 プロファイルによるスレッディング 動的計画法で最適解が計算可能 PSI-BLAST 3D-1D 法構造アライメント結果に基づくスレッディング 残基間ポテンシャルによるスレッディング NP 困難 ただし 整数計画法などが効果的に適用可能コンタクトポテンシャル距離依存ポテンシャルその他のポテンシャル
プロファイル アラインメントにおけるスコア行列と類似 残基 3 残基 2 残基 4 立体構造 スレッディングの場合 残基位置ごとにスコア ( 位置依存スコア ) 残基 1 残基 1 残基 2 残基 3 残基 4 A 3.8-3.5 1.2 2.3 C 1.5 1.3-0.3-4.6 D -1.5-2.9 4.2 3.1 E 0.2 2.1 3.7-1.3
プロファイルによるアラインメント 動的計画法 (DP) により最適解を計算 スコア行列のかわりにプロファイルを使う アミノ酸配列 : プロファイル : A C D E AED... 残基 1 残基 2 残基 3 残基 4 3.8 1.5-1.5 0.2 アライメント 123... AED... スコア 3.8-4.1+4.2 =3.9-3.5 1.3-2.9-4.1 1.2-0.3 4.2 3.7 1234... A-ED... 3.8-2.0+3.7+ 3.1=8.7 2.3-4.6 3.1-1.3 1-23... AEDC... 3.8-2.0-2.9+ -0.3=-1.4
3D-1D プロファイル 最初の version は Eisenberg らが 1991 年に提案 構造中の残基 ( 位置 ) を 18 種類の環境に分類 α β 主鎖 側鎖 内外性 E P 2 B 3 P 1 B 2 B 1 極性 二次構造 (3 種類 ) 内外性 + 極性 (6 種類 )
3D-1D プロファイル 残基 1 残基 2 タンパク質立体構造 残基 4 残基 3 環境クラス B 1 α B 1 β B 1 A -0.66-0.79-0.91 A -0.79-0.79-0.91 内外性 E P 2 P 1 B 3 B 2 B 1 極性 アミノ酸 R -1.67-1.16-2.16 R -1.16-1.16-2.16 Y W 0.18 1.00 0.07 1.17 0.17 1.05 Y W 0.07 1.17 0.07 1.17 0.17 1.05 3D-1D スコア 残基 1 残基 2 残基 3 3D- プロファイル
その他のプロファイル 配列のマルチプルアラインメントに基づくプロファイル PSI-BLAST HMM 立体構造のマルチプルアラインメントに基づくプロファイル作成 角度情報なども考慮したプロファイル プロファイル vs プロファイルによるアラインメント
ポテンシャル型スコア関数を用いたスレッディング 全体のポテンシャルエネルギーを最小化 (Σf d (X,Y) が最小となるようなスレッディングを計算 ) 立体構造 d f (T, F) d T C A V F G L G K V R L S V D アミノ酸配列
プロファイル型スコア関数とポテンシャル型スコア関数 プロファイル型スコア関数 et al. 1991) (Eisenberg A C D E Pos1 Pos2 Pos3 Pos4 3.8 1.5-1.5 0.2-3.5 1.3-2.9 2.1 1.2-0.3 4.2 3.7 2.3-4.6 3.1-1.3 ポテンシャル型スコア関数 (Miyazawa, Sippl,...) A d score L d
立体構造予測におけるブレークスルー スレッディング法の発明 (Eisenberg et al., 1991) 構造既知の配列と類似性が無い配列の構造予測 PSI-BLAST の開発 (Altschul et al, 1997) プロファイルに基づくマルチプルアラインメントの繰り返し実行によるスレッディング David Baker によるフラグメントアセンブリ法 (1997) 統計情報 + シミュレーション
フラグメント アセンブリ法 Univ. Washington の Baker らが開発 現時点では最強の方法とされている 方法 数残基から十数残基の断片構造 ( フラグメント ) をプロファイル比較法などを用いて既知構造データベースから取得 各断片配列ごとにいくつかの候補を選ぶ フラグメントをつなぎ合わせることにより全体構造を予測 つなぎ合わせる際には分子動力学法などによるエネルギー最適化などを行う
立体構造予測コンテスト :CASP CASP (Critical Assessment of Techniques for Protein Structure Prediction) ブラインドテストにより予測法を評価 1 2 3 半年以内に立体構造が実験により決定する見込みの配列 ( 数十種類 ) をインターネット上で公開 参加者は予測結果を送付 構造決定後 正解とのずれなどを評価 順位づけ 結果の公表 会議 専門学術誌 (Proteins) ホームページ http://predictioncenter.gc.ucdavis.edu/ 1994 年より 2 年ごとに開催
まとめ 立体構造比較 構造分類データベースが作成されている 比較のためには構造アラインメントが有用 ただし 決定版はなく様々な方法が提案されている 立体構造予測 正確な座標は予測できないだいたいの形の予測であればある程度有効二次構造予測であれば 80%~ 程度 スレッディング法 プロファイル型スコア関数 動的計画法で最適解が計算可能 ポテンシャル型スコア関数 NP 困難だが整数計画法などにより最適解が計算可能