生命情報実験第一 ( 情報系 ) バイオインフォマティクスの道具箱 タンパク質化合物相互作用解析: バーチャルスクリーニング 慶應義塾大学生命情報学科榊原康文, 佐藤健吾 リード化合物探索とインフォマティクス High Throughput Screening 実験的検証 リード化合物 = 薬剤候補 薬剤標的タンパク質 初期候補 実験的検証 + インフォマティクス 1. 大量化合物の探索 2. 成功率向上 3. コスト 時間削減
バーチャルスクリーニング 結合未知のタンパク質と化合物 タンパク質 化合物 コンピュータ上で予測 アミノ酸配列立体構造 ペア 構造式記述子 結合予測 2 つの手法 ドッキング解析 統計的手法を用いた予測 結合 / 非結合を予測 薬剤 ( 低分子化合物 ) とターゲットタンパク質 ( 例 ) アスピリン ( 消炎鎮痛剤 ) アセチルサリチル酸 (acetylsalicylic acid) シクロオキシゲナーゼ酵素 (Cyclooxygenase)
バーチャルスクリーニングによるリード化合物探索手順 : リード化合物探索に利用可能なウエブツール等を用いて, 化合物がターゲットタンパク質に結合 ( 相互作用 ) するか否かを予測する 1 2 統計的予測手法による網羅的結合予測 タンパク質と化合物の相互作用を予測するウェブツール COPICAT を使用して, 与えられたタンパク質と化合物に対して, 結合するか否かの予測を行う ドッキング解析による予測の検証 上記で結合すると予測されたタンパク質と化合物のペアに対して, ドッキング解析ツールであるAutoDock を用いて, その予測が物理化学的 ( エネルギー的 ) に正しいことを確認する バーチャルスクリーニングによるリード化合物探索 手順 : 3 ドッキング解析のフィードバックと予測モデルの学習 AutoDock のドッキング解析の結果から,COPICAT の結合予測が正しくないと判断されたタンパク質化合物の情報をCOPICAT にフィードバックして, 再予測を行う. 具体的には, 予測が正しくないと判断されたペアを学習データに追加して,COPICAT の学習機能を用いて予測モデルを作成する. 次に, この自ら作成した予測モデルを用いて, 再度, タンパク質と化合物に対して予測を行い, 予測がどのように変化したかを見る.
統計的予測とフィードバック戦略 予測システム 結合予測化合物群 検証実験 in silico スクリーニング in vitro スクリーニング ターゲットタンパク質 小分子化合物 予測の誤りをフィードバック 結合評価今回は,AUTODOCKによる検証 統計的予測システムの精度向上 ドッキング解析と統計解析 ドッキング解析 (Structure Based Drug Design) 活性評価 標的酵素 利点 : 根拠が明確信頼性が高い 分子設計 薬剤候補 欠点 : 立体構造が必要膨大な計算量 時間 結合エネルギー 主鎖 クーロンポテンシャル, van der Waals ポテンシャル 溶媒和エネルギー
タンパク質 - 化合物間相互作用 の予測手法 COPICAT タンパク質 MSGLRTVSASSGNGKSY TVDINGKKVKLQLWDTA HANDEAQLLLVGNKSDM QEKIDSNKLVGVGNGKE 化合物 アミノ酸配列 入力データ : コーディング 構造式 サポートベクターマシン (SVM) 結合するクラス 結合しないクラス 学習 結合予測 大量の結合データ タンパク質化合物結合の予測手法の利点 本手法の特徴タンパク質 : 化合物 : A a タンパク質固定 Y 化合物データベース 網羅的結合リガンド予測 B b 統計モデル C 結合 = 薬剤 - 標的関係 本手法の利点 c タンパク質データベース x 化合物固定 計算時間が高速 (1 相互作用予測 0.3 秒 ) vs ドッキング手法 AUTODOCK 100 分 ( 欠点 ) 予測精度は, 学習データに依存 結合部位が明示的には求まらない 網羅的標的タンパク質予測
アンドロゲン受容体の立体構造 アンドロゲン受容体 化合物 ( アンドロゲン, DHT) アンドロゲンとアンドロゲンアンタゴニスト 前立腺がん細胞 アンドロゲン アンドロゲン受容体 activator 悪性化 ホルモン治療 前立腺がん細胞 repressor アンドロゲンアンタゴニスト
網羅的結合リガンド予測 (Nagamine et al., PLoS comp. bio., 2009) タンパク質 化合物データベース 網羅的結合リガンド予測 標的タンパク質 : Androgen Receptor () ( 前立腺がんの原因遺伝子 ) PubChem Compound 2,000 万化合物 464 化合物 新規アンタゴニストの発見 T5853872 ULTRA High Throughput Virtual Screening High Throughput Screening 化合物ライブラリー 検証実験 リード化合物 数万 ~ 数十万 化合物情報の蓄積 ZINC 2000 万 ~ PubChem 1 億 1800 万 ~ 化合物空間 :10 60 ~ ( Bohacek et al., 1996 ) ULTRA High Throughput Virtual Screening 網羅的予測
COPICAT: タンパク質化合物相互作用予測システム URL: http://copicat.dna.bio.keio.ac.jp/ COPICAT: 統計的相互作用予測システム予測ジョブ投入画面 :
COPICAT: 統計的相互作用予測システム 予測結果画面 : PubChem, UniProt データベースへのリンク
タンパク質配列立体構造のフォーマット タンパク質情報 : UniProt : アミノ酸配列情報 FASTA 形式 : > protein 1 MSGLRTVSASSGNGKSYTVDINGKKVKLQLWDTA > protein 2 HANDEAQLLLVGNKSDMQEKIDSNKLVGVGNGKE Protein Data Bank (PDB) : タンパク質立体構造情報 + 複合体立体構造情報 PDB ファイル形式 : HIV protease と阻害剤 indinavir の複合体 ) タンパク質 化合物 化合物 化合物構造情報のフォーマット 化合物の (2 次 ) 構造式 データ形式 : 原子数 結合数 sdf ファイル形式 座標
化合物情報 : 有用なデータベース 1 KEGG (KEGG LIGAND, KEGG DRUG) PubChem ( データ数 :1 億数千万 ~2 億化合物 ) 入手可能な情報 (PubChem の場合 ) 構造情報 (sdf ファイル ) 物理化学特性値 ( 分子量, XLogP etc.) SMILES 類似化合物情報 バイオアッセイの結果 パスウェイ, 毒性等のデータベースへのリンク etc. 有用なデータベース 2 タンパク質 - 化合物結合情報 : DrugBank - 薬剤とその標的タンパク質の情報 GLIDA - GPCR の agonist/antagonist の情報 Binding Database - ( 酵素中心 ) Ki 値 etc. PDSP Ki database - ( 受容体中心 ) Ki 値阻害定数 : ; 平衡時, タンパク質濃度 ; 平衡時, 阻害剤濃度 ; 平衡時, タンパク質 - 阻害剤複合体濃度 Ki 値が小さい (ex. pm) = 結合が極めて強い
AutoDock を用いたドッキング解析 ツール : AutoDock 候補 + protein ligand 特徴 エネルギー計算 : 経験的スコア関数 配座探索 : 遺伝的アルゴリズム (GA), 大域的 & 局所的探索 AutoDock を用いたドッキング解析 AutoDock の仕組み 初期配置 適応度地形 エネルギー計算 座標変化 etc. GA 出力結果 化合物の座標 形をランダムに変化させながら, より複合体のエネルギーが安定する位置 形態を求める GA 化合物のとり得る座標 形態
AutoDock を用いたドッキング解析 複合体の自由エネルギー G を近似式により計算 van der waals 水素結合 静電相互作用 脱溶媒和 エントロピー 統計的予測とフィードバック戦略 予測システム 結合予測化合物群 検証実験 in silico スクリーニング in vitro スクリーニング ターゲットタンパク質 小分子化合物 予測の誤りをフィードバック 結合評価今回は,AUTODOCKによる検証 統計的予測システムの精度向上
レポート課題 3 COPICAT による予測,AUTODOCK による検証, フィードバックによる学習と再予測, の 3 つの演習を行う 実行結果画面の図を張り付けるなどして, 考察する フィードバックによる学習と再予測により予測の変化を見る AutoDock のドッキング結果の解析から, 結合情報を取得して, 主要な情報の値 (affinity 値など ) を示す それらの値がどのような物理化学的特性について意味しているのかを調べる 結合している化合物とタンパク質の位置関係について考察 結合予測に用いた化合物について調べる ( ヒント ) アンドロゲンレセプターに結合する化合物の探索 アンドロゲンの受容体と前立腺がんとの関係やその治療法であるホルモン治療について調べる ( 発展 )PubChemから, アンドロゲンレセプターに結合する可能性のある新しい化合物の発見を試みる