Microsoft PowerPoint - 3rd-jikken-vscreen [互換モード]

生命情報実験第一 ( 情報系 ) バイオインフォマティクスの道具箱タンパク質化合物相互作用解析: バーチャルスクリーニング慶應義塾大学生命情報学科榊原康文, 佐藤健吾リード化合物探索とインフォマティクス High Throughput Screening 実験的検証リード化合物 = 薬剤候補薬剤標的タンパク質初期候補実験的検証 + インフォマティクス 1. 大量化合物の探索 2. 成功率向上 3. コスト時間削減

バーチャルスクリーニング結合未知のタンパク質と化合物タンパク質化合物コンピュータ上で予測アミノ酸配列立体構造ペア構造式記述子結合予測 2 つの手法ドッキング解析統計的手法を用いた予測結合 / 非結合を予測薬剤 ( 低分子化合物 ) とターゲットタンパク質 ( 例 ) アスピリン ( 消炎鎮痛剤 ) アセチルサリチル酸 (acetylsalicylic acid) シクロオキシゲナーゼ酵素 (Cyclooxygenase)

バーチャルスクリーニングによるリード化合物探索手順 : リード化合物探索に利用可能なウエブツール等を用いて, 化合物がターゲットタンパク質に結合 ( 相互作用 ) するか否かを予測する 1 2 統計的予測手法による網羅的結合予測タンパク質と化合物の相互作用を予測するウェブツール COPICAT を使用して, 与えられたタンパク質と化合物に対して, 結合するか否かの予測を行うドッキング解析による予測の検証上記で結合すると予測されたタンパク質と化合物のペアに対して, ドッキング解析ツールであるAutoDock を用いて, その予測が物理化学的 ( エネルギー的 ) に正しいことを確認するバーチャルスクリーニングによるリード化合物探索手順 : 3 ドッキング解析のフィードバックと予測モデルの学習 AutoDock のドッキング解析の結果から,COPICAT の結合予測が正しくないと判断されたタンパク質化合物の情報をCOPICAT にフィードバックして, 再予測を行う. 具体的には, 予測が正しくないと判断されたペアを学習データに追加して,COPICAT の学習機能を用いて予測モデルを作成する. 次に, この自ら作成した予測モデルを用いて, 再度, タンパク質と化合物に対して予測を行い, 予測がどのように変化したかを見る.

統計的予測とフィードバック戦略予測システム結合予測化合物群検証実験 in silico スクリーニング in vitro スクリーニングターゲットタンパク質小分子化合物予測の誤りをフィードバック結合評価今回は,AUTODOCKによる検証統計的予測システムの精度向上ドッキング解析と統計解析ドッキング解析 (Structure Based Drug Design) 活性評価標的酵素利点 : 根拠が明確信頼性が高い分子設計薬剤候補欠点 : 立体構造が必要膨大な計算量時間結合エネルギー主鎖クーロンポテンシャル, van der Waals ポテンシャル溶媒和エネルギー

タンパク質 - 化合物間相互作用の予測手法 COPICAT タンパク質 MSGLRTVSASSGNGKSY TVDINGKKVKLQLWDTA HANDEAQLLLVGNKSDM QEKIDSNKLVGVGNGKE 化合物アミノ酸配列入力データ : コーディング構造式サポートベクターマシン (SVM) 結合するクラス結合しないクラス学習結合予測大量の結合データタンパク質化合物結合の予測手法の利点本手法の特徴タンパク質 : 化合物 : A a タンパク質固定 Y 化合物データベース網羅的結合リガンド予測 B b 統計モデル C 結合 = 薬剤 - 標的関係本手法の利点 c タンパク質データベース x 化合物固定計算時間が高速 (1 相互作用予測 0.3 秒 ) vs ドッキング手法 AUTODOCK 100 分 ( 欠点 ) 予測精度は, 学習データに依存結合部位が明示的には求まらない網羅的標的タンパク質予測

アンドロゲン受容体の立体構造アンドロゲン受容体化合物 ( アンドロゲン, DHT) アンドロゲンとアンドロゲンアンタゴニスト前立腺がん細胞アンドロゲンアンドロゲン受容体 activator 悪性化ホルモン治療前立腺がん細胞 repressor アンドロゲンアンタゴニスト

網羅的結合リガンド予測 (Nagamine et al., PLoS comp. bio., 2009) タンパク質化合物データベース網羅的結合リガンド予測標的タンパク質 : Androgen Receptor () ( 前立腺がんの原因遺伝子 ) PubChem Compound 2,000 万化合物 464 化合物新規アンタゴニストの発見 T5853872 ULTRA High Throughput Virtual Screening High Throughput Screening 化合物ライブラリー検証実験リード化合物数万 ~ 数十万化合物情報の蓄積 ZINC 2000 万 ~ PubChem 1 億 1800 万 ~ 化合物空間 :10 60 ~ ( Bohacek et al., 1996 ) ULTRA High Throughput Virtual Screening 網羅的予測

COPICAT: タンパク質化合物相互作用予測システム URL: http://copicat.dna.bio.keio.ac.jp/ COPICAT: 統計的相互作用予測システム予測ジョブ投入画面 :

COPICAT: 統計的相互作用予測システム予測結果画面 : PubChem, UniProt データベースへのリンク

タンパク質配列立体構造のフォーマットタンパク質情報 : UniProt : アミノ酸配列情報 FASTA 形式 : > protein 1 MSGLRTVSASSGNGKSYTVDINGKKVKLQLWDTA > protein 2 HANDEAQLLLVGNKSDMQEKIDSNKLVGVGNGKE Protein Data Bank (PDB) : タンパク質立体構造情報 + 複合体立体構造情報 PDB ファイル形式 : HIV protease と阻害剤 indinavir の複合体 ) タンパク質化合物化合物化合物構造情報のフォーマット化合物の (2 次 ) 構造式データ形式 : 原子数結合数 sdf ファイル形式座標

化合物情報 : 有用なデータベース 1 KEGG (KEGG LIGAND, KEGG DRUG) PubChem ( データ数 :1 億数千万 ~2 億化合物 ) 入手可能な情報 (PubChem の場合 ) 構造情報 (sdf ファイル ) 物理化学特性値 ( 分子量, XLogP etc.) SMILES 類似化合物情報バイオアッセイの結果パスウェイ, 毒性等のデータベースへのリンク etc. 有用なデータベース 2 タンパク質 - 化合物結合情報 : DrugBank - 薬剤とその標的タンパク質の情報 GLIDA - GPCR の agonist/antagonist の情報 Binding Database - ( 酵素中心 ) Ki 値 etc. PDSP Ki database - ( 受容体中心 ) Ki 値阻害定数 : ; 平衡時, タンパク質濃度 ; 平衡時, 阻害剤濃度 ; 平衡時, タンパク質 - 阻害剤複合体濃度 Ki 値が小さい (ex. pm) = 結合が極めて強い

AutoDock を用いたドッキング解析ツール : AutoDock 候補 + protein ligand 特徴エネルギー計算 : 経験的スコア関数配座探索 : 遺伝的アルゴリズム (GA), 大域的 & 局所的探索 AutoDock を用いたドッキング解析 AutoDock の仕組み初期配置適応度地形エネルギー計算座標変化 etc. GA 出力結果化合物の座標形をランダムに変化させながら, より複合体のエネルギーが安定する位置形態を求める GA 化合物のとり得る座標形態

AutoDock を用いたドッキング解析複合体の自由エネルギー G を近似式により計算 van der waals 水素結合静電相互作用脱溶媒和エントロピー統計的予測とフィードバック戦略予測システム結合予測化合物群検証実験 in silico スクリーニング in vitro スクリーニングターゲットタンパク質小分子化合物予測の誤りをフィードバック結合評価今回は,AUTODOCKによる検証統計的予測システムの精度向上

レポート課題 3 COPICAT による予測,AUTODOCK による検証, フィードバックによる学習と再予測, の 3 つの演習を行う実行結果画面の図を張り付けるなどして, 考察するフィードバックによる学習と再予測により予測の変化を見る AutoDock のドッキング結果の解析から, 結合情報を取得して, 主要な情報の値 (affinity 値など ) を示すそれらの値がどのような物理化学的特性について意味しているのかを調べる結合している化合物とタンパク質の位置関係について考察結合予測に用いた化合物について調べる ( ヒント ) アンドロゲンレセプターに結合する化合物の探索アンドロゲンの受容体と前立腺がんとの関係やその治療法であるホルモン治療について調べる ( 発展 )PubChemから, アンドロゲンレセプターに結合する可能性のある新しい化合物の発見を試みる