ヒト選択的スプライシングデータベース H DBAS の活用 産業技術総合研究所バイオメディシナル情報研究センター 武田淳一 1
目次 選択的スプライシングについて H DBAS のデータと使い方 2
目次 選択的スプライシングについて H DBAS のデータと使い方 3
スプライソソームによるスプライシング complex E スプライソソーム : 5つのsnRNP(small nuclear ribonucleoprotein particle) U1, U2, U4, U5, U6と数百のsplicing factorからなる細胞内で最大の複合体 pre mrna からいくつかの段階かの段階 (complex p E, A, B, C) ) を経てイントロンを除去し mrnaにする Wahl etal 2009 Cell The Splicesome: Design Principles 4 of a Dynamic RNP Machine
選択的スプライシング ESE: exonic splicing enhancer ESS: exonic splicing silencer ISE: intronic splicing enhancer ISS: intronic splicing silencer SR: arginine serine rich protein hnrnp: heterogeneous nuclear ribonucleoprotein Wang and Burge 2008 RNA Splicing regulation: From a parts list of regulatory 5 elements to an integrated splicing code
ヒト遺伝子において 選択的にスプライスされる遺伝子の割合 AS 遺伝子の割合 Method Year Author Journal 40 60 % EST 2002 Modrek and Lee Nature Genetics 74 % Microarray 2003 Johnson etal Science 92 94 % RNA Seq 2008 Wang etal Nature 6
Nova RNA interaction map Nova protein: ニューロン特異的選択的スプライシング因子 YCAYという配列に特異的に結合 中の図 : Ule etal 2006 Nature によって予測された RNAマップ Licatalosi etal 2008 Nature HITS CLIP yields genome wide 7 insights into brain alternative RNA processing
組織特異的スプライシングパターンの予測 8
選択的スプライシングによって引き起こされる病気の例 Cooper etal 2009 Cell RNA and Disease 9
目次 選択的スプライシングについて H DBAS のデータと使い方 10
H DBAS のデータ H InvDBの転写物から ヒト代表選択的スプライシングバリアント (Representative AS Variant; RASV) を同定している ヒト RASV は下記解析がなされている 1. タンパク機能に影響を与えるか ( 機能解析 ) 2. モデル生物の対応するローカスのRASVと保存性があるか ( 比較ゲノム解析 ) 3.ASジャンクションがポリソーム分画で発現しているか (RNA Seq 解析 RefSeq を使用 ) 11
転写物の完全長判定と RASV の同定 マッピング結果から転写物の完全長判定 RASV(Representative AS Variant) 同定 12
選択的スプライシングの比較ゲノム解析 13
選択的スプライシングの RNA Seq 解析 ヒトDLD 1 細胞のcytoplasm( 細胞質 ) nuclear( ( 核 翻訳していない ) polysome( ポリソーム : 複数のリボソームがある 翻訳している ) から mrna を抽出 計 1 億 4 千万のRNA Seqタグが生成 ヒトゲノム中のジャンクションの検出には TopHat を用いた 2つ以上のタグがサポート ( 発現 ) されたジャンクションのみを解析に用いた 厳密にするため RefSeqのジャンクションと同じ位置のものを選んだ 上記ジャンクションのうち ASジャンクションについて評価 ( 翻訳してる してない ) を行った 14
H DBAS の使い方 クリックで直接 ASローカス構造図へ飛びます 15
機能解析 AS ローカス構造図 メイン画面の表示形式操作 比較ゲノム解析メイン画面 16
H DBAS の使い方 RNA-Seq 解析ページが現れます
H DBAS の活用例 実験する前に バリアント間でタンパク機能モチーフに違いがないか確認する タンパクのアイソフォームの違いにより 細胞内で異なる作用をする可能性がある マウスなどのモデル生物を使う場合 ヒトと同じバリアント (ESV) が存在するか調べるる マウス ヒト ホモロジー検索だけでは保存度の高い遺伝子になるが ヒトでの応用が難しいかもしれない
選択的スプライシングによって引き起こされる病気の例 Wang and Cooper 2007 NPG Splicing in disease: disruption of the splicing code and the decoding machinery
タンパク機能に影響を与える選択的スプライシングの統計 (H DBAS Version6) 転写物ローカス ヒト完全長 cdna 95160 27193 RASV 38169 11538 ローカス タンパク機能モチーフ *1 5918 (52%) 遺伝子オントロジー (GO) *1 3052 (26%) 細胞内局在化シグナル *2 5309 (46%) 膜タンパクドメイン *3 1105 (10%) 計 7273 (63%) 予測プログラム : *1 InterPro Scan *2 TargetP WoLF PSORT *3 SOSUI TMHMM
選択的スプライシングの比較ゲノム解析結果と例計非保存ゲノム保存転写物保存 ESV 保存 AS RASV 20803 8459 4469 2381 4995 499 ローカス 7801 1686 1258 815 3817 225 ヒト RASV Src homology-3 RhoGAP domain サンプル図 : 保存 AS でかつタンパク機能に影響あり PI 3 キナーゼ調節サブユニット p55α PI 3 キナーゼ調節サブユニット p85α マウス cdna ヒト マウスゲノムアラインメント
選択的スプライシングの RNA Seq 解析 RefSeq statistics 結果と例 *Junctions expressed in *Junctions specifically expressed in Loci Transcripts Junctions Cytoplasm Nuclear Polysome Cytoplasm Nuclear (Nontranslation able) Polysome (Translation able) Total 19181 26814 186137 47615 47260 51041 6649 6980 9799 AS 4090 10923 14491 1067 1021 1114 260 254 299 *Two or more RNA Seq tags were supported. caspase 4(CASP4) RefSeq RefSeq のエクソンのまとめ ジャンクションの位置にマップされたタグ ( 数 ) の表示 各フラクションでジャンクションの位置にマップされたタグのヒストグラム
H DBAS の構築と更新
目次 選択的スプライシングの機構 我々の選択的スプライシング研究の結果 次世代シークエンサーの可能性
HITS CLIP (high throughput sequencing of RNA isolated by crosslinking immunoprecipitation) 別名 CLIP Seq この方法により NOVAやFOX などの組織特異的スプライシング因子が結合する特徴 RNA 部位を大量に得ることができるようになった Jensen and Darnell 2008 Methods Mol Bio CLIP: crosslinking and immunoprecipitation in vivo RNA targets of RNA binding protein Wang etal 2009 Methods CLIP: Construction of cdna libraries for high throughput sequencing from RNAs cross linked to proteins in vivo
Nova RNA interaction map Nova protein: ニューロン特異的選択的スプライシング因子 YCAYという配列に特異的に結合 中の図 : Ule etal 2006 Nature によって予測された RNAマップ Licatalosi etal 2008 Nature HITS CLIP yields genome wide insights into brain alternative RNA processing
次世代シークエンサー技術だけで哺乳類のゲノムを解読 デノボアセンブリで高等動物のゲノム解読が可能 ( 十分なチェックは必要 ) 数多くのゲノムが解読される 比較ゲノム解析で新たな知見が得られる ( と考えられる ) Scaffold: コンティグの連なり N50: 長いコンティグから並べていき 全塩基配列長さの 50% になるのが期待される最小の長さのコンティグ Li etal 2010 Nature The sequence and de novo assembly of the giant panda genome
次世代シークエンサーの比較 用途的にはサンガー法に近い single molecule real time (3 rd generation) GS FLX HiSeq 2000 SOLiD 4 Single Molecule l l (Roche) (Illumina) (Applied Biosystems) Sequencer version1 2010 年夏 2010 年 4 月 (Pacific Biosciences) 2010 年夏 リード長 400~600b 100b x 2 50b x 2 1000~1200b (5% は3000~5000b に届く ) 1 run あたりのスルー 400~600Mb 200Gb 100Gb 1x 二倍体ヒトゲノムを プット (100bペアエンド法) 1 日 (version1) 1 run あたりの時間 10 時間 8 日 4~5 日 1 run あたりのコスト ( 消耗品含む ) 備考 メイトペアで 12~14 日 80 万円 300 万円 ( 最大で ) 3+ で38 万円 ライブラ リ込みで1スライド60 万円 4ではもっと安く 性能は去年から変化なし FLXの簡易版である GS Junior 発表 (2009/12/07) BGI が 128 台購入と発表 (2010/01/12) 数 xのヒトゲノムを15 分以下 (version2) single molecule 最初の10 顧客を発表 sequencing 値段は $695,000 technologyを発表 version2を2014 年に (2010/03/01) 市場投入予定と発表 (2010/02/23) 2010/03/02 調査