ChIP-seq 1
ChIP-seq 解析原理 ChIP サンプルのフラグメントでは タンパク質結合部位付近にそれぞれ Forward と Reverse のリードがマップされることが予想される ChIP のサンプルでは Forward と Reverse のリードを 3 側へシフトさせ ChIP のピークを算出する コントロールサンプルでは ChIP のサンプルとは異なり 特定の場所に多くマップされないため バックグラウンドの分布を計算する Park, P. ChIP--seq: advantages and challenges of a maturing technology Nature Reviews Genetics, 2009, 10, 669-680 Pepke, S.; Wold, B. & Mortazavi, A. Computation for ChIP-seq and RNA-seq studies Nature methods, 2009, 6, S22-S32 2
ChIP-seq 解析原理 コントロールに対する ChIP ピークの差 コントロールに対する ChIP ピークの差を 2 項分布 負の 2 項分布やポアソン分布などに当てはめ 統計的な有意差があるかどうかを計算 ピークの精査 Pepke, S.; Wold, B. & Mortazavi, A. Computation for ChIP-seq and RNA-seq studies Nature methods, Nature Publishing Group, 2009, 6, S22- S32 3
ChIP-seq 原理少し詳細 Control サンプルがある場合 ChIP Control w1 w w 4 3 w4 w i k 1i k 2i n i k 1i k2i : i 番目のウィンドウ :ChIPサンプルのi 番目のウィンドウのリード数 : コントロールサンプルのi 番目のウィンドウのリード数 :ChIPサンプルとコントロールサンプルのi 番目のウィンドウのリードの合計数 以上から 以下の2 項分布を使って ウィンドウに含まれるリード数に応じてChIPピークがある場合の リード数を推定できます k1i r o i Bi n,, ro 1 ro k2i i 4
ChIP-seq 原理少し詳細 Control サンプルがない場合 ChIP Control サンプルがない場合は ChIP サンプルのリード数が少ないウィンドウを使って バックグラウンドとなる分布を推定します そしてウィンドウに含まれるリード数に応じて 何個のリード数から ピークを含むウィンドウとなるかを決定します 5
ChIP-seq Genomics Workbench での解析ステップ 1. バックグラウンドの分布 ( 帰無分布 ) の計算 2. バックグラウンドの分布から推定される値よりも大きな値を持つコンティグを選択 3. ピークの候補領域を選択 4. フィルタリングによってピークを精査 ピークの決定 コントロールがない場合には Ji らの方法に基づき バックグラウンドの分布を推定 Ji, H., Jiang, H., Ma, W., Johnson, D., Myers, R., and Wong, W. (2008). An integrated software system for analyzing ChIP-chip and ChIP-seq data. Nature Biotechnology, 26(11):1293--1300. 6
よいピーク??? False Positive が少ない FDR を使って検討 Forward と Reverse 側に均等にリードがマップしている ChIP のピークがある程度の長さがある Forward リード数 Reverse リード数 /(Forward リード数 + Reverse リード数 ) ピークの長さ Forward 側と Reverse 側のリードの分布が十分に離れている Forward のリードの分布と Reverse のリードの分布を検定 7
ChIP-seq 解析フロー インポート リードデータ ゲノムのインポート Quality check Quality の低い塩基 リードの排除 マッピング ゲノムへマッピング ピーク検出 ピーク検出 ピーク精査 より正確なピークの探索 アノテーション確認 ピーク配列切り出し ピーク領域の配列の切り出し エクスポート モチーフ探索 ピーク配列にモチーフ 8
ChIP-seq 解析フロー インポート Quality check マッピング ピーク検出 ピーク精査 ピーク配列切り出し モチーフ探索 9
ChIP-seq 先に説明した方法で Mapping を作成しておく Navigation Area から使用するデータを選択 Toolbox から ChIP-seq Analysis を選択 ダブルクリック ウィザードが起動し 選択したデータが選ばれていることを確認 10
ChIP-seq Control samples Use control data: コントロールサンプルの有無 Peak detection Window size: ピークを調べる際に何塩基ごとに調べていくか Maximum false discovery rate: 許容できる False Discovery rate の最大値 Shift reads Shift reads based on fragment length: ゲルから切り出した配列の長さ ピーク検出の際に この長さ 0.5 の長さ分シフトされます Background distribution Analyze each reference separately: リファレンスが複数ある場合に Background の分布をそれぞれ別に計算するかどうか 11
ChIP-seq 以下の例では Windows 1 と Windows 3 にそれぞれ 2 つずつリードがありますが これを Shift させると 以下のようになり Signal /Noise 比を増やしてピークの位置の同定が行いやすくなります リードの Shift はピーク検出の場合にのみ用いられ その後のステップでは リードは本来の位置で処理されます 12
ChIP-seq Peak refinement settings ここではこれまでのウィザードで見つかったピークの候補を精査するための設定を行います これは ChIP サンプルのみ使用するので コントロールサンプルのデータは必要ありません Boundary refinement: Filter peaks based on difference in read orientation counts:dna とタンパク結合部位の上流 下流に存在するリードの数のバランスを考慮してフィルターをかけます この値を小さく設定することで 上流 下流に存在するリード数が同じピークを検出できます Normalized difference of read counts は以下の式で計算されます Filter peaks on probability of identical locations of forward reverse reads:dna とタンパクの結合部位の上流 下流にあるリードが同じ分布からできていると帰無仮説 (Null hypothesis) を設定して Wilcoxon rank-sum 検定を行い 設定した Maximum probability よりも小さいものをピークとする 13
ChIP-seq Next で次の画面に進み データを保存する場所を決め処理開始 で 14
ChIP-seq 15
ピーク領域の Export ChIP-seq 解析後 ピーク領域のモチーフ検索を行う事が多いです そのためにピーク領域を Export し モチーフ検索のソフトウェアを利用します (GWB にはモチーフ検索は含まれていません ) ここでは ピーク領域を簡単に Export する方法をご紹介します
Extract Annotations プラグインのインポート 17
Extract Annotations 18
Extract Annotations 19
Extract Annotations 20
Extract Annotations 21
Extract Annotations Type selection Type:ChIP-seq のアノテーションは Binding site というタイプに格納されているので Binding site を選択 Name of sequences 作成されるピーク配列につける名前 後からわかりやすいように ユニークに認識できる名前をつけるため リージョンなどを含めると便利 22
Extract Annotations 23