ChIP-seq - PDF Free Download

ChIP-seq 1

ChIP-seq 解析原理 ChIP サンプルのフラグメントではタンパク質結合部位付近にそれぞれ Forward と Reverse のリードがマップされることが予想される ChIP のサンプルでは Forward と Reverse のリードを 3 側へシフトさせ ChIP のピークを算出するコントロールサンプルでは ChIP のサンプルとは異なり特定の場所に多くマップされないためバックグラウンドの分布を計算する Park, P. ChIP--seq: advantages and challenges of a maturing technology Nature Reviews Genetics, 2009, 10, 669-680 Pepke, S.; Wold, B. & Mortazavi, A. Computation for ChIP-seq and RNA-seq studies Nature methods, 2009, 6, S22-S32 2

ChIP-seq 解析原理コントロールに対する ChIP ピークの差コントロールに対する ChIP ピークの差を 2 項分布負の 2 項分布やポアソン分布などに当てはめ統計的な有意差があるかどうかを計算ピークの精査 Pepke, S.; Wold, B. & Mortazavi, A. Computation for ChIP-seq and RNA-seq studies Nature methods, Nature Publishing Group, 2009, 6, S22- S32 3

ChIP-seq 原理少し詳細 Control サンプルがある場合 ChIP Control w1 w w 4 3 w4 w i k 1i k 2i n i k 1i k2i : i 番目のウィンドウ :ChIPサンプルのi 番目のウィンドウのリード数 : コントロールサンプルのi 番目のウィンドウのリード数 :ChIPサンプルとコントロールサンプルのi 番目のウィンドウのリードの合計数以上から以下の2 項分布を使ってウィンドウに含まれるリード数に応じてChIPピークがある場合のリード数を推定できます k1i r o i Bi n,, ro 1 ro k2i i 4

ChIP-seq 原理少し詳細 Control サンプルがない場合 ChIP Control サンプルがない場合は ChIP サンプルのリード数が少ないウィンドウを使ってバックグラウンドとなる分布を推定しますそしてウィンドウに含まれるリード数に応じて何個のリード数からピークを含むウィンドウとなるかを決定します 5

ChIP-seq Genomics Workbench での解析ステップ 1. バックグラウンドの分布 ( 帰無分布 ) の計算 2. バックグラウンドの分布から推定される値よりも大きな値を持つコンティグを選択 3. ピークの候補領域を選択 4. フィルタリングによってピークを精査ピークの決定コントロールがない場合には Ji らの方法に基づきバックグラウンドの分布を推定 Ji, H., Jiang, H., Ma, W., Johnson, D., Myers, R., and Wong, W. (2008). An integrated software system for analyzing ChIP-chip and ChIP-seq data. Nature Biotechnology, 26(11):1293--1300. 6

よいピーク??? False Positive が少ない FDR を使って検討 Forward と Reverse 側に均等にリードがマップしている ChIP のピークがある程度の長さがある Forward リード数 Reverse リード数 /(Forward リード数 + Reverse リード数 ) ピークの長さ Forward 側と Reverse 側のリードの分布が十分に離れている Forward のリードの分布と Reverse のリードの分布を検定 7

ChIP-seq 解析フローインポートリードデータゲノムのインポート Quality check Quality の低い塩基リードの排除マッピングゲノムへマッピングピーク検出ピーク検出ピーク精査より正確なピークの探索アノテーション確認ピーク配列切り出しピーク領域の配列の切り出しエクスポートモチーフ探索ピーク配列にモチーフ 8

ChIP-seq 解析フローインポート Quality check マッピングピーク検出ピーク精査ピーク配列切り出しモチーフ探索 9

ChIP-seq 先に説明した方法で Mapping を作成しておく Navigation Area から使用するデータを選択 Toolbox から ChIP-seq Analysis を選択ダブルクリックウィザードが起動し選択したデータが選ばれていることを確認 10

ChIP-seq Control samples Use control data: コントロールサンプルの有無 Peak detection Window size: ピークを調べる際に何塩基ごとに調べていくか Maximum false discovery rate: 許容できる False Discovery rate の最大値 Shift reads Shift reads based on fragment length: ゲルから切り出した配列の長さピーク検出の際にこの長さ 0.5 の長さ分シフトされます Background distribution Analyze each reference separately: リファレンスが複数ある場合に Background の分布をそれぞれ別に計算するかどうか 11

ChIP-seq 以下の例では Windows 1 と Windows 3 にそれぞれ 2 つずつリードがありますがこれを Shift させると以下のようになり Signal /Noise 比を増やしてピークの位置の同定が行いやすくなりますリードの Shift はピーク検出の場合にのみ用いられその後のステップではリードは本来の位置で処理されます 12

ChIP-seq Peak refinement settings ここではこれまでのウィザードで見つかったピークの候補を精査するための設定を行いますこれは ChIP サンプルのみ使用するのでコントロールサンプルのデータは必要ありません Boundary refinement: Filter peaks based on difference in read orientation counts:dna とタンパク結合部位の上流下流に存在するリードの数のバランスを考慮してフィルターをかけますこの値を小さく設定することで上流下流に存在するリード数が同じピークを検出できます Normalized difference of read counts は以下の式で計算されます Filter peaks on probability of identical locations of forward reverse reads:dna とタンパクの結合部位の上流下流にあるリードが同じ分布からできていると帰無仮説 (Null hypothesis) を設定して Wilcoxon rank-sum 検定を行い設定した Maximum probability よりも小さいものをピークとする 13

ChIP-seq Next で次の画面に進みデータを保存する場所を決め処理開始で 14

ChIP-seq 15

ピーク領域の Export ChIP-seq 解析後ピーク領域のモチーフ検索を行う事が多いですそのためにピーク領域を Export しモチーフ検索のソフトウェアを利用します (GWB にはモチーフ検索は含まれていません ) ここではピーク領域を簡単に Export する方法をご紹介します

Extract Annotations プラグインのインポート 17

Extract Annotations 18

Extract Annotations 19

Extract Annotations 20

Extract Annotations 21

Extract Annotations Type selection Type:ChIP-seq のアノテーションは Binding site というタイプに格納されているので Binding site を選択 Name of sequences 作成されるピーク配列につける名前後からわかりやすいようにユニークに認識できる名前をつけるためリージョンなどを含めると便利 22

Extract Annotations 23