講義室後ろにある USB メモリ中の hoge フォルダをデスクトップにコピーしておいてください 機能ゲノム学第 4 回 東京大学大学院農学生命科学研究科 アグリバイオインフォマティクス教育研究ユニット 門田幸二 kadota@iu.a.u-tokyo.ac.jp 前回 (5/28) のhogeフォルダがデスクトップに残っているかもしれないのでご注意ください Jun 04, 2014 1
講義予定 第 1 回 (2014 年 5 月 14 日 ) 原理 各種データベース 生データ取得 遺伝子発現行列作成 ( データ正規化 ) 教科書の 1.2 節 2.2 節周辺 第 2 回 (2014 年 5 月 21 日 ) クラスタリング ( データ変換や距離の定義など ) 実験デザイン 分布 教科書の 3.2 節周辺 第 3 回 (2014 年 5 月 28 日 ) 発現変動解析 ( 多重比較問題 ) 各種プロット (M-A plot や平均 - 分散プロット ) 教科書の 3.2 節と 4.2 節周辺 第 4 回 (2014 年 6 月 4 日 ) 機能解析 (Gene Ontology 解析やパスウェイ解析 ) 分類など 授業の目標 概要細胞中で発現している全転写物 ( トランスクリプトーム ) の解析技術は マイクロアレイから次世代シーケンサ (RNA-seq) に移行しつつあります RNA-seqデータ解析の多くは マイクロアレイの知識を前提としています また ニュートリゲノミクス ( 食品系 ) 分野では マイクロアレイは現在でも主流派です マイクロアレイデータを主な例として 各種トランスクリプトーム解析手法について解説します 教科書 Jun 04, 2014 2
Contents( 第 4 回 ) デザイン行列の意味を理解 ( 教科書 p173-182) limma パッケージを用いた 2 群間比較のおさらい limma パッケージを用いた 3 群間比較 ( 複製あり ) 複製なし多群間比較 ( 教科書 p182-188) limma パッケージを用いた 3 群間比較 ( 複製なし ) TCC パッケージ中の ROKU 法を用いた特異的発現遺伝子検出 機能解析 ( 遺伝子セット解析 ) 基本的な考え方 前処理 MSigDB からの遺伝子セット情報 (GMT 形式ファイル ) 取得 ID 変換 (probe ID gene symbol) GSA パッケージを用いたパスウェイ解析 その他 分類 Jun 04, 2014 3
遺伝子発現行列データは作成済み Affymetrix GeneChip Ge et al., Genomics, 86: 127-141, 2005 GSE2361 GPL96 (Affymetrix Human Genome U133A Array) 22,283 probesets ヒト 36 サンプル :Heart ( 心臓 ) Thymus ( 胸腺 ) Spleen ( 脾臓 ) Ovary ( 卵巣 ) Kidney ( 腎臓 ) Skeletal Muscle ( 骨格筋 ) Pancreas ( 膵臓 ) Prostate ( 前立腺 ) Nakai et al., Biosci Biotechnol Biochem., 72: 139-148, 2008 GSE7623 GPL1355 (Affymetrix Rat Genome 230 2.0 Array) 31,099 probesets ラット 24 サンプル :Brown adipose tissue ( 褐色脂肪組織 ; BAT)8 サンプル White adipose tissue ( 白色脂肪組織 ; WAT)8 サンプル Liver ( 肝臓 ; LIV)8 サンプル BAT 8 サンプル : 通常 (BAT_fed) 4 サンプル対 24 時間絶食 (BAT_fas) 4 サンプル WAT 8 サンプル : 通常 (WAT_fed) 4 サンプル対 24 時間絶食 (WAT_fas) 4 サンプル LIV 8 サンプル : 通常 (LIV_fed) 4 サンプル対 24 時間絶食 (LIV_fas) 4 サンプル Kamei et al., PLoS One, 8: e65732, 2013 GSE30533 GPL1355 (Affymetrix Rat Genome 230 2.0 Array) 31,099 probesets ラット 10 サンプル : 全て Liver ( 肝臓 ) サンプル iron-deficient diet (Iron_def) 5 サンプル対 control diet (Control) 5 サンプル hoge フォルダ中に 3 つの前処理法の実行結果ファイルがあります MAS5 (data_mas.txt) RMA (data_rma.txt) RMX (data_rob.txt) Jun 04, 2014 4
GSE7623 (Nakai et al., 2008) の対数変換後のデータ data_mas.txt data_mas_en.txt data_mas_jp.txt Jun 04, 2014 5
データ解析もいろいろ クラスタリング 発現変動遺伝子同定 遺伝子発現行列 機能解析 Gene Ontology(GO) パスウェイ解析 分類 ( 診断 ) 遺伝子ネットワーク推定 対数変換後のデータを用いて 2 群 3 群 多群間比較 Jun 04, 2014 6
教科書 p173-182 発現変動解析用 R パッケージの利用 Nakai et al., Biosci Biotechnol Biochem., 72: 139-148, 2008 GSE7623 GPL1355 (Affymetrix Rat Genome 230 2.0 Array) 31,099 probesets ラット 24 サンプル :Brown adipose tissue ( 褐色脂肪組織 ; BAT)8 サンプル White adipose tissue ( 白色脂肪組織 ; WAT)8 サンプル Liver ( 肝臓 ; LIV)8 サンプル BAT 8 サンプル : 通常 (BAT_fed) 4 サンプル対 24 時間絶食 (BAT_fas) 4 サンプル WAT 8 サンプル : 通常 (WAT_fed) 4 サンプル対 24 時間絶食 (WAT_fas) 4 サンプル LIV 8 サンプル : 通常 (LIV_fed) 4 サンプル対 24 時間絶食 (LIV_fas) 4 サンプル GSE7623 データを用い 様々な 2 群間比較を行い クラスタリング結果と DEG 検出結果の関連をみてみよう 1 2 3 rcode_clustering_png.txt の実行結果 1 肝臓と脂肪間で大きく二つのクラスターに分かれている 2 脂肪の中でも白色脂肪と褐色脂肪に分かれている 3 褐色脂肪は空腹 (24 時間絶食 ) と満腹 ( 通常 ) できれいに分かれている Jun 04, 2014 7
R パッケージ limma で DEG 検出 G1 群 G2 群 Jun 04, 2014 8
R パッケージ limma で DEG 検出 G1 群 G2 群 rcode_limma_4vs4.txt Jun 04, 2014 9
rcode_limma_4vs4.txt 解析したいサブセットに正しくできていることがわかります Jun 04, 2014 10
rcode_limma_4vs4.txt design オブジェクトが ( 実験 ) デザイン行列です この行列の 2 列目が G1 群と G2 群がどれに相当するかを表すクラスラベル情報であることもわかります Jun 04, 2014 11
rcode_limma_4vs4.txt dim 関数で行数と列数を表示 nrow 関数で行数を表示 ncol 関数で列数を表示 行列の要素抽出の基本は [ 行, 列 ] Jun 04, 2014 12
rcode_limma_4vs4.txt limma 実行後の p-value 情報は ベクトル形式ではなく行列形式になっていることに注意 そしてその列数は デザイン行列の列数と同じ out$p.value 行列の 2 列目の情報が 2 群間比較結果に相当 Jun 04, 2014 13
Contents( 第 4 回 ) デザイン行列の意味を理解 ( 教科書 p173-182) limma パッケージを用いた 2 群間比較のおさらい limma パッケージを用いた 3 群間比較 ( 複製あり ) 複製なし多群間比較 ( 教科書 p182-188) limma パッケージを用いた 3 群間比較 ( 複製なし ) TCC パッケージ中の ROKU 法を用いた特異的発現遺伝子検出 機能解析 ( 遺伝子セット解析 ) 基本的な考え方 前処理 MSigDB からの遺伝子セット情報 (GMT 形式ファイル ) 取得 ID 変換 (probe ID gene symbol) GSA パッケージを用いたパスウェイ解析 その他 分類 Jun 04, 2014 14
教科書 p180-182 limma で DEG 検出 (3 群間比較 ; 複製あり ) G1 群 G2 群 G3 群 rcode_limma_4vs4vs4.txt Jun 04, 2014 15
教科書 4.2.2 解析したいサブセットに正しくできています Jun 04, 2014 16
教科書 4.2.2 Jun 04, 2014 17
教科書 4.2.2 デザイン行列 design の列名を変更して取扱いやすくしている Jun 04, 2014 18
教科書 4.2.2 デザイン行列の列名を変更して取扱いやすくしておかないと この部分での指定時にややこしいことになる ここでは 3 種類の 2 群間比較を行うようにしている Jun 04, 2014 19
教科書 4.2.2 3 種類の 2 群間比較を行うようにしたコントラスト行列 contrast を入力としているので DEG 検出結果として 31,099 行 3 列からなる p- value 行列が得られることになる Jun 04, 2014 20
教科書 4.2.2 apply 関数を用いて列ごと (MARGIN=2) に q-value を計算している Jun 04, 2014 21
教科書 4.2.2 G1 群 G2 群 G3 群 G1vsG2 の DEG 数が他に比べて少ないので妥当 Jun 04, 2014 22
Contents( 第 4 回 ) デザイン行列の意味を理解 ( 教科書 p173-182) limma パッケージを用いた 2 群間比較のおさらい limma パッケージを用いた 3 群間比較 ( 複製あり ) 複製なし多群間比較 ( 教科書 p182-188) limma パッケージを用いた 3 群間比較 ( 複製なし ) TCC パッケージ中の ROKU 法を用いた特異的発現遺伝子検出 機能解析 ( 遺伝子セット解析 ) 基本的な考え方 前処理 MSigDB からの遺伝子セット情報 (GMT 形式ファイル ) 取得 ID 変換 (probe ID gene symbol) GSA パッケージを用いたパスウェイ解析 その他 分類 Jun 04, 2014 23
limma で DEG 検出 (3 群間比較 ; 複製なし ) G1 群 G2 群 G3 群 rcode_limma_1vs1vs1.txt (biological) replicates がないデータの場合 Jun 04, 2014 24
rcode_limma_1vs1vs1.txt (biological) replicates がないデータの場合は 通常モデル構築ができないのでエラーが出ます Jun 04, 2014 25
バイオインフォマティクス要素技術 相関係数やエントロピーなどの応用例を紹介 二群間比較 組織特異的遺伝子 Sequence logo 分類 ( 診断 ) クラスタリング同一ピーク同定 エントロピーで組織特異的遺伝子をランキングするやり方を紹介します Jun 04, 2014 26
IC Sequence logos: 計算手順 position iの情報量 IC ( N) H( x ) i log 2 2 i Sequence logos は あるポジションに特定の塩基が濃縮されている状態をうまく表すために エントロピーを内部的に計算している p 1,4 = 90% p 5,3 = 50% p 5,1 = 50% Jun 04, 2014 27
エントロピー ( 組織特異的遺伝子検出 ) 遺伝子 i のエントロピー Schug et al., Genome Biol., 6: R33, 2005 H(x ) i N p j ij log pij pij x 1 2 ( ), where ij / N j 1 x ij 組織特異的遺伝子は低いエントロピー N: 組織数 (jの数) = 8 Hの取りうる範囲 :0 H log 2 N 0 H 3 そうでないものは高い値 Jun 04, 2014 28
入力と出力の関係を簡単に説明します Jun 04, 2014 29
入力 :sample21.txt これがデータ変換後のエントロピーとその順位 出力 :hoge1.txt Jun 04, 2014 30
エントロピー ( 組織特異的遺伝子検出 ) ROKU 法はデータの変換を行うことでよりよいエントロピーでのランキング結果を得ている ( 変換前 : 変換後 : ) Jun 04, 2014 31
GSE2361 データを用いて ROKU を実行 Affymetrix GeneChip Ge et al., Genomics, 86: 127-141, 2005 GSE2361 GPL96 (Affymetrix Human Genome U133A Array) 22,283 probesets ヒト 36 サンプル :Heart ( 心臓 ) Thymus ( 胸腺 ) Spleen ( 脾臓 ) Ovary ( 卵巣 ) Kidney ( 腎臓 ) Skeletal Muscle ( 骨格筋 ) Pancreas ( 膵臓 ) Prostate ( 前立腺 ) hoge GSE2361 フォルダ中の MAS5 データを入力として ROKU 法を実行してみよう Jun 04, 2014 32
課題 (ROKU 実行結果の解釈 ) 1. MAS5 データ変換後のエントロピー値 (modh 列の値 ) の最小値と最大値を示せ 2. MAS5 データ変換後のエントロピー値 (modh 列の値 ) が 4.0 以下の probeset 数を示せ 3. ROKU 実行結果全体について簡単に考察せよ ( 例 : 特異的高発現と特異的低発現の組織数分布 特異的組織数とエントロピー値との関係など ) Jun 04, 2014 33
これが一般的な手元の入力ファイル読み込みです 他の手段として R パッケージが提供しているデータの読み込み法についても説明します Jun 04, 2014 34
実行例が意味不明?!... ではなくて hypodata_ts というサンプルデータが TCC パッケージ中で提供されているということです Jun 04, 2014 35
上の data オブジェクトと下の hypodata_ts オブジェクトの中身は同じです Jun 04, 2014 36
Contents( 第 4 回 ) デザイン行列の意味を理解 ( 教科書 p173-182) limma パッケージを用いた 2 群間比較のおさらい limma パッケージを用いた 3 群間比較 ( 複製あり ) 複製なし多群間比較 ( 教科書 p182-188) limma パッケージを用いた 3 群間比較 ( 複製なし ) TCC パッケージ中の ROKU 法を用いた特異的発現遺伝子検出 機能解析 ( 遺伝子セット解析 ) 基本的な考え方 前処理 MSigDB からの遺伝子セット情報 (GMT 形式ファイル ) 取得 ID 変換 (probe ID gene symbol) GSA パッケージを用いたパスウェイ解析 その他 分類 Jun 04, 2014 37
機能解析 Gene Ontology (GO) 解析 ( 発現に差のある GO term を探索 ) 基本 3 カテゴリ (Cellular component (CC), Molecular Function (MF), Biological Process (BP)) のどれでも可能 例 : 肝臓の空腹状態 vs. 満腹状態の GO(BP) 解析の結果 脂肪酸 β 酸化 関連 GO term (GO:0006635) が動いていることが分かった パスウェイ解析 ( 発現に差のあるパスウェイを探索 ) KEGG, BioCarta, Reactome pathway database のどれでも可能 例 : 酸化的リン酸化パスウェイ関連遺伝子セットが糖尿病患者で動いていた モチーフ解析 ( 発現に差のあるモチーフを探索 ) 発現に差のある遺伝子セットを探したい 同じ 3 -UTR microrna 結合モチーフをもつ遺伝子セット 同じ転写因子結合領域 (TATA-box など ) をもつ遺伝子セット 例 :TATA-box をもつ遺伝子セットが G1 群対 G2 群比較で動いていた Jun 04, 2014 38
N=10,000 genes 機能解析 Khatri et al., PLoS Comput. Biol., 8(2): e1002375, 2012 発現変動遺伝子セット解析手法 (2 群間比較用がほとんど ) N=10,000 個の遺伝子からなる 2 群間比較用データ この中に XXX 関連遺伝子が n 個含まれている 例 : 酸化的リン酸化 (=XXX) 関連遺伝子が 7(=n) 個含まれている 7 個の酸化的リン酸化関連遺伝子の位置 G1 群 G2 群 酸化的リン酸化関連遺伝子セットが変動しているかどうかを調べたい Jun 04, 2014 39
N=10,000 genes 機能解析 ( 遺伝子セット解析 ) 遺伝子ごとの統計量を算出 ( 発現変動の度合いを数値化 ) 例 :t- 統計量 log 2 (G2/G1) 相関係数 SAM WAD G1 群 G2 群 G1 群 G2 群 発現変動遺伝子 (G1 群 > G2 群 ) 変動してない遺伝子 発現変動遺伝子 (G1 群 < G2 群 ) Jun 04, 2014 40
N=10,000 genes 機能解析 ( 遺伝子セット解析 ) 発現変動順にソート後の酸化的リン酸化関連遺伝子セットのステレオタイプな分布 変動している 変動してない G1 群 G2 群 G1 群 G2 群 どうやって偏りを評価するのか? Jun 04, 2014 41
N=10,000 genes 遺伝子セット解析法 ( 第一世代 ) Over-Representation Analysis (ORA) 何らかの手段で決めた上位 X(=1500) 個のうち x 個が酸化的リン酸化関連遺伝子であった G1 群 G2 群 G1 群 G2 群 6 5 5 1 0 2 1 0 酸化的リン酸化関連遺伝子セット (n =7) が変動していない場合 : x/n X/N (= 1500/10000) 酸化的リン酸化関連遺伝子セット (n =7) が変動している場合 : x/n >> X/N (= 15%) Jun 04, 2014 42
N=10,000 genes 遺伝子セット解析法 ( 第一世代 ) Over-Representation Analysis (ORA) 何らかの手段で決めた上位 X(=1500) 個のうち x 個が酸化的リン酸化関連遺伝子であった G1 群 G2 群 G1 群 G2 群 6 XXX= 酸化的リン酸化関連遺伝子セット 2 2 分割表に基づく方法 超幾何検定 カイ二乗検定 Jun 04, 2014 43
遺伝子セット解析法 ( 超幾何検定 ) rcode_ora_basic.txt N=10000 個の遺伝子発現データ中に XXX= 酸化的リン酸化関連遺伝子は n=7 個含まれていた 上位 X=1500 個の発現変動遺伝子 (DEG) の中に x=6 個の酸化的リン酸化関連遺伝子が含まれていた 帰無仮説 : 酸化的リン酸化関連遺伝子の割合は DEG と non-deg 間で差がない DEG として 1500 個抽出したとき 酸化的リン酸化関連遺伝子が 6 個以上含まれる確率として算出 Jun 04, 2014 44
遺伝子セット解析法 ( 超幾何検定 ) rcode_ora_basic.txt m=7 個の白いボールと n=9993 個の黒いボールが入った箱があります ( トータルで N=m+n=10,000 個 ) この中から k=1500 個ランダムに取り出したときに x=6 個以上白いボールが含まれる確率を計算しなさい?dhyper マニュアル中の一般的な説明に置き換えるとこんな感じです Jun 04, 2014 45
遺伝子セット解析法 ( カイ二乗検定 ) rcode_ora_basic.txt DEG として 1500 個抽出したとき 酸化的リン酸化関連遺伝子が 6 個以上含まれる確率として算出 Jun 04, 2014 46
N=10,000 genes 遺伝子セット解析法 ( 第一世代 ) Over-Representation Analysis (ORA) 何らかの手段で決めた上位 X(=1500) 個のうち x 個が酸化的リン 酸化関連遺伝子であった G1 群 G2 群 G1 群 G2 群 rcode_ora_basic.txt 6 5 5 1 0 2 1 0 p < 0.05 を灰色で示した Jun 04, 2014 47
遺伝子セット解析法 ( 第一世代 ) Over-Representation Analysis (ORA) GenMAPP (Dahlquist et al., Nature Genet., 31: 19-20, 2002) FatiGO (Al-Shahrour et al., Bioinformatics, 20: 578-580, 2004) GOstat (Beissbarth et al., Bioinformatics, 20: 1464-1465, 2004) GOFFA (Sun et al., BMC Bioinformatics, 7 Suppl 2: S23, 2006) agrigo (Du et al., Nucleic Acids Res., 38: W64-W70, 2010) Jun 04, 2014 48
N=10,000 genes 第一世代 (ORA) の短所 1 全体的には動いているものの 個々の発現変動の度合いが弱い場合に検出困難 2 上位 X 個のX 次第で結果が変わる 3 情報量が落ちている ( 発現変動の度合い カウント情報 ) 3 G1 群 G2 群 2 G1 群 G2 群 6 5 5 1 0 2 1 0 1 Jun 04, 2014 49
Khatri et al., PLoS Comput. Biol., 8(2): e1002375, 2012 遺伝子セット解析法 ( 第二世代 ) Functional Class Scoring (FCS) 1. 遺伝子ごとの統計量を算出 ( 発現変動の度合いを数値化 ) 例 :t- 統計量 log(b/a) 相関係数 SAM WAD 2. 目的の遺伝子セット XXX(= 酸化的リン酸化関連遺伝子 ) の偏りを何らかの方法で評価 t 検定 (XXX 中の遺伝子群の統計量 vs. それ以外の遺伝子群の統計量 ) Wilcoxon rank sum test (XXX 中の遺伝子群の発現変動の順位 vs. それ以外 ) XXX 中の n 個の遺伝子群の何らかの要約統計量 S XXX を計算しておき N 個の全遺伝子の中からランダムに n 個を抽出して同じ統計量を計算する ( 例えば 10 万回 ) 10 万回のうち S XXX 以上 ( 大きければ大きいほど発現変動していることを意味する場合 ; その逆のときは 以下 ) だった回数 ( 例えば j 回 ) に基づいて p 値 (= j / 100,000) を算出 ( いわゆる gene set permutation というアプローチ ) 本来の G1 群 vs. G2 群のラベル情報を用いて得られた XXX 中の n 個の遺伝子群の何らかの要約統計量 S XXX を計算しておく ランダムにラベル情報を入れ替えて 同じ統計量を計算することを何回も繰り返して p 値を算出 ( いわゆる Phenotype permutation というアプローチ ) Jun 04, 2014 50
N=10,000 genes 第一世代 (ORA) 第二世代 (FCS) 第一世代の欠点が改善 1 全体的には動いているものの 個々の発現変動の度合いが弱い場合に検出困難 2 上位 X 個のX 次第で結果が変わる 3 情報量が落ちている ( 発現変動の度合い カウント情報 ) G1 群 G2 群 G1 群 G2 群 6 5 5 1 0 2 1 0 2 3 ORA: FCS: 1 Jun 04, 2014 51
遺伝子セット解析法 ( 第二世代 ) Functional Class Scoring (FCS) GSEA (Subramanian et al., PNAS, 102: 15545-15550, 2005) PAGE (Kim and Volsky, BMC Bioinformatics, 6: 144, 2005) sigpathway (Tian et al., PNAS, 102: 13544-13549, 2005) GSA (Efron and Tibshirani, Ann. Appl. Stat., 1: 107-129, 2007) GeneTrail (Backes et al., Nucleic Acids Res., 35: W186-W192, 2007) SAM-GS (Dinu et al., BMC Bioinformatics, 8: 242, 2007) 最も有名なのは GSEA です Jun 04, 2014 52
Khatri et al., PLoS Comput. Biol., 8(2): e1002375, 2012 遺伝子セット解析法 ( 共通の問題 ) ( 知識ベースの解析法なので ) 解析対象がアノテーションの情報の豊富な生物種に限定 それ以外の生物種は まずは地道にアノテーション情報を増やしていくことが先決 ( ではないだろうか ) アノテーション情報の信頼度が高いとはいえない なんらかの GO term がついていたとしても その大部分の evidence code が自動でつけられたもの (IEA, inferrred from electronic annotations) である 遺伝子セット間の独立性の問題 数百個程度の遺伝子セットの中から 比較するサンプル間で動いている遺伝子セットはどれか? という解析を遺伝子セット間の独立性を仮定して調べるが そもそも独立ではない (GO term 間の親子関係などから明らか ) いくつくらいの遺伝子セットが動いているのか? という問いに答えるすべがない 評価に用いられる よく研究されているデータセット は答えが完全に分かっているものではない (the actual biology is never fully known!) 感度が高い と謳っているだけの方法は ( 全部の遺伝子セットが動いている 感度 100%) Jun 04, 2014 53
参考 GSEA 法の使い方 最も有名な GSEA ソフトウェアの使い方は統合 TV で独学 Jun 04, 2014 54
Contents( 第 4 回 ) デザイン行列の意味を理解 ( 教科書 p173-182) limma パッケージを用いた 2 群間比較のおさらい limma パッケージを用いた 3 群間比較 ( 複製あり ) 複製なし多群間比較 ( 教科書 p182-188) limma パッケージを用いた 3 群間比較 ( 複製なし ) TCC パッケージ中の ROKU 法を用いた特異的発現遺伝子検出 機能解析 ( 遺伝子セット解析 ) 基本的な考え方 前処理 MSigDB からの遺伝子セット情報 (GMT 形式ファイル ) 取得 ID 変換 (probe ID gene symbol) GSA パッケージを用いたパスウェイ解析 その他 分類 Jun 04, 2014 55
発現変動遺伝子セット解析おさらい Gene Ontology (GO) 解析 ( 発現に差のある GO term を探索 ) 基本 3 カテゴリ (Cellular component (CC), Molecular Function (MF), Biological Process (BP)) のどれでも可能 例 : 肝臓の空腹状態 vs. 満腹状態の GO(BP) 解析の結果 脂肪酸 β 酸化 関連 GO term (GO:0006635) が動いていることが分かった パスウェイ解析 ( 発現に差のあるパスウェイを探索 ) KEGG, BioCarta, Reactome pathway database のどれでも可能 例 : 酸化的リン酸化パスウェイ関連遺伝子セットが糖尿病患者で動いていた モチーフ解析 ( 発現に差のあるモチーフを探索 ) 同じ 3 -UTR microrna 結合モチーフをもつ遺伝子セット 同じ転写因子結合領域 (TATA-box など ) をもつ遺伝子セット 例 :TATA-box をもつ遺伝子セットが G1 群対 G2 群比較で動いていた どの遺伝子セットにどの遺伝子が所属しているかというgmt 形式ファイルの取得が第一歩 Subramanian et al., PNAS, 102: 15545-15550, 2005 Jun 04, 2014 56
Molecular Signature Database (MSigDB, ver. 4.0) c1: positional gene sets (326 gene sets) ヒト染色体の位置ごとの遺伝子セットリストファイル (326 gene sets) c2: curated gene sets (4,722 gene sets) CGP: chemical and genetic perturbations (3,402 gene sets) CP: canonical pathways (1,320 gene sets) CP:BIOCARTA: BioCarta gene sets (217 gene sets) CP:KEGG: KEGG gene sets (186 gene sets) CP:REACTOME: Reactome gene sets (674 gene sets) c3: motif gene sets (836 gene sets) MIR: microrna targets (221 gene sets) TFT: transcription factor targets (615 gene sets) c4: computational gene sets (858 gene sets) CGM: cancer gene neighborhoods (427 gene sets) CM: cancer modules (431 gene sets) c5: gene ontology (GO) gene sets (1,454 gene sets) BP: biological process (825 gene sets) CC: cellular component (233 gene sets) MF: molecular function (396 gene sets) c6: oncogenic signatures gene sets (189 gene sets) c7: immunologic signatures gene sets (1,910 gene sets) Subramanian et al., PNAS, 102: 15545-15550, 2005 発現変動と関連する KEGG パスウェイを調べたいとき 様々な遺伝子セット解析を行うための gmt 形式ファイルをダウンロード可能です 発現変動と関連する BP 中の GO terms を調べたいとき Jun 04, 2014 57
遺伝子セット解析 ( パスウェイ解析 ) を行うための gmt 形式ファイルのダウンロード方法はこちら Jun 04, 2014 58
KEGG Pathway 解析を行いたい場合は ここから gmt ファイルを取得 Jun 04, 2014 59
gmt 形式ファイルの中身 1 列目 : 遺伝子セット名 2 列目 :URL 3 列目以降 :gene ID or symbol Jun 04, 2014 60
GSE7623 (Nakai et al., 2008) の対数変換後のデータを入力として BAT_fed vs. BAT_fas の遺伝子セット解析をやってみよう G1 群 G2 群 Jun 04, 2014 61
解析前に対応付けを行う必要がある プローブ ID と gene symbol の対応付けを行い 同じ gene symbol に複数のプローブ ID が割り当てられる場合は平均値を採用するなどして non-redundant にする ( 折り畳む ; つぶす ;collapse) 作業が必要 Jun 04, 2014 62
教科書 p70-71 遺伝子発現データは 公共 DB の GEO から GSE7623 という ID で取得したものだった ここから プローブ ID と gene symbol の対応付けを行うためのアノテーションファイルを取得可能 Jun 04, 2014 63
教科書 p70-71 プローブ ID と gene symbol からなるアノテーションファイルを取得できています hoge3_gpl1355.txt Jun 04, 2014 64
エクセルで開くときには注意が必要! 参考 1 行 1 列目のところが ID から始まる文字列の場合にこの 1 ような現象が起こるようですが 基本無視で構いません 2 エクセルを開いたあと ドラッグ & ドロップで開いてはだめ! 編集して保存したい場合には ファイル - 開く でファイルを指定して開くべし! そのまま開くと例えば March2 という gene symbol が日付と認識されてしまうため これを防ぐ必要があります! Jun 04, 2014 65
対応付けの基礎情報はあるが... Gene Symbol 列でソートしてみると hoge3_gpl1355.txt data_mas_en.txt Jun 04, 2014 66
対応付けの基礎情報はあるが... Gene Symbol 列でソート 同じ gene symbol を持つプローブ ID が複数存在することがわかる Jun 04, 2014 67
同じ gene symbol をもつものをまとめる 入力 1:hoge3_GPL1355.txt 入力 2:data_mas_EN.txt 出力 :data_mas_en_symbol.txt マイクロアレイごとに搭載されている遺伝子の種類や重複度が異なるため この作業は重要 Jun 04, 2014 68
rcode_id_conversion.txt プログラムの組み方で速度が結構違います ( データフレーム形式より行列形式のほうが早いらしい ) data_mas_en_symbol.txt は このコードのコピペで作成しています Jun 04, 2014 69
Contents( 第 4 回 ) デザイン行列の意味を理解 ( 教科書 p173-182) limma パッケージを用いた 2 群間比較のおさらい limma パッケージを用いた 3 群間比較 ( 複製あり ) 複製なし多群間比較 ( 教科書 p182-188) limma パッケージを用いた 3 群間比較 ( 複製なし ) TCC パッケージ中の ROKU 法を用いた特異的発現遺伝子検出 機能解析 ( 遺伝子セット解析 ) 基本的な考え方 前処理 MSigDB からの遺伝子セット情報 (GMT 形式ファイル ) 取得 ID 変換 (probe ID gene symbol) GSA パッケージを用いたパスウェイ解析 その他 分類 Jun 04, 2014 70
data_mas_en_symbol.txt を入力として BAT_fed vs. BAT_fas の遺伝子セット解析をやってみよう Jun 04, 2014 71
Efron and Tibshirani, Ann. Appl. Stat., 1: 107-129, 2007 入力 1:data_mas_EN_symbol.txt G1 群 G2 群 褐色脂肪 満腹対空腹 の発現変動に関連した KEGG Pathway 遺伝子セットを GSA 法で解析するための前処理が完了 入力 2:c2.cp.kegg.v4.0.symbols.gmt Jun 04, 2014 72
rcode_gsa.txt G1 群 ( 満腹 ) で発現が上がった遺伝子セット (FDR < 0.1) G2 群 ( 空腹 ) で発現が上がった遺伝子セット (FDR < 0.1) Jun 04, 2014 73
その他情報 Pathview はパスウェイマップまで色づけできるようです Review 系 遺伝子セット DB 系 (MSigDB 以外にも多数あり ) Jun 04, 2014 74
その他情報 Pathview はパスウェイマップまで色づけできるようです Jun 04, 2014 75
Contents( 第 4 回 ) デザイン行列の意味を理解 ( 教科書 p173-182) limma パッケージを用いた 2 群間比較のおさらい limma パッケージを用いた 3 群間比較 ( 複製あり ) 複製なし多群間比較 ( 教科書 p182-188) limma パッケージを用いた 3 群間比較 ( 複製なし ) TCC パッケージ中の ROKU 法を用いた特異的発現遺伝子検出 機能解析 ( 遺伝子セット解析 ) 基本的な考え方 前処理 MSigDB からの遺伝子セット情報 (GMT 形式ファイル ) 取得 ID 変換 (probe ID gene symbol) GSA パッケージを用いたパスウェイ解析 その他 分類 Jun 04, 2014 76
K-Nearest Neighbor (K-NN) 法 未知サンプル X からの距離がもっとも近い K 個のサンプルのうち 所属するクラスが最も多いクラスに分類 K=1 A2 A1 A4 A3 A5 X Nakai and Horton, Trends Biochem Sci., 24: 34-36, 1999 B2 B1 B3 B5 B4 X は B 群だと分類 ( コシヒカリ ) K=3 A2 A1 A4 A3 A5 X B2 B1 B3 B5 B4 X は A 群だと分類 ( ササニシキ ) 細胞内局在予測プログラム PSORT でも利用されている Jun 12, 2013 77
78 Jun 12, 2013 距離の定義 目的 :x と y の発現パターンの距離 D を定義したい 似ていれば D が 0 になるようにしたい 1) 1 ( ) ( 1 1 ) ( 1 1 ) )( ( 1 1 1 2 1 2 1 xy xy y x y x r r y n x n y x n n i i n i i n i i i 相関係数 2 1 1 y x 1 1 0 y x 0 1 1 y x -r D r -r D r -r D r との発現パターンがほぼ正反対との発現パターンがばらばらとの発現パターンが酷似 X B2 全遺伝子のデータではなく 二群間で発現の異なる遺伝子セット (~ 数百個程度 ) のみを用いて (Feature Selection) 未知サンプル X と既知サンプルの距離 D を計算する