機能ゲノム学（第6回）

Size: px

Start display at page:

Download "機能ゲノム学（第6回）"

ゆゆこふくだ
9 years ago
Views:

1 講義室後ろにある USB メモリ中の hoge フォルダをデスクトップにコピーしておいてください機能ゲノム学第 4 回東京大学大学院農学生命科学研究科アグリバイオインフォマティクス教育研究ユニット門田幸二 [email protected] 前回 (5/28) のhogeフォルダがデスクトップに残っているかもしれないのでご注意ください Jun 04,

2 講義予定第 1 回 (2014 年 5 月 14 日 ) 原理各種データベース生データ取得遺伝子発現行列作成 ( データ正規化 ) 教科書の 1.2 節 2.2 節周辺第 2 回 (2014 年 5 月 21 日 ) クラスタリング ( データ変換や距離の定義など ) 実験デザイン分布教科書の 3.2 節周辺第 3 回 (2014 年 5 月 28 日 ) 発現変動解析 ( 多重比較問題 ) 各種プロット (M-A plot や平均 - 分散プロット ) 教科書の 3.2 節と 4.2 節周辺第 4 回 (2014 年 6 月 4 日 ) 機能解析 (Gene Ontology 解析やパスウェイ解析 ) 分類など授業の目標概要細胞中で発現している全転写物 ( トランスクリプトーム ) の解析技術はマイクロアレイから次世代シーケンサ (RNA-seq) に移行しつつあります RNA-seqデータ解析の多くはマイクロアレイの知識を前提としていますまたニュートリゲノミクス ( 食品系 ) 分野ではマイクロアレイは現在でも主流派ですマイクロアレイデータを主な例として各種トランスクリプトーム解析手法について解説します教科書 Jun 04,

3 Contents( 第 4 回 ) デザイン行列の意味を理解 ( 教科書 p ) limma パッケージを用いた 2 群間比較のおさらい limma パッケージを用いた 3 群間比較 ( 複製あり ) 複製なし多群間比較 ( 教科書 p ) limma パッケージを用いた 3 群間比較 ( 複製なし ) TCC パッケージ中の ROKU 法を用いた特異的発現遺伝子検出機能解析 ( 遺伝子セット解析 ) 基本的な考え方前処理 MSigDB からの遺伝子セット情報 (GMT 形式ファイル ) 取得 ID 変換 (probe ID gene symbol) GSA パッケージを用いたパスウェイ解析その他分類 Jun 04,

4 遺伝子発現行列データは作成済み Affymetrix GeneChip Ge et al., Genomics, 86: , 2005 GSE2361 GPL96 (Affymetrix Human Genome U133A Array) 22,283 probesets ヒト 36 サンプル :Heart ( 心臓 ) Thymus ( 胸腺 ) Spleen ( 脾臓 ) Ovary ( 卵巣 ) Kidney ( 腎臓 ) Skeletal Muscle ( 骨格筋 ) Pancreas ( 膵臓 ) Prostate ( 前立腺 ) Nakai et al., Biosci Biotechnol Biochem., 72: , 2008 GSE7623 GPL1355 (Affymetrix Rat Genome Array) 31,099 probesets ラット 24 サンプル :Brown adipose tissue ( 褐色脂肪組織 ; BAT)8 サンプル White adipose tissue ( 白色脂肪組織 ; WAT)8 サンプル Liver ( 肝臓 ; LIV)8 サンプル BAT 8 サンプル : 通常 (BAT_fed) 4 サンプル対 24 時間絶食 (BAT_fas) 4 サンプル WAT 8 サンプル : 通常 (WAT_fed) 4 サンプル対 24 時間絶食 (WAT_fas) 4 サンプル LIV 8 サンプル : 通常 (LIV_fed) 4 サンプル対 24 時間絶食 (LIV_fas) 4 サンプル Kamei et al., PLoS One, 8: e65732, 2013 GSE30533 GPL1355 (Affymetrix Rat Genome Array) 31,099 probesets ラット 10 サンプル : 全て Liver ( 肝臓 ) サンプル iron-deficient diet (Iron_def) 5 サンプル対 control diet (Control) 5 サンプル hoge フォルダ中に 3 つの前処理法の実行結果ファイルがあります MAS5 (data_mas.txt) RMA (data_rma.txt) RMX (data_rob.txt) Jun 04,

5 GSE7623 (Nakai et al., 2008) の対数変換後のデータ data_mas.txt data_mas_en.txt data_mas_jp.txt Jun 04,

6 データ解析もいろいろクラスタリング発現変動遺伝子同定遺伝子発現行列機能解析 Gene Ontology(GO) パスウェイ解析分類 ( 診断 ) 遺伝子ネットワーク推定対数変換後のデータを用いて 2 群 3 群多群間比較 Jun 04,

教科書 p173-182 発現変動解析用 R パッケージの利用 Nakai et al., Biosci Biotechnol Biochem., 72: 139-148, 2008 GSE7623 GPL1355 (Affymetrix Rat Genome 230 2.

(BAT_fed) 4 サンプル対 24 時間絶食 (BAT_fas) 4 サンプル WAT 8 サンプル : 通常 (WAT_fed) 4 サンプル対 24 時間絶食 (WAT_fas) 4 サンプル LIV 8 サンプル : 通常 (LIV_fed) 4 サンプル対 24 時間絶食 (LIV_fas) 4 サンプル

7 教科書 p 発現変動解析用 R パッケージの利用 Nakai et al., Biosci Biotechnol Biochem., 72: , 2008 GSE7623 GPL1355 (Affymetrix Rat Genome Array) 31,099 probesets ラット 24 サンプル :Brown adipose tissue ( 褐色脂肪組織 ; BAT)8 サンプル White adipose tissue ( 白色脂肪組織 ; WAT)8 サンプル Liver ( 肝臓 ; LIV)8 サンプル BAT 8 サンプル : 通常 (BAT_fed) 4 サンプル対 24 時間絶食 (BAT_fas) 4 サンプル WAT 8 サンプル : 通常 (WAT_fed) 4 サンプル対 24 時間絶食 (WAT_fas) 4 サンプル LIV 8 サンプル : 通常 (LIV_fed) 4 サンプル対 24 時間絶食 (LIV_fas) 4 サンプル GSE7623 データを用い様々な 2 群間比較を行いクラスタリング結果と DEG 検出結果の関連をみてみよう rcode_clustering_png.txt の実行結果 1 肝臓と脂肪間で大きく二つのクラスターに分かれている 2 脂肪の中でも白色脂肪と褐色脂肪に分かれている 3 褐色脂肪は空腹 (24 時間絶食 ) と満腹 ( 通常 ) できれいに分かれている Jun 04,

8 R パッケージ limma で DEG 検出 G1 群 G2 群 Jun 04,

9 R パッケージ limma で DEG 検出 G1 群 G2 群 rcode_limma_4vs4.txt Jun 04,

10 rcode_limma_4vs4.txt 解析したいサブセットに正しくできていることがわかります Jun 04,

11 rcode_limma_4vs4.txt design オブジェクトが ( 実験 ) デザイン行列ですこの行列の 2 列目が G1 群と G2 群がどれに相当するかを表すクラスラベル情報であることもわかります Jun 04,

12 rcode_limma_4vs4.txt dim 関数で行数と列数を表示 nrow 関数で行数を表示 ncol 関数で列数を表示行列の要素抽出の基本は [ 行, 列 ] Jun 04,

13 rcode_limma_4vs4.txt limma 実行後の p-value 情報はベクトル形式ではなく行列形式になっていることに注意そしてその列数はデザイン行列の列数と同じ out$p.value 行列の 2 列目の情報が 2 群間比較結果に相当 Jun 04,

14 Contents( 第 4 回 ) デザイン行列の意味を理解 ( 教科書 p ) limma パッケージを用いた 2 群間比較のおさらい limma パッケージを用いた 3 群間比較 ( 複製あり ) 複製なし多群間比較 ( 教科書 p ) limma パッケージを用いた 3 群間比較 ( 複製なし ) TCC パッケージ中の ROKU 法を用いた特異的発現遺伝子検出機能解析 ( 遺伝子セット解析 ) 基本的な考え方前処理 MSigDB からの遺伝子セット情報 (GMT 形式ファイル ) 取得 ID 変換 (probe ID gene symbol) GSA パッケージを用いたパスウェイ解析その他分類 Jun 04,

15 教科書 p limma で DEG 検出 (3 群間比較 ; 複製あり ) G1 群 G2 群 G3 群 rcode_limma_4vs4vs4.txt Jun 04,

16 教科書解析したいサブセットに正しくできています Jun 04,

17 教科書 Jun 04,

18 教科書デザイン行列 design の列名を変更して取扱いやすくしている Jun 04,

19 教科書デザイン行列の列名を変更して取扱いやすくしておかないとこの部分での指定時にややこしいことになるここでは 3 種類の 2 群間比較を行うようにしている Jun 04,

20 教科書種類の 2 群間比較を行うようにしたコントラスト行列 contrast を入力としているので DEG 検出結果として 31,099 行 3 列からなる p- value 行列が得られることになる Jun 04,

21 教科書 apply 関数を用いて列ごと (MARGIN=2) に q-value を計算している Jun 04,

22 教科書 G1 群 G2 群 G3 群 G1vsG2 の DEG 数が他に比べて少ないので妥当 Jun 04,

23 Contents( 第 4 回 ) デザイン行列の意味を理解 ( 教科書 p ) limma パッケージを用いた 2 群間比較のおさらい limma パッケージを用いた 3 群間比較 ( 複製あり ) 複製なし多群間比較 ( 教科書 p ) limma パッケージを用いた 3 群間比較 ( 複製なし ) TCC パッケージ中の ROKU 法を用いた特異的発現遺伝子検出機能解析 ( 遺伝子セット解析 ) 基本的な考え方前処理 MSigDB からの遺伝子セット情報 (GMT 形式ファイル ) 取得 ID 変換 (probe ID gene symbol) GSA パッケージを用いたパスウェイ解析その他分類 Jun 04,

24 limma で DEG 検出 (3 群間比較 ; 複製なし ) G1 群 G2 群 G3 群 rcode_limma_1vs1vs1.txt (biological) replicates がないデータの場合 Jun 04,

25 rcode_limma_1vs1vs1.txt (biological) replicates がないデータの場合は通常モデル構築ができないのでエラーが出ます Jun 04,

26 バイオインフォマティクス要素技術相関係数やエントロピーなどの応用例を紹介二群間比較組織特異的遺伝子 Sequence logo 分類 ( 診断 ) クラスタリング同一ピーク同定エントロピーで組織特異的遺伝子をランキングするやり方を紹介します Jun 04,

27 IC Sequence logos: 計算手順 position iの情報量 IC ( N) H( x ) i log 2 2 i Sequence logos はあるポジションに特定の塩基が濃縮されている状態をうまく表すためにエントロピーを内部的に計算している p 1,4 = 90% p 5,3 = 50% p 5,1 = 50% Jun 04,

28 エントロピー ( 組織特異的遺伝子検出 ) 遺伝子 i のエントロピー Schug et al., Genome Biol., 6: R33, 2005 H(x ) i N p j ij log pij pij x 1 2 ( ), where ij / N j 1 x ij 組織特異的遺伝子は低いエントロピー N: 組織数 (jの数) = 8 Hの取りうる範囲 :0 H log 2 N 0 H 3 そうでないものは高い値 Jun 04,

29 入力と出力の関係を簡単に説明します Jun 04,

30 入力 :sample21.txt これがデータ変換後のエントロピーとその順位出力 :hoge1.txt Jun 04,

31 エントロピー ( 組織特異的遺伝子検出 ) ROKU 法はデータの変換を行うことでよりよいエントロピーでのランキング結果を得ている ( 変換前 : 変換後 : ) Jun 04,

32 GSE2361 データを用いて ROKU を実行 Affymetrix GeneChip Ge et al., Genomics, 86: , 2005 GSE2361 GPL96 (Affymetrix Human Genome U133A Array) 22,283 probesets ヒト 36 サンプル :Heart ( 心臓 ) Thymus ( 胸腺 ) Spleen ( 脾臓 ) Ovary ( 卵巣 ) Kidney ( 腎臓 ) Skeletal Muscle ( 骨格筋 ) Pancreas ( 膵臓 ) Prostate ( 前立腺 ) hoge GSE2361 フォルダ中の MAS5 データを入力として ROKU 法を実行してみよう Jun 04,

33 課題 (ROKU 実行結果の解釈 ) 1. MAS5 データ変換後のエントロピー値 (modh 列の値 ) の最小値と最大値を示せ 2. MAS5 データ変換後のエントロピー値 (modh 列の値 ) が 4.0 以下の probeset 数を示せ 3. ROKU 実行結果全体について簡単に考察せよ ( 例 : 特異的高発現と特異的低発現の組織数分布特異的組織数とエントロピー値との関係など ) Jun 04,

34 これが一般的な手元の入力ファイル読み込みです他の手段として R パッケージが提供しているデータの読み込み法についても説明します Jun 04,

35 実行例が意味不明?!... ではなくて hypodata_ts というサンプルデータが TCC パッケージ中で提供されているということです Jun 04,

36 上の data オブジェクトと下の hypodata_ts オブジェクトの中身は同じです Jun 04,

37 Contents( 第 4 回 ) デザイン行列の意味を理解 ( 教科書 p ) limma パッケージを用いた 2 群間比較のおさらい limma パッケージを用いた 3 群間比較 ( 複製あり ) 複製なし多群間比較 ( 教科書 p ) limma パッケージを用いた 3 群間比較 ( 複製なし ) TCC パッケージ中の ROKU 法を用いた特異的発現遺伝子検出機能解析 ( 遺伝子セット解析 ) 基本的な考え方前処理 MSigDB からの遺伝子セット情報 (GMT 形式ファイル ) 取得 ID 変換 (probe ID gene symbol) GSA パッケージを用いたパスウェイ解析その他分類 Jun 04,

38 機能解析 Gene Ontology (GO) 解析 ( 発現に差のある GO term を探索 ) 基本 3 カテゴリ (Cellular component (CC), Molecular Function (MF), Biological Process (BP)) のどれでも可能例 : 肝臓の空腹状態 vs. 満腹状態の GO(BP) 解析の結果脂肪酸 β 酸化関連 GO term (GO: ) が動いていることが分かったパスウェイ解析 ( 発現に差のあるパスウェイを探索 ) KEGG, BioCarta, Reactome pathway database のどれでも可能例 : 酸化的リン酸化パスウェイ関連遺伝子セットが糖尿病患者で動いていたモチーフ解析 ( 発現に差のあるモチーフを探索 ) 発現に差のある遺伝子セットを探したい同じ 3 -UTR microrna 結合モチーフをもつ遺伝子セット同じ転写因子結合領域 (TATA-box など ) をもつ遺伝子セット例 :TATA-box をもつ遺伝子セットが G1 群対 G2 群比較で動いていた Jun 04,

39 N=10,000 genes 機能解析 Khatri et al., PLoS Comput. Biol., 8(2): e , 2012 発現変動遺伝子セット解析手法 (2 群間比較用がほとんど ) N=10,000 個の遺伝子からなる 2 群間比較用データこの中に XXX 関連遺伝子が n 個含まれている例 : 酸化的リン酸化 (=XXX) 関連遺伝子が 7(=n) 個含まれている 7 個の酸化的リン酸化関連遺伝子の位置 G1 群 G2 群酸化的リン酸化関連遺伝子セットが変動しているかどうかを調べたい Jun 04,

40 N=10,000 genes 機能解析 ( 遺伝子セット解析 ) 遺伝子ごとの統計量を算出 ( 発現変動の度合いを数値化 ) 例 :t- 統計量 log 2 (G2/G1) 相関係数 SAM WAD G1 群 G2 群 G1 群 G2 群発現変動遺伝子 (G1 群 > G2 群 ) 変動してない遺伝子発現変動遺伝子 (G1 群 < G2 群 ) Jun 04,

41 N=10,000 genes 機能解析 ( 遺伝子セット解析 ) 発現変動順にソート後の酸化的リン酸化関連遺伝子セットのステレオタイプな分布変動している変動してない G1 群 G2 群 G1 群 G2 群どうやって偏りを評価するのか? Jun 04,

42 N=10,000 genes 遺伝子セット解析法 ( 第一世代 ) Over-Representation Analysis (ORA) 何らかの手段で決めた上位 X(=1500) 個のうち x 個が酸化的リン酸化関連遺伝子であった G1 群 G2 群 G1 群 G2 群酸化的リン酸化関連遺伝子セット (n =7) が変動していない場合 : x/n X/N (= 1500/10000) 酸化的リン酸化関連遺伝子セット (n =7) が変動している場合 : x/n >> X/N (= 15%) Jun 04,

43 N=10,000 genes 遺伝子セット解析法 ( 第一世代 ) Over-Representation Analysis (ORA) 何らかの手段で決めた上位 X(=1500) 個のうち x 個が酸化的リン酸化関連遺伝子であった G1 群 G2 群 G1 群 G2 群 6 XXX= 酸化的リン酸化関連遺伝子セット 2 2 分割表に基づく方法超幾何検定カイ二乗検定 Jun 04,

44 遺伝子セット解析法 ( 超幾何検定 ) rcode_ora_basic.txt N=10000 個の遺伝子発現データ中に XXX= 酸化的リン酸化関連遺伝子は n=7 個含まれていた上位 X=1500 個の発現変動遺伝子 (DEG) の中に x=6 個の酸化的リン酸化関連遺伝子が含まれていた帰無仮説 : 酸化的リン酸化関連遺伝子の割合は DEG と non-deg 間で差がない DEG として 1500 個抽出したとき酸化的リン酸化関連遺伝子が 6 個以上含まれる確率として算出 Jun 04,

45 遺伝子セット解析法 ( 超幾何検定 ) rcode_ora_basic.txt m=7 個の白いボールと n=9993 個の黒いボールが入った箱があります ( トータルで N=m+n=10,000 個 ) この中から k=1500 個ランダムに取り出したときに x=6 個以上白いボールが含まれる確率を計算しなさい?dhyper マニュアル中の一般的な説明に置き換えるとこんな感じです Jun 04,

46 遺伝子セット解析法 ( カイ二乗検定 ) rcode_ora_basic.txt DEG として 1500 個抽出したとき酸化的リン酸化関連遺伝子が 6 個以上含まれる確率として算出 Jun 04,

47 N=10,000 genes 遺伝子セット解析法 ( 第一世代 ) Over-Representation Analysis (ORA) 何らかの手段で決めた上位 X(=1500) 個のうち x 個が酸化的リン酸化関連遺伝子であった G1 群 G2 群 G1 群 G2 群 rcode_ora_basic.txt p < 0.05 を灰色で示した Jun 04,

48 遺伝子セット解析法 ( 第一世代 ) Over-Representation Analysis (ORA) GenMAPP (Dahlquist et al., Nature Genet., 31: 19-20, 2002) FatiGO (Al-Shahrour et al., Bioinformatics, 20: , 2004) GOstat (Beissbarth et al., Bioinformatics, 20: , 2004) GOFFA (Sun et al., BMC Bioinformatics, 7 Suppl 2: S23, 2006) agrigo (Du et al., Nucleic Acids Res., 38: W64-W70, 2010) Jun 04,

49 N=10,000 genes 第一世代 (ORA) の短所 1 全体的には動いているものの個々の発現変動の度合いが弱い場合に検出困難 2 上位 X 個のX 次第で結果が変わる 3 情報量が落ちている ( 発現変動の度合いカウント情報 ) 3 G1 群 G2 群 2 G1 群 G2 群 Jun 04,

50 Khatri et al., PLoS Comput. Biol., 8(2): e , 2012 遺伝子セット解析法 ( 第二世代 ) Functional Class Scoring (FCS) 1. 遺伝子ごとの統計量を算出 ( 発現変動の度合いを数値化 ) 例 :t- 統計量 log(b/a) 相関係数 SAM WAD 2. 目的の遺伝子セット XXX(= 酸化的リン酸化関連遺伝子 ) の偏りを何らかの方法で評価 t 検定 (XXX 中の遺伝子群の統計量 vs. それ以外の遺伝子群の統計量 ) Wilcoxon rank sum test (XXX 中の遺伝子群の発現変動の順位 vs. それ以外 ) XXX 中の n 個の遺伝子群の何らかの要約統計量 S XXX を計算しておき N 個の全遺伝子の中からランダムに n 個を抽出して同じ統計量を計算する ( 例えば 10 万回 ) 10 万回のうち S XXX 以上 ( 大きければ大きいほど発現変動していることを意味する場合 ; その逆のときは以下 ) だった回数 ( 例えば j 回 ) に基づいて p 値 (= j / 100,000) を算出 ( いわゆる gene set permutation というアプローチ ) 本来の G1 群 vs. G2 群のラベル情報を用いて得られた XXX 中の n 個の遺伝子群の何らかの要約統計量 S XXX を計算しておくランダムにラベル情報を入れ替えて同じ統計量を計算することを何回も繰り返して p 値を算出 ( いわゆる Phenotype permutation というアプローチ ) Jun 04,

51 N=10,000 genes 第一世代 (ORA) 第二世代 (FCS) 第一世代の欠点が改善 1 全体的には動いているものの個々の発現変動の度合いが弱い場合に検出困難 2 上位 X 個のX 次第で結果が変わる 3 情報量が落ちている ( 発現変動の度合いカウント情報 ) G1 群 G2 群 G1 群 G2 群 ORA: FCS: 1 Jun 04,

52 遺伝子セット解析法 ( 第二世代 ) Functional Class Scoring (FCS) GSEA (Subramanian et al., PNAS, 102: , 2005) PAGE (Kim and Volsky, BMC Bioinformatics, 6: 144, 2005) sigpathway (Tian et al., PNAS, 102: , 2005) GSA (Efron and Tibshirani, Ann. Appl. Stat., 1: , 2007) GeneTrail (Backes et al., Nucleic Acids Res., 35: W186-W192, 2007) SAM-GS (Dinu et al., BMC Bioinformatics, 8: 242, 2007) 最も有名なのは GSEA です Jun 04,

53 Khatri et al., PLoS Comput. Biol., 8(2): e , 2012 遺伝子セット解析法 ( 共通の問題 ) ( 知識ベースの解析法なので ) 解析対象がアノテーションの情報の豊富な生物種に限定それ以外の生物種はまずは地道にアノテーション情報を増やしていくことが先決 ( ではないだろうか ) アノテーション情報の信頼度が高いとはいえないなんらかの GO term がついていたとしてもその大部分の evidence code が自動でつけられたもの (IEA, inferrred from electronic annotations) である遺伝子セット間の独立性の問題数百個程度の遺伝子セットの中から比較するサンプル間で動いている遺伝子セットはどれか? という解析を遺伝子セット間の独立性を仮定して調べるがそもそも独立ではない (GO term 間の親子関係などから明らか ) いくつくらいの遺伝子セットが動いているのか? という問いに答えるすべがない評価に用いられるよく研究されているデータセットは答えが完全に分かっているものではない (the actual biology is never fully known!) 感度が高いと謳っているだけの方法は ( 全部の遺伝子セットが動いている感度 100%) Jun 04,

54 参考 GSEA 法の使い方最も有名な GSEA ソフトウェアの使い方は統合 TV で独学 Jun 04,

55 Contents( 第 4 回 ) デザイン行列の意味を理解 ( 教科書 p ) limma パッケージを用いた 2 群間比較のおさらい limma パッケージを用いた 3 群間比較 ( 複製あり ) 複製なし多群間比較 ( 教科書 p ) limma パッケージを用いた 3 群間比較 ( 複製なし ) TCC パッケージ中の ROKU 法を用いた特異的発現遺伝子検出機能解析 ( 遺伝子セット解析 ) 基本的な考え方前処理 MSigDB からの遺伝子セット情報 (GMT 形式ファイル ) 取得 ID 変換 (probe ID gene symbol) GSA パッケージを用いたパスウェイ解析その他分類 Jun 04,

56 発現変動遺伝子セット解析おさらい Gene Ontology (GO) 解析 ( 発現に差のある GO term を探索 ) 基本 3 カテゴリ (Cellular component (CC), Molecular Function (MF), Biological Process (BP)) のどれでも可能例 : 肝臓の空腹状態 vs. 満腹状態の GO(BP) 解析の結果脂肪酸 β 酸化関連 GO term (GO: ) が動いていることが分かったパスウェイ解析 ( 発現に差のあるパスウェイを探索 ) KEGG, BioCarta, Reactome pathway database のどれでも可能例 : 酸化的リン酸化パスウェイ関連遺伝子セットが糖尿病患者で動いていたモチーフ解析 ( 発現に差のあるモチーフを探索 ) 同じ 3 -UTR microrna 結合モチーフをもつ遺伝子セット同じ転写因子結合領域 (TATA-box など ) をもつ遺伝子セット例 :TATA-box をもつ遺伝子セットが G1 群対 G2 群比較で動いていたどの遺伝子セットにどの遺伝子が所属しているかというgmt 形式ファイルの取得が第一歩 Subramanian et al., PNAS, 102: , 2005 Jun 04,

57 Molecular Signature Database (MSigDB, ver. 4.0) c1: positional gene sets (326 gene sets) ヒト染色体の位置ごとの遺伝子セットリストファイル (326 gene sets) c2: curated gene sets (4,722 gene sets) CGP: chemical and genetic perturbations (3,402 gene sets) CP: canonical pathways (1,320 gene sets) CP:BIOCARTA: BioCarta gene sets (217 gene sets) CP:KEGG: KEGG gene sets (186 gene sets) CP:REACTOME: Reactome gene sets (674 gene sets) c3: motif gene sets (836 gene sets) MIR: microrna targets (221 gene sets) TFT: transcription factor targets (615 gene sets) c4: computational gene sets (858 gene sets) CGM: cancer gene neighborhoods (427 gene sets) CM: cancer modules (431 gene sets) c5: gene ontology (GO) gene sets (1,454 gene sets) BP: biological process (825 gene sets) CC: cellular component (233 gene sets) MF: molecular function (396 gene sets) c6: oncogenic signatures gene sets (189 gene sets) c7: immunologic signatures gene sets (1,910 gene sets) Subramanian et al., PNAS, 102: , 2005 発現変動と関連する KEGG パスウェイを調べたいとき様々な遺伝子セット解析を行うための gmt 形式ファイルをダウンロード可能です発現変動と関連する BP 中の GO terms を調べたいとき Jun 04,

58 遺伝子セット解析 ( パスウェイ解析 ) を行うための gmt 形式ファイルのダウンロード方法はこちら Jun 04,

59 KEGG Pathway 解析を行いたい場合はここから gmt ファイルを取得 Jun 04,

60 gmt 形式ファイルの中身 1 列目 : 遺伝子セット名 2 列目 :URL 3 列目以降 :gene ID or symbol Jun 04,

61 GSE7623 (Nakai et al., 2008) の対数変換後のデータを入力として BAT_fed vs. BAT_fas の遺伝子セット解析をやってみよう G1 群 G2 群 Jun 04,

62 解析前に対応付けを行う必要があるプローブ ID と gene symbol の対応付けを行い同じ gene symbol に複数のプローブ ID が割り当てられる場合は平均値を採用するなどして non-redundant にする ( 折り畳む ; つぶす ;collapse) 作業が必要 Jun 04,

63 教科書 p70-71 遺伝子発現データは公共 DB の GEO から GSE7623 という ID で取得したものだったここからプローブ ID と gene symbol の対応付けを行うためのアノテーションファイルを取得可能 Jun 04,

64 教科書 p70-71 プローブ ID と gene symbol からなるアノテーションファイルを取得できています hoge3_gpl1355.txt Jun 04,

65 エクセルで開くときには注意が必要! 参考 1 行 1 列目のところが ID から始まる文字列の場合にこの 1 ような現象が起こるようですが基本無視で構いません 2 エクセルを開いたあとドラッグ & ドロップで開いてはだめ! 編集して保存したい場合にはファイル - 開くでファイルを指定して開くべし! そのまま開くと例えば March2 という gene symbol が日付と認識されてしまうためこれを防ぐ必要があります! Jun 04,

66 対応付けの基礎情報はあるが... Gene Symbol 列でソートしてみると hoge3_gpl1355.txt data_mas_en.txt Jun 04,

67 対応付けの基礎情報はあるが... Gene Symbol 列でソート同じ gene symbol を持つプローブ ID が複数存在することがわかる Jun 04,

68 同じ gene symbol をもつものをまとめる入力 1:hoge3_GPL1355.txt 入力 2:data_mas_EN.txt 出力 :data_mas_en_symbol.txt マイクロアレイごとに搭載されている遺伝子の種類や重複度が異なるためこの作業は重要 Jun 04,

69 rcode_id_conversion.txt プログラムの組み方で速度が結構違います ( データフレーム形式より行列形式のほうが早いらしい ) data_mas_en_symbol.txt はこのコードのコピペで作成しています Jun 04,

70 Contents( 第 4 回 ) デザイン行列の意味を理解 ( 教科書 p ) limma パッケージを用いた 2 群間比較のおさらい limma パッケージを用いた 3 群間比較 ( 複製あり ) 複製なし多群間比較 ( 教科書 p ) limma パッケージを用いた 3 群間比較 ( 複製なし ) TCC パッケージ中の ROKU 法を用いた特異的発現遺伝子検出機能解析 ( 遺伝子セット解析 ) 基本的な考え方前処理 MSigDB からの遺伝子セット情報 (GMT 形式ファイル ) 取得 ID 変換 (probe ID gene symbol) GSA パッケージを用いたパスウェイ解析その他分類 Jun 04,

71 data_mas_en_symbol.txt を入力として BAT_fed vs. BAT_fas の遺伝子セット解析をやってみよう Jun 04,

Efron and Tibshirani, Ann. Appl. Stat., 1: 107-129, 2007 入力 1:data_mas_EN_symbol.

72 Efron and Tibshirani, Ann. Appl. Stat., 1: , 2007 入力 1:data_mas_EN_symbol.txt G1 群 G2 群褐色脂肪満腹対空腹の発現変動に関連した KEGG Pathway 遺伝子セットを GSA 法で解析するための前処理が完了入力 2:c2.cp.kegg.v4.0.symbols.gmt Jun 04,

73 rcode_gsa.txt G1 群 ( 満腹 ) で発現が上がった遺伝子セット (FDR < 0.1) G2 群 ( 空腹 ) で発現が上がった遺伝子セット (FDR < 0.1) Jun 04,

74 その他情報 Pathview はパスウェイマップまで色づけできるようです Review 系遺伝子セット DB 系 (MSigDB 以外にも多数あり ) Jun 04,

75 その他情報 Pathview はパスウェイマップまで色づけできるようです Jun 04,

76 Contents( 第 4 回 ) デザイン行列の意味を理解 ( 教科書 p ) limma パッケージを用いた 2 群間比較のおさらい limma パッケージを用いた 3 群間比較 ( 複製あり ) 複製なし多群間比較 ( 教科書 p ) limma パッケージを用いた 3 群間比較 ( 複製なし ) TCC パッケージ中の ROKU 法を用いた特異的発現遺伝子検出機能解析 ( 遺伝子セット解析 ) 基本的な考え方前処理 MSigDB からの遺伝子セット情報 (GMT 形式ファイル ) 取得 ID 変換 (probe ID gene symbol) GSA パッケージを用いたパスウェイ解析その他分類 Jun 04,

77 K-Nearest Neighbor (K-NN) 法未知サンプル X からの距離がもっとも近い K 個のサンプルのうち所属するクラスが最も多いクラスに分類 K=1 A2 A1 A4 A3 A5 X Nakai and Horton, Trends Biochem Sci., 24: 34-36, 1999 B2 B1 B3 B5 B4 X は B 群だと分類 ( コシヒカリ ) K=3 A2 A1 A4 A3 A5 X B2 B1 B3 B5 B4 X は A 群だと分類 ( ササニシキ ) 細胞内局在予測プログラム PSORT でも利用されている Jun 12,

78 78 Jun 12, 2013 距離の定義目的 :x と y の発現パターンの距離 D を定義したい似ていれば D が 0 になるようにしたい 1) 1 ( ) ( 1 1 ) ( 1 1 ) )( ( xy xy y x y x r r y n x n y x n n i i n i i n i i i 相関係数 y x y x y x -r D r -r D r -r D r との発現パターンがほぼ正反対との発現パターンがばらばらとの発現パターンが酷似 X B2 全遺伝子のデータではなく二群間で発現の異なる遺伝子セット (~ 数百個程度 ) のみを用いて (Feature Selection) 未知サンプル X と既知サンプルの距離 D を計算する

機能ゲノム学

USB メモリ中の hoge フォルダをデスクトップにコピーしておいてください機能ゲノム学第 4 回前回 (5/26) の hoge フォルダがデスクトップに残っているかもしれないのでご注意ください大学院農学生命科学研究科アグリバイオインフォマティクス教育研究プログラム門田幸二 ( かどたこうじ ) [email protected] http://www.iu.a.u-tokyo.ac.jp/~kadota/