機能ゲノム学(第6回)

Similar documents
機能ゲノム学(第6回)

Microsoft Word - 1 color Normalization Document _Agilent version_ .doc

NGSデータ解析入門Webセミナー

機能ゲノム学

機能ゲノム学(第6回)

機能ゲノム学(第6回)

Qlucore_seminar_slide_180604

機能ゲノム学(第6回)

バイオインフォマティクスⅠ

PrimerArray® Analysis Tool Ver.2.2

機能ゲノム学(第6回)

ゲノム情報解析基礎 ~ Rで塩基配列解析 ~

Kumamoto University Center for Multimedia and Information Technologies Lab. 熊本大学アプリケーション実験 ~ 実環境における無線 LAN 受信電波強度を用いた位置推定手法の検討 ~ InKIAI 宮崎県美郷

ビジネス統計 統計基礎とエクセル分析 正誤表

ChIP-seq

統計的データ解析

機能ゲノム学(第6回)

計算機生命科学の基礎II_

1. はじめに 1. はじめに 1-1. KaPPA-Average とは KaPPA-Average は KaPPA-View( でマイクロアレイデータを解析する際に便利なデータ変換ソフトウェアです 一般のマイクロアレイでは 一つのプロー

配付資料 自習用テキスト 解析サンプル配布ページ 2

Medical3

データ科学2.pptx

基礎統計

プロジェクト概要 ー ヒト全遺伝子 データベース(H-InvDB)の概要と進展

JMP による 2 群間の比較 SAS Institute Japan 株式会社 JMP ジャパン事業部 2008 年 3 月 JMP で t 検定や Wilcoxon 検定はどのメニューで実行できるのか または検定を行う際の前提条件の評価 ( 正規性 等分散性 ) はどのメニューで実行できるのかと

Microsoft PowerPoint - 資料04 重回帰分析.ppt


Microsoft PowerPoint - e-stat(OLS).pptx

ゲノム情報解析基礎 ~ Rで塩基配列解析 ~

PowerPoint プレゼンテーション

解析センターを知っていただく キャンペーン

KEGG_PATHWAY.ppt

GWB_RNA-Seq_

< F55542D303996E291E894AD8CA9365F834E E95AA90CD836D815B>

Microsoft PowerPoint ppt

講義「○○○○」

Microsoft PowerPoint - 統計科学研究所_R_重回帰分析_変数選択_2.ppt

Vol.7

RSS Higher Certificate in Statistics, Specimen A Module 3: Basic Statistical Methods Solutions Question 1 (i) 帰無仮説 : 200C と 250C において鉄鋼の破壊応力の母平均には違いはな

農学生命情報科学特論I

多変量解析 ~ 重回帰分析 ~ 2006 年 4 月 21 日 ( 金 ) 南慶典

EBNと疫学

Microsoft PowerPoint - statistics pptx

<4D F736F F D208EC08CB18C7689E68A E F AA957A82C682948C9F92E82E646F63>

<4D F736F F D204B208C5182CC94E497A682CC8DB782CC8C9F92E BD8F6494E48A722E646F6378>

<4D F736F F F696E74202D E838A B83805F D B838093FC96E55F E707074>

(3) 検定統計量の有意確率にもとづく仮説の採否データから有意確率 (significant probability, p 値 ) を求め 有意水準と照合する 有意確率とは データの分析によって得られた統計値が偶然おこる確率のこと あらかじめ設定した有意確率より低い場合は 帰無仮説を棄却して対立仮説

Agilent 1色法 2条件比較 繰り返し実験なし

スライド 1

4.統計解析.indd

機能ゲノム学(第6回)

角度統計配布_final.pptx

0 部分的最小二乗回帰 Partial Least Squares Regression PLS 明治大学理 学部応用化学科 データ化学 学研究室 弘昌

経済統計分析1 イントロダクション

情報工学概論

スライド 1

Microsoft Word - å“Ÿåłžå¸°173.docx

Medical3

特論I

青焼 1章[15-52].indd

CBRC CBRC DNA

生命情報学

PowerPoint プレゼンテーション

Microsoft Word - Stattext12.doc

1.民営化

回帰分析の用途・実験計画法の意義・グラフィカルモデリングの活用 | 永田 靖教授(早稲田大学)

PowerPoint Presentation

スライド 1

Excelによる統計分析検定_知識編_小塚明_5_9章.indd

Microsoft Word - apstattext05.docx

KEGG.ppt

xy n n n- n n n n n xn n n nn n O n n n n n n n n

機能ゲノム学(第6回)

A Constructive Approach to Gene Expression Dynamics

Dependent Variable: LOG(GDP00/(E*HOUR)) Date: 02/27/06 Time: 16:39 Sample (adjusted): 1994Q1 2005Q3 Included observations: 47 after adjustments C -1.5

二項ソフトクラスタリング分析例 この資料では Visual Mining Studio のアイコン Dyadic Soft Clustering を使って 二項ソフトクラスタリング 分析をする方法を説明します 二項ソフトクラスタリングは一般的には PLSI, PLSA などの名前で知られています 株

Microsoft Word - apstattext04.docx

NGS速習コース

nagasaki_GMT2015_key09

日心TWS

untitled

Database Center for Life Science Online Service Vol.48 No.16 (2003)

Microsoft PowerPoint - SDF2007_nakanishi_2.ppt[読み取り専用]

Microsoft PowerPoint - H17-5時限(パターン認識).ppt

カイ二乗フィット検定、パラメータの誤差

統計学 - 社会統計の基礎 - 正規分布 標準正規分布累積分布関数の逆関数 t 分布正規分布に従うサンプルの平均の信頼区間 担当 : 岸 康人 資料ページ :

PowerPoint プレゼンテーション

第7章

自動車感性評価学 1. 二項検定 内容 2 3. 質的データの解析方法 1 ( 名義尺度 ) 2.χ 2 検定 タイプ 1. 二項検定 官能検査における分類データの解析法 識別できるかを調べる 嗜好に差があるかを調べる 2 点比較法 2 点識別法 2 点嗜好法 3 点比較法 3 点識別法 3 点嗜好

Untitled

スライド 1

Probit , Mixed logit

要旨 1. 始めに PCA 2. 不偏分散, 分散, 共分散 N N 49

DEIM Forum 2015 F8-4 Twitter Twitter 1. SNS

Microsoft Word - lec_student-chp3_1-representative

PrimerArray Analysis Tool Ver.2.1

<4D F736F F D2090B695A8939D8C768A E F AA957A82C682948C9F92E8>

Microsoft PowerPoint - pr_12_template-bs.pptx

0 21 カラー反射率 slope aspect 図 2.9: 復元結果例 2.4 画像生成技術としての計算フォトグラフィ 3 次元情報を復元することにより, 画像生成 ( レンダリング ) に応用することが可能である. 近年, コンピュータにより, カメラで直接得られない画像を生成する技術分野が生

Transcription:

マイクロアレイデータ解 析結果の正しい?! 解釈 について 東京大学 大学院農学生命科学研究科アグリバイオインフォマティクス教育研究ユニット門田幸二 ( かどたこうじ ) http://www.iu.a.u-tokyo.ac.jp/~kadota/ kadota@iu.a.u-tokyo.ac.jp 1

自己紹介 2002 年 3 月 東京大学 大学院農学生命科学研究科博士課程修了 学位論文 : cdna マイクロアレイを用いた遺伝子発現解析手法の開発 ( 指導教官 : 清水謙多郎教授 ) 2002/4/1~ 産総研 生命情報科学研究センター産総研特別研究員 2003/11/1~ 放医研 先端遺伝子発現研究センター研究員 2005/2/16~ 東京大学 大学院農学生命科学研究科特任助手 2007/4/1~ 現在 東京大学 大学院農学生命科学研究科特任助教 アグリバイオインフォマティクスプログラム 2

講義内容 アレイデータの正規化 ( 前処理 ) 生データ 遺伝子発現行列 クラスタリング 発現変動遺伝子 (DEG) の同定 二群間比較 評価基準 評価法 および (Affymetrix チップの ) ガイドライン 多サンプル間比較 組織特異的遺伝子 機能解析 (GSEA 解析 ) Gene Ontology 解析 パスウェイ解析 3

4

アレイデータの正規化 ( 前処理 ) 実験によって得られた生のシグナル強度をそのまま利用することは普通はやりません 二色法 : 蛍光色素 (Cy3 and Cy5) の取り込み効率補正 一色法 : シグナルゲイン?! の補正 こうであるべき! という仮定を置いて それを満たすような正規化を行った後のデータを利用する 5

プローブセット Affymetrix 製チップ解析戦略 遺伝子 i の発現量 S i を n i (n i =11~20) 種類のプローブペアのシグナル強度をもとに計算 5 3 PM PM PM PM PM PM PM PM PM PM PM i,1 i,2 i,3 i,4 i,5 i,6 i,7 i,8 i,9 i,10 i,11, MM, MM, MM, MM, MM, MM, MM, MM, MM i,1, MM, MM i,2 i,3 i,4 i,5 i,6 i,7 i,8 i,9 i,10 i,11 5 CAGAATCATTAGACTATCCGATAAGGAGTACAATCTGA 3 CATTAGACTATCCGATAAGGAGTAC Perfect match (PM i,j ) プローブペア CATTAGACTATCGGATAAGGAGTAC Mismatch (MM i,j ) 25 mer 遺伝子 iの発現量 S i ( summary score or expression index ) 発現量 S i を算出するための様々な前処理法が存在 6

Affymetrix 製チップ解析戦略 ( 様々な前処理法 ) MBEI (Li and Wong, PNAS, 98, 31-36, 2001) MAS5 (Hubbell et al., Bioinformatics, 18, 1585-92, 2002) RMA (Irizarry et al., Biostatistics, 4, 249-64, 2003) GCRMA (Wu et al., Tech. Rep., John Hopkins Univ., 2003) PDNN (Zhang et al., Nat. Biotechnol., 21, 818-21, 2003) PLIER (Affymetrix, 2004) SuperNorm (Konishi, T., BMC Bioinformatics, 5, 5, 2004) multi-mgmos (Liu et al., Bioinformatics, 21, 3637-3644, 2005) GLA (Zhou and Rocke, Bioinformatics, 21, 3983-3989, 2005) FARMS (Hochreiter et al., Bioinformatics, 22, 943-949, 2006) DFW (Chen et al., Bioinformatics, 23, 321-327, 2007) Hook (Binder et al., AMB, 3, 11, 2008) 生データ ( PM i, j, MM i, ) j in.cel files バックグラウンド補正 (within-array) 正規化 (crossarray) PM 値の補正 Summarization 発現量 S i 7

グローバル正規化 仮定 : 各サンプルから測定された mrna の全体量は一定 チップ上の遺伝子数が尐ない場合は非現実的だが 数千 ~ 数万種類の遺伝子が搭載されているので妥当 ( だろう ) nomalization 2008/7/16 8

Quantile 正規化 仮定 : 順位が同じならシグナル強度も同じ 正規化前 正規化後 列ごとにソート 行ごとの平均を算出 対応する行の要素の元の位置に平均値を代入 データセット中のサンプル数が変わると結果が変わる 9

正規化 遺伝子発現行列 二群間比較様々な組織 ( 条件 ) 時系列データ A A B B x 1, 1 x 1, 2 x 1, 2 x 1, 2 A A B B x 2, 1 x 2, 2 x 2, 2 x 2, 2 x 1,1 x 2,1 x 1,2 x 2,2 x 1,3 x 2,3 x 1,4 x 2,4 x 1,1 x 2,1 x 1,2 x 2,2 x 1,3 x 2,3 x 1,4 x 2,4 A xi, 1 A B B xi, 2 xi, 2 xi, 2 x i,1 x i,2 x i,3 x i,4 x i,1 x i,2 x i,3 x i,4 A A B B xn, 1 xn, 2 xn, 2 xn, 2 x n,1 x n,2 x n,3 x n,4 x n,1 x n,2 x n,3 x n,4 様々な解析が可能な状態 10

手順 1: 前処理法の適用 Affymetrix GeneChip の場合 様々な前処理法を適用し 複数の遺伝子発現行列データを得る 例 )MAS, RMA, qfarms or DFW その他のメーカーの場合 メーカー推奨のやり方に従って 遺伝子発現行列データ ( 基本的に一つのみ ) を得る 理由 : どの前処理法を使うかでサンプル間クラスタリング ( 後述 ) の結果が大きく異なりうるから 11

クラスタリング サンプルの属性情報 ( 癌 or 正常など ) を使わずに 発現情報のみを用いて発現パターンの類似した遺伝子 ( またはサンプル ) をクラスター ( 群 ) にしていく手法 (Unsupervised learning 二群間比較多サンプル時系列解析 A A B B x 1, 1 x 1, 2 x 1, 2 x 1, 2 A A B B x 2, 1 x 2, 2 x 2, 2 x 2, 2 x 1,1 x 2,1 x 1,2 x 2,2 x 1,3 x 2,3 x 1,4 x 2,4 x 1,1 x 2,1 x 1,2 x 2,2 x 1,3 x 2,3 x 1,4 x 2,4 A xi, 1 A B B xi, 2 xi, 2 xi, 2 x i,1 x i,2 x i,3 x i,4 x i,1 x i,2 x i,3 x i,4 A A B B 2009/08/19 xn, 1 xn, 基礎生物学研究所 2 xn, 2 xn, 2 x n,1 x n,2 x n,3 x n,4 x n,1 x n,2 x n,3 x n,4 12 12

Bittner et al., Nature, 2000 サンプル間クラスタリングの例 メラノーマサンプル 悪性度の高い癌のサブタイプを発見 13

クラスタリング 階層的クラスタリング 発現パターンの類似した遺伝子を集めて系統樹を作成 非階層的クラスタリング K-means クラスタリング K 個のクラスターに分割 (K の数は主観的に決定 ) する と予め指定し 各クラスター内の遺伝子 ( サンプル ) 間の距離の総和が最小になるような K 個のクラスターを作成 自己組織化マップ (SOM) 主成分分析 (PCA) 14

距離 ( 類似度 ) の定義 遺伝子 (or サンプル )x と y の発現パターンの距離 D 1) 1 ( ) ( 1 1 ) ( 1 1 ) )( ( 1 1 1 2 1 2 1 xy xy y x y x r y n x n y x n r n i i n i i n i i i 相関係数 1 0 1 r r r y x y x y x との発現パターンがほぼ正反対との発現パターンがばらばらとの発現パターンが酷似 2) (0 1 D r 距離 D 2 1) ( 1 1 1 0 1 0 0 1 1 1 D r D r D r 15

階層的クラスタリング 1. 遺伝子間距離を計算 例 :4 遺伝子の場合 距離 D 1 r (0 D 2) 相関係数 r 相関係数 r 相関係数 r... 1,2 1,3 1,4 0.98 0.01 0.78 距離 D 1,2 距離 D 距離 D 1 r 距離 D 2 1,3 1,4 (0 D 1) 1 0.98 0.01 2 1 ( 0.01) 0.50 2 1 ( 0.78) 0.89 2 16

階層的クラスタリング 2. 距離行列を作成 距離 D 距離 D 距離 D... 1,2 1,3 1,4 1 0.98 0.01 2 1 ( 0.01) 0.50 2 1 ( 0.78) 0.89 2 距離行列 1 2 3 4 イメージ 17

階層的クラスタリング 3. 樹形図を作成 距離行列 1 2 3 4 距離 D 1.0 0.5 0.0 D 3,4 二つのクラスター間の距離?! 0.32 18

階層的クラスタリング 3. 樹形図を作成 平均連結法の場合 1 2 3 4 1 2 3 4 D 1.0 0.5 0.0 ( D D D ) / 4 4 1, 3 1, 4 2, 3 D2, (0.50 0.89 0.47 0.84) / 4 0.68 単連結法の場合 min( D1, 3, D1, 4, D2, 3, D2, 4) 0.47 完全連結法の場合 max( D1, 3, D1, 4, D2, 3, D2, 4) 0.89 19

手順 2: サンプル間クラスタリング Affymetrix GeneChip の場合 様々な前処理法を適用して得られた遺伝子発現行列データごとに行う 結果を眺めて 反復実験結果が同一クラスターに含まれる前処理法のデータを採用 RMA がよかった場合 : それだけを採用でよし それ以外の場合で残りの二つの前処理法の結果のトポロジーが同じ場合 : 二つのデータを同時並行で解析 ( 論文では一つのみ ) 三つの結果がいずれも異なっていた場合 : ご愁傷さまです... その他のメーカーの場合 メーカー推奨のやり方に従って 遺伝子発現行列データ ( 基本的に一つのみ ) を得る 20

Nakai et al., BBB, 2008 クラスタリング結果の解釈例 肝臓 (LIV) 白色脂肪 (WAT) 褐色脂肪 (BAT) 通常 (fed) vs. 24 時間絶食 (fasted) MAS-preprocessed data ( メーカー推奨?!) RMA-preprocessed data RMA がいいと判断 ( この場合 ) 21

Nakai et al., BBB, 2008 階層的クラスタリング例 肝臓 (LIV) 白色脂肪 (WAT) 褐色脂肪 (BAT) 最適なクラスター数 K は? K=2 K=3 K=5 K=2 222222221111111111111111 K=3 333333332222222211111111 K=4 K=5 4 4 4 4 4 4 4 4 3 3 3 3 3 3 3 3 2 2 2 2 1 1 1 1 5 5 5 5 5 5 5 5 4 4 4 4 3 3 3 3 2 2 2 2 1 1 1 1 22

Ben-Hur et al., PSB, 2002 最適なクラスター数を見積もる方法 様々な K について ( 例えば K=2) 全サンプル (n) のクラスタリング結果を K 個に分割した結果とサブサンプル ( 例えば n*0.7) のクラスタリング結果を K 個に分割した結果の類似度を計算 全サンプルの結果 1 回目 100 回の結果全て LIV とそれ以外を分割できた場合 2 2 2 2 2 2 2 2 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 2 回目 サブサンプリングデータでクラスタリング を例えば 100 回繰り返し 100 回目 23

Ben-Hur et al., PSB, 2002 手順 2 : クラスター数をチェック K の値をいくつか試して ( 例では 2~9) 最適な K の値を同定 この場合は K=2, 3 が最適なクラスター数 言いたいことと同じだったらラッキー 24

二群間比較 例 1) A 群 : 癌サンプル B 群 : 正常サンプル 癌と正常で発現の異なる遺伝子 A A B B x 1, 1 x 1, 2 x 1, 2 x 1, 2 A A B B x 2, 1 x 2, 2 x 2, 2 x 2, 2 A A B B xi, 1 xi, 2 xi, 2 xi, 2 A A B B xn, 1 xn, 2 xn, 2 xn, 2 25

Golub et al., Science, 1999 二群間比較解析 例 ) 急性白血病 A 群 : リンパ性 (27 サンプル ) B 群 : 骨髄性 (11サンプル) 白血病のタイプで発現の異なる遺伝子群を同定 2009/10/21 26

二群間比較 ( 解析手法 ) 倍率変化 (Fold change; FC) に基づくランキング法 2-fold, 3-fold (FC) The limit fold change model (Mutch et al., BMC Bioinformatics, 2002) Rank product (RP; Breitling et al., FEBS Lett., 2004) WAD (Kadota et al., Algorithm. Mol. Biol., 2008) t- 統計量に基づくランキング法 a signal-to-noise statistic (Golub et al., Science, 1999) Student s (or Welch) t-test SAM (samt; Tusher et al., PNAS, 2001) Samroc (Broberg, P., Genome Biol., 2003) a moderated t statistic (Smyth, GK., Stat. Appl. Genet. Mol. Biol., 2004) Intensity-based moderated t statistic (IBMT; Sartor et al., BMC Bioinformatics, 2006) Shrinkage t statistic (Opgen-Rhein and Strimmer, Stat. Appl. Genet. Mol. Biol., 2007) その他 Probability of Positive LogRatio (PPLR; Liu et al., Bioinformatics, 2006) FCPC (Qin et al., Bioinformatics, 2008) 個々の遺伝子の発現変動の度合いを調べる研究 27

参考資料 二群間比較 (t- 統計量に基づくランキング法 ) 二群間の平均の差が大きく 群内のばらつきが小さい 遺伝子 iを抽出 a signal-to-noise(s2n) 統計量 R( i) i A U A i B U 二群間の平均の差 A 群内のばらつき B 群内のばらつき 対数変換 (log2 変換 ) 後のデータ i B i 標本平均 標本分散 不偏分散 A j1 6.42 4.00 2.41 R(1) 5.64 0.08 0.35 0.43 6.34 3.38 2.96 R(2) 1.35 0.54 1.65 2.20 4.51 5.61 1.11 R(3) 1.26 0.81 0.07 0.88 S U A 2 i A i 2 i A 1 n A A n A j1 1 n 1 A n i j 1 na i ( Aj n A 6, n 5, n n 統計量の絶対値が大きい 候補発現変動遺伝子 n B A A j1 n A ( A B i j i ) 2 i A ) 2 28

参考資料 二群間比較 ( 倍率変化に基づくランキング法 ) log 比 :( 対数変換後のデータなので )t 検定系の数式の分子のみに相当 R i i ( i) log( FC) A B 二群間の平均の差 対数変換 (log2 変換 ) 後のデータ Average Difference(AD) 統計量 と私は呼んでいる R(1) 6.42 4.00 2.41 R(2) 6.34 3.38 2.96 R(3) 4.51 5.61 1.11 統計量の絶対値が大きい 候補発現変動遺伝子 29

Kadota K, Nakai Y, Shimizu K, AMB., 3:8, 2008 二群間比較 ( 倍率変化に基づくランキング法 ) WAD:log 比を基本としつつ 全体的にシグナル強度の高い遺伝子が上位にくるように重みをかけた統計量 unlogged data log 2 -transformed data Average Difference (AD) 統計量 AD 平均シグナル強度 i Bi A x / 2 i i Bi Ai xを (0~1) の範囲に規格化 xi min( x) wi max( x) min( x) WAD 統計量 WAD i 参考資料 AD w i i AD AD i gene6 B i A i (6 7) / 2 (1 2 4.83 より 2) / 3 x x i gene6 B A i i (6 7) / 2 (1 2 2) / 3 / 2 4.08 / 2より WAD の一位 :gene4, AD の一位 :gene6 w w i xi min( x) より max( x) min( x) 4.08 3.00 10.00 3.00 gene6 0.15 30

二群間比較 ( 倍率変化に基づくランキング法 ) Rank products (RP):A 群 vs. B 群の総当たりの比を計算し その順位の相乗平均を統計量とする 入力データ 総当りの発現比を計算 Breitling et al., FEBS Lett., 2004 (n A n B ) = 9 通り 参考資料 n A = 3 n B = 3 列ごとに Rank を計算した後 各行に対して相乗平均値 (RPs) を計算 31

評価の実際 例 :Affymetrix の二群間比較 ( 最もよく研究されている ) Gene Ontology 解析 ( 未知サンプルの ) 分類 モチーフ解析 パスウェイ解析 感度 特異度 既知の発現変動遺伝子をどれだけ上位にランキング可能か? 再現性 同じサンプルの比較結果 ( 発現変動遺伝子リスト ) が場所間でどれだけ一致しているか? 32

感度 特異度 を AUC 値で評価 どの前処理法がいい?( 比較例 :MAS5 vs. RMA) 既知の発現変動遺伝子をどれだけ上位にランキング可能か?(AUC 値の高さ ) MAS5 の遺伝子発現行列 log 比 を計算 log 比 でランキング AUC 値 =100% RMA の遺伝子発現行列 AUC 値 =83.3% 33

MAQC Consortium, Nat. Biotechnol., 24:1151-1161, 2006 再現性 を一致度で評価 MicroArray Quality Control (MAQC) プロジェクトで提唱 (0 POG 100%) POG 値が高い ランキング結果の頑健性 ( 再現性 ) が高い方法 MAS5 WAD MAS5 WAD 34

MAQC Consortium, Nat. Biotechnol., 24:1151-1161, 2006 POG between 九大 and 東大 再現性 を一致度で評価 MicroArray Quality Control (MAQC) プロジェクトで提唱 (0 POG 100%) POG 値が高い ランキング結果の頑健性 ( 再現性 ) が高い方法 上位 x 個の集合 x = 10 100 1000 前処理法 :MAS5, ランキング法 :WAD 九大 東大 前処理法 :MAS5, ランキング法 :samt 九大 東大 x 再現性 :WAD > samt 35

Kadota K, Nakai Y, Shimizu K, AMB, 4: 7, 2009 再現性 解析結果 ( 前処理法 :FARMS) サンプル C 5 例 vs. サンプル D 5 例 Site1 Site4 Site2 上位 100 個の集合 Site5 Site3 Site4 Site6 17% Site1 Site2 x Site5 Site6 Site3 再現性 :WAD > MAQC 推奨法 (AD) 36

Kadota K, Nakai Y, Shimizu K, AMB, 4: 7, 2009 結論 (Affymetrix データ ; 二群間比較 ) 感度 特異度 が高い方法 ( 組合せが重要である!) ( 発現変動遺伝子リストの ) 再現性 が高い方法 Fold Change に基づく方法 従来 :t- 統計量に基づく方法 ( 前処理法によらず )WAD 従来 : Average Difference (AD) 法 MAQC Consortium, Nat. Biotechnol., 24:1151-1161, 2006 No Kadota s guidelines, no good research! 37

手順 3: 発現変動遺伝子のランキング Affymetrix GeneChip の場合 推奨の組み合わせのものを利用 RMA データの場合は Rank products を利用 など その他のメーカーの場合 ( 今のところ根拠なし ) チップごとに正規化したデータ WAD 全サンプルのデータを Quantile 正規化したようなデータ Rank products 38

クラスタリング結果を眺めることで... 本物 ( 真の発現変動遺伝子 ) があるかどうかの検討がつきます MAS-preprocessed data RMA-preprocessed data 発現変動遺伝子なさそう... 発現変動遺伝子沢山ありそう

RMA-quantified data なので... Rank products 法を適用 WAT サンプルの 4 fed vs. 4 fasted samples のデータの解析結果 MAS-preprocessed data RMA-preprocessed data FDR の閾値 0.01 以下 :4 個 (fasted < fed), 45 個 (fasted > fed) 0.10 以下 :90 個 (fasted < fed), 198 個 (fasted > fed) FDR の閾値 0.01 以下 :359 個 (fasted < fed), 278 個 (fasted > fed) 0.10 以下 :970 個 (fasted < fed), 928 個 (fasted > fed)

2009/10/21 二群間比較解析戦略 発現変動遺伝子 ( マーカー遺伝子 ) の同定 個々の遺伝子について統計量を算出し ランキング 手法選択のガイドライン (Kadota et al., AMB, 2009) 感度 特異度重視の場合 再現性重視の場合 Gene Set Enrichment Analysis (GSEA) アノテーション情報が豊富な生物種用の解析手段 同じセットに属する遺伝子をひとまとめにして解析 例 1: 酸化的リン酸化に関係する遺伝子セット (KEGG: hsa00190) 例 2: 脂肪酸 β 酸化に関係する遺伝子セット ( GO:0006635) 比較する二群間でその遺伝子セットが動いたかどうかを評価 帰無仮説 : 動いてない 対立仮説 : 動いた 沢山の遺伝子セットについて解析を行い 動いた遺伝子セットを列挙 positional gene sets pathway gene sets motif gene sets 様々な視点での解析が可能 GO gene sets etc... 41

様々な遺伝子セットは MSigDB からゲット 例 :KEGG Pathway 遺伝子セット Pathway ID Name Gene symbols 2009/10/21 1 行につき 1 セット 42

様々な GSEA 系の解析手法 GSEA (Subramanian et al., PNAS, 2005) PAGE (Kim and Volsky, BMC Bioinformatics, 2005) Hotelling s T 2 -test (Kong et al., Bioinformatics, 2006) GSA (Efron and Tibshirani, Ann. Appl. Stat., 2007) GeneTrail (Backes et al., NAR, 2007) SAM-GS (Dinu et al., BMC Bioinformatics, 2007) GSEA-P (Subramanian et al., Bioinformatics, 2007) GlobalANCOVA (Hummell et al., Bioinformatics, 2008) 2009/10/21 43

Kim and Volsky, BMC Bioinformatics, 2005 PAGE 法 Parametric Analysis of Gene set Enrichment の略 1. 各遺伝子 iについて対数変換後のデータのaverage Difference (AD i i i i ) を計算 AD A B ( i 1,2,..., 2. AD i の平均 μ と標準偏差 σ を計算 3. 興味ある遺伝子セット ( 例 :i=5,89, 684, 2543, に相当する計 m 個の遺伝子 ) のADの平均 S m を計算 5 89 684 2543 S m ( AD AD AD AD...) / m 4. Z スコアを計算 Z ( Sm ) m / Z スコアの絶対値が大きい遺伝子セットほど二群間でより発現変動している と解釈, a) 2009/10/21 44

a genes GSEA 以前の解析手段 例 : 酸化的リン酸化関連遺伝子セット 1. Average Differenceのような統計量を各遺伝子について算出 2. 上位 x 個を抽出し 酸化的リン酸化関連遺伝子群のバックグラウンド (b/a) に対する濃縮度合い (c/x) を評価 A 群 B 群 A 群 B 群 酸化的リン酸化関連遺伝子 ( チップ中に b 個 ) の位置 帰無仮説 : チップ中の全遺伝子数 (a) に対する酸化的リン酸化関連遺伝子数 (b) の割合 (b/a) と 酸化的リン酸化関連遺伝子数 (b) に対する上位 x 個の中に占める酸化的リン酸化関連遺伝子数 (c) の割合 (c/x) は等しい 2009/10/21 45

a genes GSEA 以前の解析手段の問題点 1 上位 x 個の x 次第で結果が変わる A 群 B 群 A 群 B 群 酸化的リン酸化関連遺伝子 ( チップ中に b 個 ) の位置 2009/10/21 46

a genes GSEA 以前の解析手段の問題点 2 下図のように 全体としては酸化的リン酸化関連遺伝子セットが有意差があるといえるような場合でも 上位 x 個の中に一つも含まれないので有意差があるといえなくなる 現実の解析では酸化的リン酸化関連遺伝子セットが動いていることを見落とす A 群 B 群 A 群 B 群 酸化的リン酸化関連遺伝子 ( チップ中に b 個 ) の位置 2009/10/21 47

様々な GSEA 系手法 なぜ次々と提案されるのか? Ans.1: 発現変動遺伝子のランキング法 (gene-level statistics) はいくらでもある PAGE:Average Difference (AD) 倍率変化そのもの GSEA:S2N 統計量など その他 :Rank products, WAD, SAM など Ans.2: 興味ある遺伝子セットの偏り度合い ( 濃縮度 ) を見積もる統計量 (gene set statistics) はいくらでもある PAGE:Z 検定 GSEA:Enrichment Score その他 : 平均 % 順位, AUC, median など Ans.3: 有意性を評価する手段もいくつか考えられる sample label permutation gene resampling 極論 : 論文になっていない組合せを 新規手法だ! とすることも可能... 2009/10/21 48

Ackermann and Strimmer, BMC Bioinformatics, 2009 手法選択のガイドラインはない ( に等しい ) どの遺伝子セットが動いている いないという正解情報 ( 地上の真実 ) を知るすべがない 論文でありがちなプレゼンテーション 既知の遺伝子セットはちゃんと上位にあった 我々はさらに他に動いている遺伝子セットを見つけた ( 感度の高さをアピール ) 感度の高さ という点については正しいのかもしれないが 特異度 は低いのかも... ( 本当は動いていない遺伝子セットまで動いていると判断してしまうこと ) シミュレーションで本当は動いていないデータセットを作成することはできるが その結果と現実の結果には相当のギャップがある 2009/10/21 49

GSEA 系手法を使えるのはごく一部の生物種 アノテーション情報が豊富な生物種は Gene Ontology やパスウェイの情報が豊富 多くの遺伝子セットを用意できる GSEA 系手法を適用可能 それ以外の生物種は まずは様々な発現変動遺伝子をひたすら同定しまくるなどして地道にアノテーション情報を増やしていく以外にない ( のではないだろうか ) 2009/10/21 50

手順 4-1:GSEA を実行 重複した Gene symbol 名のものをまとめたファイルを作成 31,099 行 (data_rma.txt) 14,140 行 (data_rma_nr.txt) 理由 1: 変なバイアスを除きたいから 理由 2: 遺伝子セットが Gene symbol で与えられているから 51

手順 4-1:GSEA を実行 必要なファイルを MSigDB からダウンロード 52

GSEA 実行例 ( 手順 4-2) LIV サンプルの 4 fed vs. 4 fasted samples データの Gene Ontology(Biological Process) 解析結果 上位 10 遺伝子セット 絶対値の大きいものほど偏り度合いが高いことを表す 符号はその方向 正の値 A 群 > B 群 p 値 論文の表の完成 この GO ID に含まれる遺伝子セットのメンバー数 63 個中 52 個が自分が用いたアレイ中に搭載されている 53

手順 4-3:GO の階層構造にマップ LIV サンプルの 4 fed vs. 4 fasted samples データの Gene Ontology (Biological Process) 解析結果 上位 x 遺伝子セット ( 例 :x = 10) の GO IDs を QuickGO にかける 54

手順 4-3:GO の階層構造にマップ LIV サンプルの 4 fed vs. 4 fasted samples データの Gene Ontology (Biological Process) 解析結果 上位 x 遺伝子セット ( 例 :x = 10) の GO IDs を QuickGO にかける 論文の図の完成 55

GSEA 実行例 ( 手順 4-2 ) LIV サンプルの 4 fed vs. 4 fasted samples データの KEGG Pathway 解析結果 上位 10 遺伝子セット 論文の表の完成 56

手順 4-3 : パスウェイ上にマップ LIV サンプルの 4 fed vs. 4 fasted samples データの KEGG Pathway 解析結果から 第 3 位の HSA00071 を構成する遺伝子メンバーの二群間 (fed vs. fasted) での変動の程度を 4 諧調色で表示 logratio <= -1 を水色 (A 群で発現上昇 ) -1 < logratio < 0 を薄水色 (A 群で発現上昇 ) 0 < logratio < 1 を薄ピンク色 (B 群で発現上昇 ) logratio >= 1 をピンク色 (B 群で発現上昇 ) logratio = mean(b) mean(a) 57

水色 :A 群で発現上昇桃色 :B 群で発現上昇 58

問題点 EC 番号と Gene symbol が 1 対 1 対応ではない... 例 ) HSA00071 を構成する 39 gene symbols のうち EC:2.3.1.21 に対応するのは 4 つある... 現状では最終的に反映されている色は 同一 EC 番号の一番最後に出てきた gene symbol (i.e., CPT2) の発現レベル 59

アグリバイオインフォマティクス教育研究 プログラムのフォーラム活動について 本プログラムでは 研究課題ごとにフォーラムを形成し セミナー シンポジウムの開催から 企業との共同研究 学位論文の指導などを行い 当該課題の研究 教育の活性化を図ります フォーラムのメンバーは 本研究科の教員のほか 他大学 企業 試験研究機関の方々から構成されます これらのメンバーから 農学生命情報科学実習 II の受講を通して学位論文の研究におけるバイオインフォマティクスに関係した研究の指導を受けることができます バイオインフォマティクスを利用した農学生命科学の研究 あるいは バイオインフォマティクスそのものの研究を行って学位を取得した人には 修了認定証 を発行します 修了の認定は 各専攻の学位審査とは別にフォーラムのメンバーが審査会を開いて行います 研究指導は 研究室の指導教員との合意に基づいて行いますので 希望する人は 指導教員と相談の上 アグリバイオインフォマティクス教育研究プログラム事務局までご連絡下さい 現在のところ 以下の 4 つのフォーラムが形成されています : 微生物インフォマティクス フォーラム 基盤バイオインフォマティクス フォーラム アグリ / バイオ センシングと空間情報学フォーラム 食品インフォマティクス フォーラム 2009/10/21 60

遺伝子発現行列 二群間比較様々な組織 ( 条件 ) 時系列データ A A B B x 1, 1 x 1, 2 x 1, 2 x 1, 2 A A B B x 2, 1 x 2, 2 x 2, 2 x 2, 2 x 1,1 x 2,1 x 1,2 x 2,2 x 1,3 x 2,3 x 1,4 x 2,4 x 1,1 x 2,1 x 1,2 x 2,2 x 1,3 x 2,3 x 1,4 x 2,4 A xi, 1 A B B xi, 2 xi, 2 xi, 2 x i,1 x i,2 x i,3 x i,4 x i,1 x i,2 x i,3 x i,4 A A B B xn, 1 xn, 2 xn, 2 xn, 2 x n,1 x n,2 x n,3 x n,4 x n,1 x n,2 x n,3 x n,4 61

組織特異的遺伝子検出法 ランキングに基づく方法 Dixon test (Greller and Tobin, Genome Res., 9, 282-296, 1999) Pattern matching(pavlidis and Noble, Genome Biol., 2, research0042, 2001) Entropy (Schug et al., Genome Biol., 6, R33, 2005) Tissue specificity Index (Yanai et al., Bioinformatics, 21, 650-659, 2005) 外れ値検出に基づく方法 Akaike s Information Criterion (AIC) (Kadota et al., Physiol. Genomics, 12, 251-259, 2003) Sprent s non-parametric method (Ge et al., Genomics, 86, 127-141, 2005) その他 Tukey-Kramer s Honest Significance Difference (HSD) test (Liang et al., Physiol. Genomics, 26, 158-162, 2006) ROKU (Kadota et al., BMC Bioinformatics, 7, 294, 2006) 62

組織特異的遺伝子検出法 1 2 4 3 様々な前処理 ( 正規化 ) 法 様々な二群間での発現変動遺伝子検出法 重視すべき評価基準は? 感度 特異度 再現性 推奨ガイドライン 結論 : おすすめは ROKU 63

心臓 胃 大脳 心臓 胃 大脳 心臓 胃 大脳 組織特異的遺伝子検出法 やりたいこと 1 x 1,1 x 1,2 x 1,3 x 1,4 大脳 特異的高発現遺伝子 x 2,1 x 2,2 x 2,3 x 2,4 x i,1 x i,2 x i,3 x i,4 x n,1 x n,2 x n,3 x n,4 心臓と大脳 特異的高発現遺伝子 入力 : 遺伝子発現行列 出力 : 任意の組織特異的遺伝子 様々な特異的発現パターンを組織特異性の度合いで統一的にランキングしたい 64

組織特異的遺伝子検出法 2 エントロピーによるランキング 遺伝子 x = (x 1, x 2,, x n ) のエントロピー H(x) H x ) p log ( p ), where p x H(x) のとりうる範囲 : 0 H(x) log 2 (n) n ( i i i i i x 1 2 i Schug et al., Genome Biol., 2005 H( x) 0 H( x) 1. 40 H( x) 1.45 H ( x) 3. 32 H ( x ) 3.32 log 2( n ) エントロピーが低い 組織特異性が高いエントロピーが高い 組織特異性が低い エントロピーでランキングすることにより複数外れ値に対応可能 65

Schug et al., Genome Biol., 2005 2 エントロピー計算例 遺伝子 i のエントロピー H(x i ) H( x i N ) 1 pij log 2( p 0 H log 2 N j ij ) p ij x ij / N j 1 x ij 0 H 2.32 特異的発現パターン 低いエントロピー そうでないパターン 高いエントロピー 66

Schug et al., Genome Biol., 2005 参考資料 組織特異的遺伝子検出法 2 エントロピーの短所 1. 組織特異的低発現パターンなどの検出が不可能 0 H(x) log 2 (n) 3.32 H( x) 3.29 H( x) 3. 23 H( x) 3. 22 2. 特異的組織の同定が不可能 上位にランキングされない H( x) 0 H( x) 0 H( x) 0 どの組織で特異的なのか分からない 67

Kadota et al., BMC Bioinformatics, 2006 参考資料 組織特異的遺伝子検出法 3ROKU 1. 遺伝子発現ベクトル x を変換 : x x by x i = x i T bw 0 H(x) log 2 (n) 3.32 H( x ) 1.48 H( x ) 1. 64 H( x ) 1. 74 2. AIC に基づく外れ値検出法を採用 上位にランキングされる どの組織で特異的なのか分かる 68

組織特異的遺伝子検出法 4AIC に基づく外れ値検出法 Akaike s Information Criterion (AIC) 様々な外れ値の組み合わせモデルからAICが最小の組み合わせ (MAICE) を探索計算例 : log nn! AIC nn log 2 no nn 入力 n n n n o n n o : Outlier ( 外れ値 ) の数 : Non - outlier の数 ˆ : 標準偏差 ( n) : サンプル数 出力 上田太一郎, 応用統計学, 1996 Kadota et al., Physiol. Genomics, 2003 低発現側の外れ値 :-1, 高発現の ~:1, それ以外 :0 69

参考資料 組織特異的遺伝子検出法 4AIC に基づく外れ値検出法 様々な外れ値の組み合わせモデルから AIC が最小の組み合わせ (MAICE) を探索 様々な外れ値の組み合わせモデル最大探索範囲 Nmax = n/2 = 5 AIC n n n n o n n n n o log ˆ : 標準偏差 2 n ( n) : サンプル数 : Outlier ( 外れ値 ) の数 : Non - outlier の数 o log n n n n! 70