機能ゲノム学(第6回)

Size: px
Start display at page:

Download "機能ゲノム学(第6回)"

Transcription

1 マイクロアレイを用いた 遺伝子発現解析 東京大学 大学院農学生命科学研究科アグリバイオインフォマティクス教育研究ユニット門田幸二 ( かどたこうじ ) 1

2 自己紹介 2002 年 3 月 東京大学 大学院農学生命科学研究科博士課程修了 学位論文 : cdn マイクロアレイを用いた遺伝子発現解析手法の開発 ( 指導教官 : 清水謙多郎教授 ) 2002/4/1~ 産総研 生命情報科学研究センター産総研特別研究員 2003/11/1~ 放医研 先端遺伝子発現研究センター研究員 2005/2/16~ 東京大学 大学院農学生命科学研究科特任助手 2007/4/1~ 現在 東京大学 大学院農学生命科学研究科特任助教 アグリバイオインフォマティクスプログラム 2

3 講義内容 マイクロアレイ解析の流れ ( 一色法と二色法 ) アレイデータの正規化 ( 前処理 ) 発現変動遺伝子 (DEG) の同定 二群間比較 評価基準 評価法 および (ffymetrx チップの ) ガイドライン 多サンプル間比較 組織特異的遺伝子 時系列データ 概日リズム関連遺伝子 薬剤応答遺伝子 3

4 講義内容 機能解析 (GSE 解析 ) クラスタリング 分類 (or 診断 ) 遺伝子ネットワーク解析 トランスクリプトームデータベース 他のトランスクリプトーム解析技術 4

5 様々な DN マイクロアレイ (DN チップ ) スポット型 (Stanford 大学 ) 搭載 DN:cDN( または olgonucleotde) 解析法 :2 色法 ( 比較したい 2 サンプルを同時に分析 ) プリント型 (glent 社 ) 搭載 DN:olgonucleotde(60mer) 解析法 : 2 色法または1 色法 合成オリゴ型 (ffymetrx 社 ) 搭載 DN:olgonucleotde(25mer) 解析法 : 1 色法 ( 調べたい 1 サンプルを分析 ) Stanford 型 ffymetrx 型 5

6 マイクロアレイ解析の流れ 1 目的の生物種 ( ヒト マウスなど ) のマイクロアレイを入手 ffymetrx 社が GeneChp という製品名で販売 遺伝子 1 ( 基本的に ) ゲノム配列が決定されている生物種のみ解析可能 遺伝子 4 同じ生物種 ( 例えばヒト ) でも 製品のバージョンによって 搭載されている遺伝子数 ( や種類 ) が異なる 搭載されていない遺伝子の発現量は不明 ( 解析不可能 ) 6

7 マイクロアレイ解析の流れ 2( 二色法 ) 目的試料中の遺伝子発現レベルを対照試料に対する比として得る 目的試料 対照試料 競合的ハイブリダイゼーション 目的試料中の遺伝子 1 の発現レベルは対照試料に比べて高い 目的試料中の遺伝子 4 の発現レベルは対照試料に比べて低い 7

8 マイクロアレイ解析の流れ 1( 一色法 ) 目的試料の遺伝子発現レベルをシグナル強度として得る 8

9 得られる遺伝子発現データのイメージ 二色法の場合 2 一色法の場合 目的試料中の遺伝子 4 の発現レベルは対照試料に比べて 2-2 倍高い 目的試料中で遺伝子 3 は沢山発現している 9

10 ffymetrx 製チップ解析戦略 25-mer 程度では 本当に目的遺伝子の発現を調べられているのか? 3Gbp(=3 10^9 bp) vs. 4^25 (=1 10^15 bp) 発現量を正確に定量できるのか? mer 10

11 ffymetrx 製チップ解析戦略 遺伝子 の発現量 S を正確に知るために PM/MM プローブ戦略 ( ユニークな配列選択と最適 T m ) CGTCTTGCTTCCGTGGGTCTCTG 3 CTTGCTTCCGTGGGTC Perfect match (PM,j ) プローブペア CTTGCTTCGGTGGGTC Msmatch (MM,j ) 25 mer 特異的なハイブリダイゼーションと非特異的なハイブリダイゼーションを区別すべく 目的遺伝子配列に対して PM と一塩基 MM がペアになっているのが特徴的 11

12 プローブセット ffymetrx 製チップ解析戦略 遺伝子 の発現量 S を n (n =11~20) 種類のプローブペアのシグナル強度をもとに計算 5 3 PM PM PM PM PM PM PM PM PM PM PM,1,2,3,4,5,6,7,8,9,10,11, MM, MM, MM, MM, MM, MM, MM, MM, MM,1, MM, MM,2,3,4,5,6,7,8,9,10,11 5 CGTCTTGCTTCCGTGGGTCTCTG 3 CTTGCTTCCGTGGGTC Perfect match (PM,j ) プローブペア CTTGCTTCGGTGGGTC Msmatch (MM,j ) 25 mer 遺伝子 の発現量 S ( summary score or expresson ndex ) 発現量 S を算出するための様々な前処理法が存在 12

13 ffymetrx 製チップ解析戦略 ( 様々な前処理法 ) MBEI (L and Wong, PNS, 98, 31-36, 2001) MS5 (Hubbell et al., Bonformatcs, 18, , 2002) RM (Irzarry et al., Bostatstcs, 4, , 2003) GCRM (Wu et al., Tech. Rep., John Hopkns Unv., 2003) PDNN (Zhang et al., Nat. Botechnol., 21, , 2003) PLIER (ffymetrx, 2004) SuperNorm (Konsh, T., BMC Bonformatcs, 5, 5, 2004) mult-mgmos (Lu et al., Bonformatcs, 21, , 2005) GL (Zhou and Rocke, Bonformatcs, 21, , 2005) FRMS (Hochreter et al., Bonformatcs, 22, , 2006) DFW (Chen et al., Bonformatcs, 23, , 2007) Hook (Bnder et al., MB, 3, 11, 2008) 生データ ( PM, j, MM, ) j n.cel fles バックグラウンド補正 (wthn-array) 正規化 (crossarray) PM 値の補正 Summarzaton 発現量 S 13

14 14

15 アレイデータの正規化 ( 前処理 ) 実験によって得られた生のシグナル強度をそのまま利用することは普通はやりません 二色法 : 蛍光色素 (Cy3 and Cy5) の取り込み効率補正 一色法 : シグナルゲイン?! の補正 こうであるべき! という仮定を置いて それを満たすような正規化を行った後のデータを利用する 15

16 グローバル正規化 仮定 : 各サンプルから測定された mrn の全体量は一定 チップ上の遺伝子数が尐ない場合は非現実的だが 数千 ~ 数万種類の遺伝子が搭載されているので妥当 ( だろう ) nomalzaton 2008/7/16 16

17 Quantle 正規化 仮定 : 順位が同じならシグナル強度も同じ 正規化前 正規化後 列ごとにソート 行ごとの平均を算出 対応する行の要素の元の位置に平均値を代入 データセット中のサンプル数が変わると結果が変わる 17

18 比率 (Rato) log 2 (Cy5/Cy3) log 2 (Cy5/Cy3) Lowess(Locally weghted scatterplot smoothng) 正規化 仮定 :log 比の分布はシグナル強度非依存である R-I plot ( 生データ ) R-I plot (Lowess 正規化後 ) 2006/7/12 log 10 (Cy5 Cy3) 強度 (Intensty) log 10 (Cy5 Cy3) 18 18

19 正規化 遺伝子発現行列 二群間比較様々な組織 ( 条件 ) 時系列データ B B x 1, 1 x 1, 2 x 1, 2 x 1, 2 B B x 2, 1 x 2, 2 x 2, 2 x 2, 2 x 1,1 x 2,1 x 1,2 x 2,2 x 1,3 x 2,3 x 1,4 x 2,4 x 1,1 x 2,1 x 1,2 x 2,2 x 1,3 x 2,3 x 1,4 x 2,4 x, 1 B B x, 2 x, 2 x, 2 x,1 x,2 x,3 x,4 x,1 x,2 x,3 x,4 B B xn, 1 xn, 2 xn, 2 xn, 2 x n,1 x n,2 x n,3 x n,4 x n,1 x n,2 x n,3 x n,4 発現変動遺伝子の同定が可能な状態 19

20 二群間比較 例 1) 群 : 癌サンプル B 群 : 正常サンプル 癌と正常で発現の異なる遺伝子 B B x 1, 1 x 1, 2 x 1, 2 x 1, 2 B B x 2, 1 x 2, 2 x 2, 2 x 2, 2 B B x, 1 x, 2 x, 2 x, 2 B B xn, 1 xn, 2 xn, 2 xn, 2 20

21 Golub et al., Scence, 1999 二群間比較 例 2) 急性白血病 群 : リンパ性 (27 サンプル ) B 群 : 骨髄性 (11サンプル) 21

22 二群間比較 ( 解析手法 ) 倍率変化 (Fold change; FC) に基づくランキング法 2-fold, 3-fold (FC) The lmt fold change model (Mutch et al., BMC Bonformatcs, 2002) Rank product (RP; Bretlng et al., FEBS Lett., 2004) WD (Kadota et al., lgorthm. Mol. Bol., 2008) t- 統計量に基づくランキング法 a sgnal-to-nose statstc (Golub et al., Scence, 1999) Student s (or Welch) t-test SM (samt; Tusher et al., PNS, 2001) Samroc (Broberg, P., Genome Bol., 2003) a moderated t statstc (Smyth, GK., Stat. ppl. Genet. Mol. Bol., 2004) Intensty-based moderated t statstc (IBMT; Sartor et al., BMC Bonformatcs, 2006) Shrnkage t statstc (Opgen-Rhen and Strmmer, Stat. ppl. Genet. Mol. Bol., 2007) その他 Probablty of Postve LogRato (PPLR; Lu et al., Bonformatcs, 2006) FCPC (Qn et al., Bonformatcs, 2008) 22

23 参考資料 二群間比較 (t- 統計量に基づくランキング法 ) 二群間の平均の差が大きく 群内のばらつきが小さい 遺伝子 を抽出 a sgnal-to-nose(s2n) 統計量 R( ) U B U 二群間の平均の差 群内のばらつき B 群内のばらつき 対数変換 (log2 変換 ) 後のデータ B 標本平均 標本分散 不偏分散 j R(1) R(2) R(3) S U n n j1 1 n 1 n j 1 n ( j n 6, n 5, n n 統計量の絶対値が大きい 候補発現変動遺伝子 n B j1 n ( B j ) 2 ) 2 23

24 参考資料 二群間比較 (t- 統計量に基づくランキング法 ) t 検定 ( 等分散を仮定 ) の統計量 R( ) t 1 n 1 n B ( n 1) U 対数変換 (log2 変換 ) 後のデータ n B 2 ( n n 二群間の平均の差 B 2 1) U R(1) t R(2) t R(3) t 統計量の絶対値が大きい 候補発現変動遺伝子 B 2 B 検定統計量 t は 自由度 n +n B -2 の t 分布に従う ばらつき 24

25 参考資料 二群間比較 (t- 統計量に基づくランキング法 ) t 検定 ( 不等分散を仮定 ) の統計量 R( ) t U n 2 B U n 対数変換 (log2 変換 ) 後のデータ B B 2 二群間の平均の差ばらつき R(1) t R(2) t R(3) t ( U U 2 ) ( n ( U 1) 統計量の絶対値が大きい 候補発現変動遺伝子 検定統計量 t は 自由度 ν ( にゅー ) のt 分布に従う / n 2 n / / / U B nb / n 2 B 2 B ) 2 ( n / / 5 B 3.32 / 5 1) 25

26 多重検定問題 ある一つの遺伝子の発現データについて差があるかどうかを検定する という作業を全遺伝子について行う 帰無仮説 H 0 : 差がない 対立仮説 H 1 : 差がある 有意水準 ( 危険率 ;error rate)α を予め設定 Type-I error( 本当は発現に差がないのに差があるとしてしまう誤り ) を制御 これを N 回 (N 個の遺伝子について ) 繰り返すと 26

27 下手な鉄砲も数打ちゃ当たる N=100(α = 0.05) としてみると 一連の検定 ( 計 100 回 ) のどこかで第一種の誤り (Type-I error) をおかす確率 (famly-wse error rate; FWER) 1間違わない確率 (1 ) がN回続けて起こる確率 1 (1 ) N 1 (1 0.05) 一連の検定のどこかで間違って帰無仮説を棄却してしまう確率 ( 本当は 差がない のに 差がある としてしまう確率 ) はかなり大きい コントロールすべきは α ではなく FWER 27

28 False Dscovery Rate (FDR) を制御 検定によって帰無仮説が棄却された結果の数に占める Type- I error の割合 (FDR; q-value) を制御する という考え方 p-value (FPR) 本当は発現に 差がない にもかかわらず 差がある としてしまう確率 q-value (FDR) p p 発現に差が ある とされたもののうち 本当は発現に 差がない ものの割合 28

29 FDR 計算イメージ 1. 統計量を計算 R(1) t R(3) t 例 )t 統計量 ( 不等分散性を仮定 ;Welch 検定 ) 1 R(2) t / / / / / / R( ) t U n 2 B U n B B 2 二群間の平均の差 ばらつき 統計量 1.0 を満たす遺伝子を 差がある とすると 5 個ある という意味 29

30 FDR 計算イメージ 1 回目 2. 並べ替え検定 (random permutaton test) の実行 偶然差があるとされる遺伝子数 を見積もる 2 回目 3 回目 30

31 参考資料 二群間比較 ( 倍率変化に基づくランキング法 ) log 比 :( 対数変換後のデータなので )t 検定系の数式の分子のみに相当 R ( ) log( FC) B 二群間の平均の差 対数変換 (log2 変換 ) 後のデータ R(1) R(2) R(3) 統計量の絶対値が大きい 候補発現変動遺伝子 31

32 Kadota K, Naka Y, Shmzu K, MB., 3:8, 2008 二群間比較 ( 倍率変化に基づくランキング法 ) WD:log 比を基本としつつ 全体的にシグナル強度の高い遺伝子が上位にくるように重みをかけた統計量 unlogged data log 2 -transformed data verage Dfference (D) 統計量 D xを (0~1) の範囲に規格化 x mn( x) w max( x) mn( x) 平均シグナル強度 B x / 2 B WD 統計量 WD 参考資料 D w D D gene6 B より (6 7) / 2 (1 2 2) / x x gene6 B (6 7) / 2 (1 2 2) / 3 / / 2より WD の一位 :gene4, D の一位 :gene6 w w x mn( x) より max( x) mn( x) gene

33 二群間比較 ( 倍率変化に基づくランキング法 ) Rank products (RP): 群 vs. B 群の総当たりの比を計算し その順位の相乗平均を統計量とする 入力データ 総当りの発現比を計算 Bretlng et al., FEBS Lett., 2004 (n n B ) = 9 通り 参考資料 n = 3 n B = 3 列ごとに Rank を計算した後 各行に対して相乗平均値 (RPs) を計算 33

34 実用化にむけた取り組み 国外 Mcrorray Qualty Control (MQC) プロジェクト (2005/2-2006/9) External RN Control (ERC) Consortum MQC-II (2006/9-2009/3) 国内 バイオチップコンソーシアム (JMC) 2007 年 10 月に設立 バイオ産業分野の業界団体 34

35 解決すべき課題 再現性は本当にあるのか? Group プラットフォーム間 ( メーカーの違い ) の結果 プラットフォーム内 ( 実験場所の違い ) どの解析手法がいいか? 前処理 ( 正規化 ) 法 :MS5, RM, MBEI, 発現変動遺伝子検出法 組織特異的遺伝子 :Dxon test, ROKU, 二群間比較 ( 癌 vs. 正常 ):t-test, SM, 重視すべき評価基準は? 感度 特異度 重視派 再現性(MQCプロジェクト提唱) 重視派 感度 特異度 と 再現性 は両立しない?! Group B の結果 なんじゃこりゃ!! どれがいいんだ?! 両立しないの?! 35

36 これまでの流れ マイクロアレイ再現性が低いぞ やべー これだけ再現性が低かったら臨床応用とかできるの? Mcrorray Qualty Control (MQC) プロジェクト (2005/2-) 2006 年秋ごろの Nature Botechnology 誌に一連の研究成果を発表 再現性が低いのは t- 統計量系の方法 (p 値を出すやつ ) を使っていたから しかもかなりキツメの p 値だったから t- 統計量系の方法は感度 特異度は高いかもしれんが 再現性がいまいちだな 倍率変化に基づく方法は再現性が非常に高いことが分かったよ どのメーカーのアレイを使っても 発現変動遺伝子を検出するという観点では実用に耐えうる t- 統計量系と倍率変化系の方法は感度 特異度と再現性の点においてトレードオフの関係にあるね よって 実際の利用として 緩めの p 値でカットオフしつつ倍率変化でのランキングすると再現性高く発現変動遺伝子を得られるのでは 36

37 評価の実際 例 :ffymetrx の二群間比較 ( 最もよく研究されている ) Gene Ontology 解析 ( 未知サンプルの ) 分類 モチーフ解析 パスウェイ解析 感度 特異度 既知の発現変動遺伝子をどれだけ上位にランキング可能か? 再現性 同じサンプルの比較結果 ( 発現変動遺伝子リスト ) が場所間でどれだけ一致しているか? 37

38 感度 特異度 を UC 値で評価 どの前処理法がいい?( 比較例 :MS5 vs. RM) 既知の発現変動遺伝子をどれだけ上位にランキング可能か?(UC 値の高さ ) MS5 の遺伝子発現行列 log 比 を計算 log 比 でランキング UC 値 =100% RM の遺伝子発現行列 UC 値 =83.3% 38

39 感度 特異度 を UC 値で評価 どのランキング法がいい?( 比較例 :t- 検定 vs. 倍率変化 ) 既知の発現変動遺伝子をどれだけ上位にランキング可能か?(UC 値の高さ ) 66.7% 83.3% rea Under the ROC Curve (ROC 曲線の下部面積 :UC) ROC 曲線が左上にあるほどよい方法 39

40 参考資料 ROC 曲線の求め方 40

41 参考資料 ROC 曲線の求め方 41

42 参考資料 ROC 曲線の求め方 全部発現変動遺伝子です!! 42

43 参考資料 ROC 曲線の求め方 ROC 曲線 UC =

44 参考資料 UC 値は R で簡単に計算できます ROC 曲線 UC =

45 MQC Consortum, Nat. Botechnol., 24: , 2006 再現性 を一致度で評価 Mcrorray Qualty Control (MQC) プロジェクトで提唱 (0 POG 100%) POG 値が高い ランキング結果の頑健性 ( 再現性 ) が高い方法 MS5 WD MS5 WD 45

46 MQC Consortum, Nat. Botechnol., 24: , 2006 POG between 九大 and 東大 再現性 を一致度で評価 Mcrorray Qualty Control (MQC) プロジェクトで提唱 (0 POG 100%) POG 値が高い ランキング結果の頑健性 ( 再現性 ) が高い方法 上位 x 個の集合 x = 前処理法 :MS5, ランキング法 :WD 九大 東大 前処理法 :MS5, ランキング法 :samt 九大 東大 x 再現性 :WD > samt 46

47 Kadota K, Naka Y, Shmzu K, MB, 4: 7, 2009 再現性 解析結果 ( 前処理法 :FRMS) サンプル C 5 例 vs. サンプル D 5 例 Ste1 Ste4 Ste2 上位 100 個の集合 Ste5 Ste3 Ste4 Ste6 17% Ste1 Ste2 x Ste5 Ste6 Ste3 再現性 :WD > MQC 推奨法 (D) 47

48 Kadota K, Naka Y, Shmzu K, MB, 4: 7, 2009 結論 (ffymetrx データ ; 二群間比較 ) 感度 特異度 が高い方法 ( 組合せが重要である!) ( 発現変動遺伝子リストの ) 再現性 が高い方法 Fold Change に基づく方法 従来 :t- 統計量に基づく方法 ( 前処理法によらず )WD 従来 : verage Dfference (D) 法 MQC Consortum, Nat. Botechnol., 24: , 2006 No Kadota s gudelnes, no good research! 48

49 参考資料 推奨ガイドラインの比較 感度 特異度 の高いランキング法 t- 検定系の方法 (P 値 ) 再現性 の高いランキング法 Fold Change(FC) 系の方法 (D 法 ) MQC MQC Consortum, Nat. Botechnol., 2006 Sh et al., BMC Bonformatcs., 2008 FC 系の方法 (WD or RP) FC 系の方法 (WD) 門田ら Kadota et al., MB., 2008 Kadota et al., MB.,

50 参考資料 感度 特異度 の高いランキング法 t- 検定系の方法 (MQC 推奨 ) FC 系の方法 ( 門田推奨 ) Fold Change (FC) 系 t 検定系 Fold Change (FC) 系 赤枠の中だけで評価すると t- 検定系がよい t 検定系 50

51 参考資料 再現性 の高いランキング法は FC 系 で一致 D(MQC 推奨 ) WD( 門田推奨 ) MQC の解析は : 用いた前処理法が PLIER のみ 比較したランキング法が D, samt, のみ C vs. D の比較結果に samt が含まれてない x x 門田らの解析は : 用いた前処理法は 9 種類 比較したランキング法は 8 種類 51

52 その他のメーカーではどの方法がいい? そもそも前処理法は ffymetrx 以外はほとんど開発されていない メーカーのデフォルト (or 推奨 ) の前処理法をやる以外にない ではランキング法はどれがいい? 一色法の場合 :( 手前味噌ながら )WD 二色法の場合 : わかりません WD の根拠は? ( おそらく )ffymetrx 以外のメーカーはチップごとの正規化法しかない ffymetrx のチップごとの正規化法は MS5 だけで MS5 と最も相性がよかったのは WD だから 52

53 遺伝子発現行列 二群間比較様々な組織 ( 条件 ) 時系列データ B B x 1, 1 x 1, 2 x 1, 2 x 1, 2 B B x 2, 1 x 2, 2 x 2, 2 x 2, 2 x 1,1 x 2,1 x 1,2 x 2,2 x 1,3 x 2,3 x 1,4 x 2,4 x 1,1 x 2,1 x 1,2 x 2,2 x 1,3 x 2,3 x 1,4 x 2,4 x, 1 B B x, 2 x, 2 x, 2 x,1 x,2 x,3 x,4 x,1 x,2 x,3 x,4 B B xn, 1 xn, 2 xn, 2 xn, 2 x n,1 x n,2 x n,3 x n,4 x n,1 x n,2 x n,3 x n,4 53

54 組織特異的遺伝子検出法 ランキングに基づく方法 Dxon test (Greller and Tobn, Genome Res., 9, , 1999) Pattern matchng(pavlds and Noble, Genome Bol., 2, research0042, 2001) Entropy (Schug et al., Genome Bol., 6, R33, 2005) Tssue specfcty Index (Yana et al., Bonformatcs, 21, , 2005) 外れ値検出に基づく方法 kake s Informaton Crteron (IC) (Kadota et al., Physol. Genomcs, 12, , 2003) Sprent s non-parametrc method (Ge et al., Genomcs, 86, , 2005) その他 Tukey-Kramer s Honest Sgnfcance Dfference (HSD) test (Lang et al., Physol. Genomcs, 26, , 2006) ROKU (Kadota et al., BMC Bonformatcs, 7, 294, 2006) 54

55 組織特異的遺伝子検出法 様々な前処理 ( 正規化 ) 法 様々な二群間での発現変動遺伝子検出法 重視すべき評価基準は? 感度 特異度 再現性 推奨ガイドライン 結論 : おすすめは ROKU 55

56 Dxon WJ, Bometrcs, 1953 参考資料 組織特異的遺伝子検出法 1Dxon test (0 D 1) x 一組織のみで高発現 ( 低発現 ) しているパターンを検出 一般化 x 1 x n1 xn 高発現の場合 : 低発現の場合 : D( x) D( x) xn x x x x x 2 n n x x n 統計量 D の大きい遺伝子を抽出 56

57 Dxon WJ, Bometrcs, 1953 参考資料 組織特異的遺伝子検出法 1Dxon test の欠点 (0 D 1) 複数の外れ値が互いに外れ値をかばいあう効果 ( マスク効果 ) の影響を受ける 遺伝子 x 1 x n1 x n D( x ) xn x x x n n 遺伝子 a D( x a ) xn x x x n n 遺伝子 b D( x b ) xn x x x Dxon 統計量によるランキングでは複数外れ値に対応不可 n n

58 心臓 胃 大脳 心臓 胃 大脳 心臓 胃 大脳 組織特異的遺伝子検出法 やりたいこと 1 x 1,1 x 1,2 x 1,3 x 1,4 大脳 特異的高発現遺伝子 x 2,1 x 2,2 x 2,3 x 2,4 x,1 x,2 x,3 x,4 x n,1 x n,2 x n,3 x n,4 心臓と大脳 特異的高発現遺伝子 入力 : 遺伝子発現行列 出力 : 任意の組織特異的遺伝子 様々な特異的発現パターンを組織特異性の 度合いで統一的にランキングしたい 58

59 組織特異的遺伝子検出法 2 エントロピーによるランキング 遺伝子 x = (x 1, x 2,, x n ) のエントロピー H(x) H x ) p log ( p ), where p x H(x) のとりうる範囲 : 0 H(x) log 2 (n) n ( x 1 2 Schug et al., Genome Bol., 2005 H( x) 0 H( x) H( x) 1.45 H ( x) H( x) 3.32 log 2( n) エントロピーが低い 組織特異性が高いエントロピーが高い 組織特異性が低い エントロピーでランキングすることにより複数外れ値に対応可能 59

60 Schug et al., Genome Bol., エントロピー計算例 遺伝子 のエントロピー H(x ) H( x N ) 1 pj log 2( p 0 H log 2 N j j ) p j x j / N j 1 x j 0 H 2.32 特異的発現パターン 低いエントロピー そうでないパターン 高いエントロピー 60

61 Schug et al., Genome Bol., 2005 参考資料 組織特異的遺伝子検出法 2 エントロピーの短所 1. 組織特異的低発現パターンなどの検出が不可能 0 H(x) log 2 (n) 3.32 H( x) 3.29 H( x) H( x) 特異的組織の同定が不可能 上位にランキングされない H( x) 0 H( x) 0 H( x) 0 どの組織で特異的なのか分からない 61

62 Kadota et al., BMC Bonformatcs, 2006 参考資料 組織特異的遺伝子検出法 3ROKU 1. 遺伝子発現ベクトル x を変換 : x x by x = x T bw 0 H(x) log 2 (n) 3.32 H( x ) 1.48 H( x ) H( x ) IC に基づく外れ値検出法を採用 上位にランキングされる どの組織で特異的なのか分かる 62

63 組織特異的遺伝子検出法 4IC に基づく外れ値検出法 kake s Informaton Crteron (IC) 様々な外れ値の組み合わせモデルからICが最小の組み合わせ (MICE) を探索計算例 : log nn! IC nn log 2 no nn 入力 n n n n o n n o : Outler ( 外れ値 ) の数 : Non - outler の数 ˆ : 標準偏差 ( n) : サンプル数 出力 上田太一郎, 応用統計学, 1996 Kadota et al., Physol. Genomcs, 2003 低発現側の外れ値 :-1, 高発現の ~:1, それ以外 :0 63

64 参考資料 組織特異的遺伝子検出法 4IC に基づく外れ値検出法 様々な外れ値の組み合わせモデルから IC が最小の組み合わせ (MICE) を探索 様々な外れ値の組み合わせモデル最大探索範囲 Nmax = n/2 = 5 IC n n n n o n n n n o log ˆ : 標準偏差 2 n ( n) : サンプル数 : Outler ( 外れ値 ) の数 : Non - outler の数 o log n n n n! 64

65 参考資料 実データで比較 22,263 遺伝子 36 組織のデータ (Ge et al., Genomcs, 2005) 全体的な組織特異性の度合いで正しくランキングできるのは? 3 のほうが正しくランキング可能 65

66 2 目的組織特異性が高いのは? H x ) p log ( p ), where p n ( x x 1 2 参考資料 22,263 遺伝子 36 組織のデータ (Ge et al., Genomcs, 2005) Schug et al., Genome Bology, 2005 Kadota et al., BMC Bonformatcs, ) 遺伝子 x = (x 1, x 2,, x n ) の全体的な組織特異性度合いを表す統計量 3 1) 遺伝子 x を変換 (x = x T bw ) し 変換後のベクトル x のエントロピーを利用 H x) p log ( p ), where x n ( p 2 x 1 p p x 2) 組織 t における特異性度合いを表す統計量 Qt ( x) H( x) log 2( pt ) 全遺伝子について統計量を計算し 最低の統計量をもつものが最も t 組織特異的高発現遺伝子 入力 出力 2) IC に基づく外れ値検出法の適用 t 組織 t のみで 1 それ以外で 0 の遺伝子群を抽出 その中で最低の H(x) をもつものが最も t 組織特異的高発現遺伝子 66

67 2 目的組織特異性が高いのは? 3 参考資料 22,263 遺伝子 36 組織のデータ (Ge et al., Genomcs, 2005) Schug et al., Genome Bology, 2005 Kadota et al., BMC Bonformatcs, 2006 Lung 組織特異的遺伝子 ( 一位 ) Lung 組織特異的遺伝子 ( 一位 ) Fetal-lung 組織特異的遺伝子 ( 一位 ) Fetal-lung 組織特異的遺伝子 ( 一位 ) 目的組織以外でも特異的 : 目的組織のみで特異的 : 67

68 N genes 参考資料 組織特異的遺伝子検出法 パターンマッチング法 理想的なパターン y との類似度が高い順にランキング y 例 : 心臓特異的パターンを示す遺伝子群の検出 68

69 N genes 参考資料 組織特異的遺伝子検出法 パターンマッチング法 理想的なパターン y との類似度が高い順にランキング y 例 : 心臓特異的パターンを示す遺伝子群の検出 69

70 参考資料 IC とパターンマッチング法の比較 MICE 肺 1 肺 2 肺 3 従来法 : : : MICE 従来法 70

71 Yana et al., Bonformatcs, 21, , 2005 参考資料 組織特異的遺伝子検出法 Tssue specfcty ndex τ Yana et al., Bonformatcs, 21, , 2005 遺伝子発現行列 x = (x 1, x 2,, x n ) に対し n (1 p ) 1, where p x max( x) n 1 例 : x = (0, 8, 0, 0, 0, 2, 0, 2, 0, 0, 0, 0) p = (0, 1, 0, 0, 0, 0.25, 0, 0.25, 0, 0, 0, 0) τ= ( )/(12-1) = 0.95 τ(x) のとりうる範囲 : 0 τ 1 Housekeepng gene Tssue-specfc gene 統計量 τ の大きい遺伝子を抽出 71

72 Ge et al., Genomcs, 2005 参考資料 組織特異的遺伝子検出法 Sprent s non-parametrc method 遺伝子発現ベクトル x = (x 1, x 2,, x n ) に対して x < medan(x) - k MD(x) and x > medan(x) + k MD(x) を満たす x を外れ値とする k = 5 ( 原著論文 ) デフォルトの結果 k が変わると得られる結果が異なることには論文中では触れられていない 72

73 参考資料 T bw :Tukey s bweght algorthm x = (1, 3, 7, 9, 12, 30) の重みつき平均を求める mean = ( )/6=10.3 medan M= (7+9)/2=8 x 1 x 2 x 3 x 4 x 5 x 6 外れ値の影響をなるべく受けないようにしたい medan 近辺の数値 (7や9) には1に近い重み 遠く離れるほど重みを軽くしたい medan mean Tukey Bweght 73

74 参考資料 T bw :Tukey s bweght algorthm Medan bsolute Devaton (MD) の計算 ( 全体のバラツキを数値化 ) MD(x) = medan ( x 1 -M, x 2 -M, x 3 -M, x 4 -M, x 5 -M, x 6 -M ) = medan ( 1-8, 3-8, 7-8, 9-8, 12-8, 30-8 ) = medan (7, 5, 1, 1, 4, 22) = (4+5)/2= 4.5 標準化 ( Z-score 化 ) t t 1 2 x1 M x1 M x c MD 5 MD , t 0.044, t 0.044, t 0.178, t medan 74

75 参考資料 T bw :Tukey s bweght algorthm 重み関数 (bsquare weght functon) 2 2 (1 t ),f t 1 w( t ) 0, else 重みつき平均 T b ( x, x 1 2,..., x n ) n 1 n w( t 1 w( t ) x ) 0.816( 0.311) 0.904( 0.222) 0.996( 0.044) medan mean Medan(=8) に近いので重みが 1 に近い Medan(=8) より非常に遠い (30) ので 重みが限りなく 0 に近い weghted mean 75

76 遺伝子発現行列 二群間比較様々な組織 ( 条件 ) 時系列データ B B x 1, 1 x 1, 2 x 1, 2 x 1, 2 B B x 2, 1 x 2, 2 x 2, 2 x 2, 2 x 1,1 x 2,1 x 1,2 x 2,2 x 1,3 x 2,3 x 1,4 x 2,4 x 1,1 x 2,1 x 1,2 x 2,2 x 1,3 x 2,3 x 1,4 x 2,4 x, 1 B B x, 2 x, 2 x, 2 x,1 x,2 x,3 x,4 x,1 x,2 x,3 x,4 B B xn, 1 xn, 2 xn, 2 xn, 2 x n,1 x n,2 x n,3 x n,4 x n,1 x n,2 x n,3 x n,4 76

77 n genes 時系列データ 経時変化 発現亢進 発現減弱 薬物投与後の発現変化モニタリング概日リズム関連遺伝子探索 ( 機能性食品の量 濃度 ) 77

78 様々な時系列データ解析手法 周期性解析 ( 概日リズム 細胞周期 ) Lomb-Scargle method (Glynn et al., Bonformatcs, 22, , 2006) C&G procedure (Chen J., BMC Bonformatcs, 6, 286, 2005) model-based method (Luan and L, Bonformatcs, 20, , 2004) GeneTS (Wchert et al., Bonformatcs, 20, 5-20, 2004) その他 D Camllo et al., BMC Bonformatcs, 8 (Suppl 1), S10, hnert et al., Bonformatcs, 22, , IC (Frgyes et al., BMC Bonformatcs, 7, 290, 2006.) masgpro (Conesa et al., Bonformatcs, 22, , 2006.) dynamc model-based clusterng (Wu et al., J. Bonform. Comput. Bol., 3, , 2005.) Step-down quadratc regresson (Lu et al., BMC Bonformatcs, 6, 106, 2005) 78

79 a genes 機能解析 (GSE 解析 ) この種の解析法の論文が出る前のメジャーな機能解析手段 例 : 二群間比較 1. 何らかの手段で発現変動の度合いでランキング 2. 上位 x 個を抽出し XXX( 例 : 酸化的リン酸化 ) 関連遺伝子群 (Gene Set: 遺伝子セット ) がどれだけ濃縮 (Enrchment) されているのかを解析 (nalyss) 3. 遺伝子セット (XXX に相当 ) をいろいろ変えて 二群間で発現変動している 群 B 群 遺伝子セットを探索 群 B 群 酸化的リン酸化関連遺伝子 ( チップ中に b 個 ) の位置 帰無仮説 : チップ中の全遺伝子数 (a) に対する酸化的リン酸化関連遺伝子数 (b) の割合 (b/a) と 酸化的リン酸化関連遺伝子数 (b) に対する上位 x 個の中に占める酸化的リン酸化関連遺伝子数 (c) の割合 (c/x) は等しい 79

80 a genes 機能解析 (GSE 解析 ) この種の解析法の論文が出る前のメジャーな機能解析手段の問題点 1 上位 x 個の x 次第で結果が変わる 群 B 群 群 B 群 酸化的リン酸化関連遺伝子 ( チップ中に b 個 ) の位置 80

81 a genes 機能解析 (GSE 解析 ) この種の解析法の論文が出る前のメジャーな機能解析手段の問題点 2 下図のように 全体としては XXX( 例 : 酸化的リン酸化 ) 関連遺伝子群が有意差があるといえるような場合でも 上位 x 個の中に一つも含まれないので有意差があるといえなくなる 現実の解析ではXXX( 例 : 酸化的リン酸化 ) 関連遺伝子群の重要性を見落とす 群 B 群 群 B 群 酸化的リン酸化関連遺伝子 ( チップ中に b 個 ) の位置 81

82 様々な機能解析手法 GSE (Subramanan et al., PNS, 2005) PGE (Km and Volsky, BMC Bonformatcs, 2005) GS (Efron and Tbshran, nn. ppl. Stat., 2007) GeneTral (Backes et al., NR, 2007) SM-GS (Dnu et al., BMC Bonformatcs, 2007) GSE-P (Subramanan et al., Bonformatcs, 2007) 82

83 Km and Volsky, BMC Bonformatcs, 2005 PGE 法の概略 Parametrc nalyss of Gene set Enrchment の略 1. 各遺伝子 について対数変換後のデータのverage Dfference (D ) を計算 D B ( 1,2,..., 2. D の平均 μ と標準偏差 σ を計算 3. 興味ある遺伝子セット ( 例 :=5,89, 684, 2543, に相当する計 m 個の遺伝子 ) のDの平均 S m を計算 S m ( D D D D...) / m 4. Z スコアを計算 Z ( Sm ) m / Z スコアの絶対値が大きい遺伝子セットほど二群間でより発現変動している と解釈, n) 83

84 a genes (R で ) マイクロアレイ の PGE( 現状 ) 群 B 群 群 B 群 D >>0 酸化的リン酸化関連遺伝子の位置 β 酸化関連遺伝子の位置 Z スコアの絶対値が大きい遺伝子セットほど二群間でより発現変動している と解釈 D <<0 S m 0 S m >>0 Z 0 この遺伝子セットは二群間で変動してない Z >>0 この遺伝子セットは二群間で変動している 84

85 様々な機能解析手法 なぜ次々と提案されるのか? ns.1: 発現変動遺伝子のランキング法はいくらでもある PGE:verage Dfference (D) 倍率変化そのもの GSE:S2N 統計量など Rank products, WD, SM など ns.2: 興味ある遺伝子セットの偏り度合い ( 濃縮度 ) を見積もる方法はいくらでもある PGE:Z 検定 GSE:Kolmogorov-Smrnov 統計量の改良版 平均 % 順位, UC, t 検定など 85

86 機能解析手法を使えるのはごく一部の生物種 アノテーション情報が豊富な生物種は Gene Ontology やパスウェイの情報が豊富 多くの遺伝子セットを用意できる 機能解析手法を適用可能 それ以外の生物種は まずは様々な発現変動遺伝子をひたすら同定しまくるなどして地道にアノテーション情報を増やしていく以外にない ( のではないだろうか ) 86

87 クラスタリング ( 教師なし学習 ) サンプルの属性情報 ( 癌 or 正常など ) を使わずに 発現情報のみを用いて発現パターンの類似した遺伝子 ( またはサンプル ) をクラスター ( 群 ) にしていく手法 (Unsupervsed learnng 二群間比較多サンプル時系列解析 B B x 1, 1 x 1, 2 x 1, 2 x 1, 2 B B x 2, 1 x 2, 2 x 2, 2 x 2, 2 x 1,1 x 2,1 x 1,2 x 2,2 x 1,3 x 2,3 x 1,4 x 2,4 x 1,1 x 2,1 x 1,2 x 2,2 x 1,3 x 2,3 x 1,4 x 2,4 x, 1 B B x, 2 x, 2 x, 2 x,1 x,2 x,3 x,4 x,1 x,2 x,3 x,4 B B 2009/08/19 xn, 1 xn, 基礎生物学研究所 2 xn, 2 xn, 2 x n,1 x n,2 x n,3 x n,4 x n,1 x n,2 x n,3 x n,

88 Esen et al., PNS, 1998 クラスタリング ( 教師なし学習 ) 例 1: 遺伝子間クラスタリング 似た機能をもつものは同じクラスターに属すことを確認 88

89 Bttner et al., Nature, 2000 クラスタリング ( 教師なし学習 ) 例 2: サンプル間クラスタリング 悪性度の高い癌のサブタイプを発見 89

90 クラスタリング ( 教師なし学習 ) 階層的クラスタリング 発現パターンの類似した遺伝子を集めて系統樹を作成 非階層的クラスタリング K-means クラスタリング K 個のクラスターに分割 (K の数は主観的に決定 ) する と予め指定し 各クラスター内の遺伝子 ( サンプル ) 間の距離の総和が最小になるような K 個のクラスターを作成 自己組織化マップ (SOM) 主成分分析 (PC) 90

91 距離 ( 類似度 ) の定義 遺伝子 (or サンプル )x と y の発現パターンの距離 D 1) 1 ( ) ( 1 1 ) ( 1 1 ) )( ( xy xy y x y x r y n x n y x n r n n n 相関係数 r r r y x y x y x との発現パターンがほぼ正反対との発現パターンがばらばらとの発現パターンが酷似 2) (0 1 D r 距離 D 2 1) ( D r D r D r 91

92 階層的クラスタリング 1. 遺伝子間距離を計算 例 :4 遺伝子の場合 距離 D 1 r (0 D 2) 相関係数 r 相関係数 r 相関係数 r... 1,2 1,3 1, 距離 D 1,2 距離 D 距離 D 1 r 距離 D 2 1,3 1,4 (0 D 1) ( 0.01) ( 0.78)

93 階層的クラスタリング 2. 距離行列を作成 距離 D 距離 D 距離 D... 1,2 1,3 1, ( 0.01) ( 0.78) 距離行列 イメージ 93

94 階層的クラスタリング 3. 樹形図を作成 距離行列 距離 D D 3,4 二つのクラスター間の距離?!

95 階層的クラスタリング 3. 樹形図を作成 平均連結法の場合 D ( D D D 4) / 4 1, 3 1, 4 2, 3 D2, ( ) / 単連結法の場合 mn( D1, 3, D1, 4, D2, 3, D2, 4) 0.47 完全連結法の場合 max( D1, 3, D1, 4, D2, 3, D2, 4)

96 Naka et al., BBB, 2008 階層的クラスタリング例 肝臓 (LIV) 白色脂肪 (WT) 褐色脂肪 (BT) 最適なクラスター数 K は? K=2 K=3 K=5 K= K= K=4 K=

97 Ben-Hur et al., PSB, 2002 最適なクラスター数を見積もる方法 様々な K について ( 例えば K=2) 全サンプル (n) のクラスタリング結果を K 個に分割した結果とサブサンプル ( 例えば n*0.7) のクラスタリング結果を K 個に分割した結果の類似度を計算 全サンプルの結果 1 回目 100 回の結果全て LIV とそれ以外を分割できた場合 回目 サブサンプリングデータでクラスタリング を例えば 100 回繰り返し 100 回目 97

98 Ben-Hur et al., PSB, 2002 最適なクラスター数を見積もる方法 K の値をいくつか試して ( 例では 2~9) 最適な K の値を同定 この場合は K=2, 3 が最適なクラスター数 98

99 分類 ( 教師あり学習 ) 未知サンプルを分類するための様々な方法 K-Nearest Neghbor (K-NN; K- 最近傍法 ) Support Vector Machne (SVM) Neural Network (NN) Naïve Bayesan (NB) Mult-Layer Perceptron (MLP; 多層パーセプトロン ) Weghted Votng (WV; 重みつき多数決法 ) Decson Tree etc 99

100 K-Nearest Neghbor (K-NN) 法 未知サンプル X からの距離がもっとも近い K 個のサンプルのうち 所属するクラスが最も多いクラスに分類 K= X B2 B1 B3 B5 B4 X は B 群だと分類 ( コシヒカリ ) K= X B2 B1 B3 B5 B4 X は 群だと分類 ( ササニシキ ) 100

101 参考資料 交差検証法 (Cross-valdaton) 手持ちのデータセットを利用して 用いた分類器 (K-NNなど ) とその中で用いたパラメータ (Kの数) 採用時の分類精度を評価する手段 Leave-one-out (take-one-sample-out or hold-one-out) approach 1. 手持ちのデータセット (nサンプル) の中から一つを ( 本当はクラス既知だが ) 未知のテストサンプルとしてデータセットから除く 2. 残りの (n-1) サンプルからなるデータセットから 分類に用いる遺伝子サブセット (predctor genes) を得る 3. Predctor genesの発現プロファイルを用いて テストサンプルを予測 4. 全サンプルに対して1-3を繰り返し 予測精度を見積もる Cross-fold approach 1. 各クラスから一定 ( 例えば 群からn /2 個 B 群からn B /2 個 ) サンプル数をテストセットとする 2. 残り (n/2) のサンプルからなるデータセットから 分類に用いる遺伝子サブセット (predctor genes) を得る 3. Predctor genesの発現プロファイルを用いて テストサンプルを予測 4. 指定回数 1-3を繰り返し 予測精度を見積もる 101

102 発現レベル 遺伝子の発現制御ネットワーク推定 時系列データ 遺伝子 D の発現を抑制し 他の遺伝子の挙動を観察 B C D D B t 0 t 1 t 2 t 3 t 4 ネットワーク推定 C 102

103 発現レベル 参考資料 遺伝子の発現制御ネットワーク推定 時系列データ 遺伝子発現行列の作成 例 ) t 0 に対する log 比などで表現 B C D t 0 t 1 t 2 t 3 t 4 103

104 参考資料 遺伝子の発現制御ネットワーク推定 時系列データ ( 基本的な ) 線形モデル法 で解いてみる 仮定 : 遺伝子 x k の時間 t における発現レベル x kt は 時間 t-1 における他のすべての遺伝子発現レベルの線形結合で表される x t k N t w x 1, k 1 w,k : x の発現レベルが x k の発現レベルに及ぼす影響を示す重み係数 104

105 ( 基本的な ) 線形モデル法 で解く 行列で表すと以下のような感じになる ,,,,,,,,,,,,,,,, t t t t D D D C B D D D C C C B C C D B C B B B B D C B t t t t D C B w w w w w w w w w w w w w w w w D C B 遺伝子発現行列 ( 時系列データ ) 目的 :4 2 個の未知の w,k を決める重み行列 相互作用行列 105 参考資料

106 ( 基本的な ) 線形モデル法 で解く 計算結果 N t k t k x w x 1 1, ,,,,,,,,,,,,,,,, t t t t D D D C B D D D C C C B C C D B C B B B B D C B t t t t D C B w w w w w w w w w w w w w w w w D C B 遺伝子発現行列 ( 時系列データ ) 遺伝子間相互作用行列 B C D 106 参考資料

107 ( 基本的な ) 線形モデル法 で解く 目的 : 重み係数 w,k を解として得る 例 ) 遺伝子 の発現調節を支配している方程式を解く N t k t k x w x 1 1, 3, 3, 3, 3, 4 t D t C t B t t D w C w B w w 2, 2, 2, 2, 3 t D t C t B t t D w C w B w w 1, 1, 1, 1, 2 t D t C t B t t D w C w B w w 0, 0, 0, 0, 1 t D t C t B t t D w C w B w w 107 参考資料

108 参考資料 ( 基本的な ) 線形モデル法 で解く 目的 : 重み係数 w,k を解として得る 例 ) 遺伝子 の発現調節を支配している方程式を解く 1 w,, ( 1) wb, (0) wc, (1) wd ( 1) 1 w,, ( 1) wb, (0) wc, (0) wd ( 1) 1 w,, (0) wb, (0) wc, (0) wd ( 1) w C w w D, 0, 0, 1 0 w (0) wb, (0) wc, (0) wd,, (0) D は をプラスに制御 108

109 参考資料 問題点 例題の時系列データ 4 遺伝子 5 tme ponts ネットワークが解けた! 一般論 N 個の遺伝子間相互作用の可能性は N 2 通り存在する N 2 個の未知のパラメータ ( 重み係数 w,k ) を一意に求めるためには 最低でも N 2 個の線形独立な方程式が必要 ( 例題のように ) 時点数 > 遺伝子数であれば 109

110 問題点 次元の問題 ( 劣決定性の問題 ) 理想 : 遺伝子数 時点数 現実 : 遺伝子数 >> 時点数 例 : 数万遺伝子 ( せいぜい ) 数十時点 のデータ N 2 個あるパラメータを解くための方程式が足りない! ( 解が多数得られてしまう ) 時間解像度の問題 相互作用イベントの起こる順番を明確に分離できる時点間隔となっているか? t 1 t 2 t 3 110

111 遺伝子の発現制御ネットワーク推定 閾値検定モデル 発現量の変化から 2 遺伝子間の制御関係を推定 Bayesan モデル 実験データから作り出す条件付き確率分布から推定 Imoto et al., J. Bonform. Comput. Bol., 1, , S-system モデル 複数の遺伝子が関与する発現プロファイルの時系列データをもとに推定 Tomnaga et al., J. Bonform. Comput. Bol., 4, , 多階層有向グラフモデル 2 遺伝子間の関係から遺伝子のグループ化と制御関係を推定 111

112 トランスクリプトームデータベース 多くの遺伝子発現データは公共データベースに格納されている 112

113 GEO ID: GSM26978 トランスクリプトームデータベース 用途 検証 異なる解析手法で再解析 異なる視点で再解析 DN マイクロアレイ以外のデータも格納されている 例 )SGE データなど TTCGGTCG という配列が 5 回 sequence された 113

114 他のトランスクリプトーム解析技術 配列断片タグの sequence に基づく方法 Expressed Sequence Tags (ESTs) Seral nalyss of Gene Expresson (SGE) long SGE Massvely Parallel Sgnature Sequencng (MPSS) Cap nalyss Gene Expresson (CGE) PCR+ 電気泳動に基づく方法 mplfed Fragment Length Polymorphsm (FLP) Introduced FLP (FLP) Hgh-coverage expresson proflng (HCEP) Dfferental Dsplay (DD) 114

115 他のトランスクリプトーム解析技術 配列断片タグの sequence に基づく方法 沢山発現している遺伝子の配列断片はより多く sequence される sequence された回数がその遺伝子の発現レベルそのもの TTCGGTCG という配列が 5 回 sequence された 115

116 他のトランスクリプトーム解析技術 PCR+ 電気泳動に基づく方法 サンプル B 2 サンプル B 1 サンプル 2 サンプル 1 電気泳動の波形データ 460 bp の長さの遺伝子はサンプル でのみ発現している サンプル B 2 サンプル B 1 サンプル 2 バンドの濃淡をシグナル強度で表すと サンプル 1 配列断片長 (bp) 116

117 様々なトランスクリプトーム解析技術 特徴 ( 解析対象の広さ ) 目的生物種の DN マイクロアレイが用意されていないものは解析不可能 例 ) バクテリア 柿 桃などのマイクロアレイはない マイクロアレイがあったとしても 未知遺伝子の解析はできない ( アレイ上に搭載されていないため ) 117

118 他のトランスクリプトーム解析技術 特徴 ( アノテーション情報 ) 配列断片タグ ( ) 目的の配列情報は分かるが その遺伝子名などは Blast サーチなどを行う必要性あり 配列長が短いため 候補遺伝子群の中からの特定が難しい 118

119 サンプル サンプル B 他のトランスクリプトーム解析技術 特徴 ( アノテーション情報 ) PCR+ 電気泳動 ( ) 目的遺伝子の塩基配列情報を得る作業が ( 配列断片タグに比べて ) 余分に必要 バンドの切り出し 抽出 PCR 増幅 クローニング ( 塩基配列決定 ) 得られた塩基配列をもとに Blast サーチ 119

120 他のトランスクリプトーム解析技術 特徴 ( データ解析の簡便さ ) 配列断片タグ ( ) Sequence コストがかかるため それほど多くの sequence ができるわけではない 統計的なデータ解析が難しい 120

121 他のトランスクリプトーム解析技術 特徴 ( データ解析の簡便さ ) PCR+ 電気泳動 ( ) ピークアラインメント ( 同一遺伝子の認識 ) が難しい 121

122 他のトランスクリプトーム解析技術 改良に向けた取り組み : マイクロアレイ 短所 : マイクロアレイがあったとしても 未知遺伝子の解析はできない ( アレイ上に搭載されていないため ) タイリングアレイの開発により 未知遺伝子の発現も検出可能に タンパク質をコードする遺伝子 の解析から ゲノム全体 の発現解析へ 122

123 様々なトランスクリプトーム解析技術 タイリングアレイによる具体的な成果 ヒト 21,22 番染色体の解析により 従来よりはるかに多くの転写物が存在することを確認 (Kapranov et al., Scence, 2002) シロイヌナズナの解析により 既知の約 27,000 遺伝子領域以外に約 5,200 の領域で発現している新たな遺伝子構造を発見 (Toyoda et al., Plant J., 2005) 次期ヒトゲノム計画 (ENCODE 計画 ) でも採用され ゲノム中の大部分の塩基が タンパク質をコードしない転写産物や重複転写産物を含む 一次転写産物になることが示唆 (The ENCODE Project Consortum, Nature, 2007) 123

124 様々なトランスクリプトーム解析技術 改良に向けた取り組み : 配列断片タグ 短所 : Sequence コストがかかるため それほど多くの sequence ができるわけではない そのため 統計的なデータ解析が難しい 次世代シーケンサーの開発によりコストを大幅に削減可能に マイクロアレイ 配列断片タグ マイクロアレイ 配列断片タグ 現在 将来 124

125 次世代シーケンサー パンダ ( 大熊猫 ) ゲノム解読 (2008/10) ヒトゲノム解読に 10 年 半年 猫よりも犬 熊に近い動物 アジア人 ( 中国人 ) 一個体の全ゲノム配列決定 (2008/11/6, Nature) 36 倍のカバー率 個人ゲノムとしては J.D. Watson と J.C. Venter に次いで 3 人目 2010 年ごろ発売される予定のものは ヒトゲノムを 8 分程度で解読できるらしい (Levene et al. Scence, 2003) 国際プロジェクト 1000 人ゲノム計画 (1 人 1 人の遺伝情報の違いを詳細に調査 ) 国際癌ゲノムプロジェクト 感染症の同定 125

126 他のトランスクリプトーム解析技術 改良に向けた取り組み :PCR+ 電気泳動 短所 : ピークアラインメント ( 同一遺伝子の認識 ) が難しい バイオインフォマティクス手法の適用によるアラインメント精度の大幅な向上 実験技術の開発も重要だがバイオインフォマティクス ( 解析手法の開発 ) も重要 126

127 他のトランスクリプトーム解析技術 アラインメント精度の大幅な向上により 正確な遺伝子発現行列を作成可能になった Kadota et al., BMC Bonformatcs, 2005 Kadota et al., MB, 2007 遺伝子発現行列 B C D E F G H I J K L マイクロアレイ解析用に開発された手法が電気泳動波形データ解析にも利用可能 127

128 まとめ 様々なマイクロアレイ解析手法を紹介 二群 多群 時系列 クラスタリング 分類 ネットワーク マイクロアレイの位置づけ 長所 ( 解析が容易 ) 短所 ( 搭載されてない遺伝子など ) 他の解析技術によって得られたトランスクリプトームデータへの適用可能性 遺伝子発現行列さえできれば次世代シーケンサーも OK (R で ) マイクロアレイデータ解析 でお幸せに よりよい手法を よりお求めやすく 128

機能ゲノム学(第6回)

機能ゲノム学(第6回) トランスクリプトーム 解析手法の開発 東京大学 大学院農学生命科学研究科アグリバイオインフォマティクス人材養成ユニット門田幸二 2008/12/08 トランスクリプトーム (transcrptome) とは 細胞中に存在する転写物全体 (transcrpt + ome) トランスクリプトーム解析技術 DNA マイクロアレイ Affymetrx GeneChp, cdna アレイ, 電気泳動に基づく方法

More information

機能ゲノム学(第6回)

機能ゲノム学(第6回) トランスクリプトーム データの解析戦略とそ の周辺 東京大学 大学院農学生命科学研究科アグリバイオインフォマティクス教育研究ユニット門田幸二 ( かどたこうじ ) hp://.u.a.u-okyo.ac.jp/~kadoa/ kadoa@u.a.u-okyo.ac.jp オーム (Ome) 研究 ome : 総体 DN 遺伝子 (Gene) + ome Genome ゲノム研究 : ヒトのもつ遺伝子情報の総体を研究

More information

機能ゲノム学(第6回)

機能ゲノム学(第6回) マイクロアレイデータ解 析結果の正しい?! 解釈 について 東京大学 大学院農学生命科学研究科アグリバイオインフォマティクス教育研究ユニット門田幸二 ( かどたこうじ ) http://www.iu.a.u-tokyo.ac.jp/~kadota/ kadota@iu.a.u-tokyo.ac.jp 1 自己紹介 2002 年 3 月 東京大学 大学院農学生命科学研究科博士課程修了 学位論文 : cdna

More information

バイオインフォマティクスⅠ

バイオインフォマティクスⅠ バイオインフォマティクス ( 第 5 回 ) 慶應義塾大学生命情報学科 榊原康文 多重アライメントの解 0 2 3 4 5 6 7 j Q T S Y T R Y Q T - Y T R K 0 0-9 -20-44 -52-63 -72-90 Q -6 2 0-6 -4-25 -34-52 2 S -32 5 30 4 6-5 -4-32 3 Y -48-4 2 38 27 8 0 4 P -64-27

More information

Microsoft Word - 1 color Normalization Document _Agilent version_ .doc

Microsoft Word - 1 color Normalization Document _Agilent version_ .doc color 実験の Normalization color 実験で得られた複数のアレイデータを相互比較するためには Normalization( 正規化 ) が必要です 2 つのサンプルを異なる色素でラベル化し 競合ハイブリダイゼーションさせる 2color 実験では 基本的に Dye Normalization( 色素補正 ) が適用されますが color 実験では データの特徴と実験の目的 (

More information

機能ゲノム学(第6回)

機能ゲノム学(第6回) トランスクリプトーム解析の今昔 なぜマイクロアレイ? なぜRNA-Seq? 東京大学大学院農学生命科学研究科アグリバイオインフォマティクス教育研究ユニット門田幸二 ( かどたこうじ ) http://www.iu.a.u-tokyo.ac.jp/~kadota/ kadota@iu.a.u-tokyo.ac.jp 1 Contents トランスクリプトーム解析の概要 各手法の長所 短所 マイクロアレイ

More information

機能ゲノム学(第6回)

機能ゲノム学(第6回) RNA-Seqデータ解析における正規化法の選択 :RPKM 値でサンプル間比較は危険?! 東京大学大学院農学生命科学研究科アグリバイオインフォマティクス教育研究ユニット門田幸二 ( かどたこうじ ) http://www.iu.a.u-tokyo.ac.jp/~kadota/ kadota@iu.a.u-tokyo.ac.jp 1 よりよい正規化法とは? その正規化法によって得られたデータを用いて発現変動の度合いでランキングしたときに

More information

データ科学2.pptx

データ科学2.pptx データ科学 多重検定 2 mul%ple test False Discovery Rate 藤博幸 前回の復習 1 多くの検定を繰り返す時には 単純に個々の検定を繰り返すだけでは不十分 5% 有意水準ということは, 1000 回検定を繰り返すと, 50 回くらいは帰無仮説が正しいのに 間違って棄却されてすまうじちがあるということ ex) 1 万個の遺伝子について 正常細胞とガン細胞で それぞれの遺伝子の発現に差があるかどうかを検定

More information

NGSデータ解析入門Webセミナー

NGSデータ解析入門Webセミナー NGS データ解析入門 Web セミナー : RNA-Seq 解析編 1 RNA-Seq データ解析の手順 遺伝子発現量測定 シークエンス マッピング サンプル間比較 機能解析など 2 CLC Genomics Workbench 使用ツール シークエンスデータ メタデータのインポート NGS data import Import Metadata クオリティチェック Create Sequencing

More information

Kumamoto University Center for Multimedia and Information Technologies Lab. 熊本大学アプリケーション実験 ~ 実環境における無線 LAN 受信電波強度を用いた位置推定手法の検討 ~ InKIAI 宮崎県美郷

Kumamoto University Center for Multimedia and Information Technologies Lab. 熊本大学アプリケーション実験 ~ 実環境における無線 LAN 受信電波強度を用いた位置推定手法の検討 ~ InKIAI 宮崎県美郷 熊本大学アプリケーション実験 ~ 実環境における無線 LAN 受信電波強度を用いた位置推定手法の検討 ~ InKIAI プロジェクト @ 宮崎県美郷町 熊本大学副島慶人川村諒 1 実験の目的 従来 信号の受信電波強度 (RSSI:RecevedSgnal StrengthIndcator) により 対象の位置を推定する手法として 無線 LAN の AP(AccessPont) から受信する信号の減衰量をもとに位置を推定する手法が多く検討されている

More information

Medical3

Medical3 Chapter 1 1.4.1 1 元配置分散分析と多重比較の実行 3つの治療法による測定値に有意な差が認められるかどうかを分散分析で調べます この例では 因子が1つだけ含まれるため1 元配置分散分析 one-way ANOVA の適用になります また 多重比較法 multiple comparison procedure を用いて 具体的のどの治療法の間に有意差が認められるかを検定します 1. 分析メニュー

More information

統計的データ解析

統計的データ解析 統計的データ解析 011 011.11.9 林田清 ( 大阪大学大学院理学研究科 ) 連続確率分布の平均値 分散 比較のため P(c ) c 分布 自由度 の ( カイ c 平均値 0, 標準偏差 1の正規分布 に従う変数 xの自乗和 c x =1 が従う分布を自由度 の分布と呼ぶ 一般に自由度の分布は f /1 c / / ( c ) {( c ) e }/ ( / ) 期待値 二乗 ) 分布 c

More information

ビジネス統計 統計基礎とエクセル分析 正誤表

ビジネス統計 統計基礎とエクセル分析 正誤表 ビジネス統計統計基礎とエクセル分析 ビジネス統計スペシャリスト エクセル分析スペシャリスト 公式テキスト正誤表と学習用データ更新履歴 平成 30 年 5 月 14 日現在 公式テキスト正誤表 頁場所誤正修正 6 知識編第 章 -3-3 最頻値の解説内容 たとえば, 表.1 のデータであれば, 最頻値は 167.5cm というたとえば, 表.1 のデータであれば, 最頻値は 165.0cm ということになります

More information

EBNと疫学

EBNと疫学 推定と検定 57 ( 復習 ) 記述統計と推測統計 統計解析は大きく 2 つに分けられる 記述統計 推測統計 記述統計 観察集団の特性を示すもの 代表値 ( 平均値や中央値 ) や ばらつきの指標 ( 標準偏差など ) 図表を効果的に使う 推測統計 観察集団のデータから母集団の特性を 推定 する 平均 / 分散 / 係数値などの推定 ( 点推定 ) 点推定値のばらつきを調べる ( 区間推定 ) 検定統計量を用いた検定

More information

基礎統計

基礎統計 基礎統計 第 11 回講義資料 6.4.2 標本平均の差の標本分布 母平均の差 標本平均の差をみれば良い ただし, 母分散に依存するため場合分けをする 1 2 3 分散が既知分散が未知であるが等しい分散が未知であり等しいとは限らない 1 母分散が既知のとき が既知 標準化変量 2 母分散が未知であり, 等しいとき 分散が未知であるが, 等しいということは分かっているとき 標準化変量 自由度 の t

More information

PrimerArray® Analysis Tool Ver.2.2

PrimerArray® Analysis Tool Ver.2.2 研究用 PrimerArray Analysis Tool Ver.2.2 説明書 v201801 PrimerArray Analysis Tool Ver.2.2 は PrimerArray( 製品コード PH001 ~ PH007 PH009 ~ PH015 PN001 ~ PN015) で得られたデータを解析するためのツールで コントロールサンプルと 1 種類の未知サンプル間の比較が可能です

More information

Microsoft PowerPoint - 資料04 重回帰分析.ppt

Microsoft PowerPoint - 資料04 重回帰分析.ppt 04. 重回帰分析 京都大学 加納学 Division of Process Control & Process Sstems Engineering Department of Chemical Engineering, Koto Universit manabu@cheme.koto-u.ac.jp http://www-pse.cheme.koto-u.ac.jp/~kano/ Outline

More information

スライド 1

スライド 1 データ解析特論第 10 回 ( 全 15 回 ) 2012 年 12 月 11 日 ( 火 ) 情報エレクトロニクス専攻横田孝義 1 終了 11/13 11/20 重回帰分析をしばらくやります 12/4 12/11 12/18 2 前回から回帰分析について学習しています 3 ( 単 ) 回帰分析 単回帰分析では一つの従属変数 ( 目的変数 ) を 一つの独立変数 ( 説明変数 ) で予測する事を考える

More information

Qlucore_seminar_slide_180604

Qlucore_seminar_slide_180604 シングルセル RNA-Seq のための 情報解析 フィルジェン株式会社バイオサイエンス部 (biosupport@filgen.jp) 1 シングルセル RNA-Seq シングルセル RNA-Seq のデータ解析では 通常の RNA-Seq データの解析手法に加え データセット内の各細胞の遺伝子発現プロファイルの違いを俯瞰できるような 強力な情報解析アルゴリズムと データのビジュアライズ機能を利用する必要がある

More information

多変量解析 ~ 重回帰分析 ~ 2006 年 4 月 21 日 ( 金 ) 南慶典

多変量解析 ~ 重回帰分析 ~ 2006 年 4 月 21 日 ( 金 ) 南慶典 多変量解析 ~ 重回帰分析 ~ 2006 年 4 月 21 日 ( 金 ) 南慶典 重回帰分析とは? 重回帰分析とは複数の説明変数から目的変数との関係性を予測 評価説明変数 ( 数量データ ) は目的変数を説明するのに有効であるか得られた関係性より未知のデータの妥当性を判断する これを重回帰分析という つまり どんなことをするのか? 1 最小 2 乗法により重回帰モデルを想定 2 自由度調整済寄与率を求め

More information

Microsoft Word - Stattext12.doc

Microsoft Word - Stattext12.doc 章対応のない 群間の量的データの検定. 検定手順 この章ではデータ間に 対 の対応のないつの標本から推定される母集団間の平均値や中央値の比較を行ないます 検定手法は 図. のようにまず正規に従うかどうかを調べます 但し この場合はつの群が共に正規に従うことを調べる必要があります 次に 群とも正規ならば F 検定を用いて等分散であるかどうかを調べます 等分散の場合は t 検定 等分散でない場合はウェルチ

More information

論文題目  腸管分化に関わるmiRNAの探索とその発現制御解析

論文題目  腸管分化に関わるmiRNAの探索とその発現制御解析 論文題目 腸管分化に関わる microrna の探索とその発現制御解析 氏名日野公洋 1. 序論 microrna(mirna) とは細胞内在性の 21 塩基程度の機能性 RNA のことであり 部分的相補的な塩基認識を介して標的 RNA の翻訳抑制や不安定化を引き起こすことが知られている mirna は細胞分化や増殖 ガン化やアポトーシスなどに関与していることが報告されており これら以外にも様々な細胞諸現象に関与していると考えられている

More information

PowerPoint プレゼンテーション

PowerPoint プレゼンテーション 復習 ) 時系列のモデリング ~a. 離散時間モデル ~ y k + a 1 z 1 y k + + a na z n ay k = b 0 u k + b 1 z 1 u k + + b nb z n bu k y k = G z 1 u k = B(z 1 ) A(z 1 u k ) ARMA モデル A z 1 B z 1 = 1 + a 1 z 1 + + a na z n a = b 0

More information

(3) 検定統計量の有意確率にもとづく仮説の採否データから有意確率 (significant probability, p 値 ) を求め 有意水準と照合する 有意確率とは データの分析によって得られた統計値が偶然おこる確率のこと あらかじめ設定した有意確率より低い場合は 帰無仮説を棄却して対立仮説

(3) 検定統計量の有意確率にもとづく仮説の採否データから有意確率 (significant probability, p 値 ) を求め 有意水準と照合する 有意確率とは データの分析によって得られた統計値が偶然おこる確率のこと あらかじめ設定した有意確率より低い場合は 帰無仮説を棄却して対立仮説 第 3 章 t 検定 (pp. 33-42) 3-1 統計的検定 統計的検定とは 設定した仮説を検証する場合に 仮説に基づいて集めた標本を 確率論の観点から分析 検証すること 使用する標本は 母集団から無作為抽出されたものでなければならない パラメトリック検定とノンパラメトリック検定 パラメトリック検定は母集団が正規分布に従う間隔尺度あるいは比率尺度の連続データを対象とする ノンパラメトリック検定は母集団に特定の分布を仮定しない

More information

Microsoft PowerPoint - e-stat(OLS).pptx

Microsoft PowerPoint - e-stat(OLS).pptx 経済統計学 ( 補足 ) 最小二乗法について 担当 : 小塚匡文 2015 年 11 月 19 日 ( 改訂版 ) 神戸大学経済学部 2015 年度後期開講授業 補足 : 最小二乗法 ( 単回帰分析 ) 1.( 単純 ) 回帰分析とは? 標本サイズTの2 変数 ( ここではXとY) のデータが存在 YをXで説明する回帰方程式を推定するための方法 Y: 被説明変数 ( または従属変数 ) X: 説明変数

More information

<4D F736F F D208EC08CB18C7689E68A E F AA957A82C682948C9F92E82E646F63>

<4D F736F F D208EC08CB18C7689E68A E F AA957A82C682948C9F92E82E646F63> 第 7 回 t 分布と t 検定 実験計画学 A.t 分布 ( 小標本に関する平均の推定と検定 ) 前々回と前回の授業では, 標本が十分に大きいあるいは母分散が既知であることを条件に正規分布を用いて推定 検定した. しかし, 母集団が正規分布し, 標本が小さい場合には, 標本分散から母分散を推定するときの不確実さを加味したt 分布を用いて推定 検定しなければならない. t 分布は標本分散の自由度 f(

More information

Microsoft PowerPoint - H17-5時限(パターン認識).ppt

Microsoft PowerPoint - H17-5時限(パターン認識).ppt パターン認識早稲田大学講義 平成 7 年度 独 産業技術総合研究所栗田多喜夫 赤穂昭太郎 統計的特徴抽出 パターン認識過程 特徴抽出 認識対象から何らかの特徴量を計測 抽出 する必要がある 認識に有効な情報 特徴 を抽出し 次元を縮小した効率の良い空間を構成する過程 文字認識 : スキャナ等で取り込んだ画像から文字の識別に必要な本質的な特徴のみを抽出 例 文字線の傾き 曲率 面積など 識別 与えられた未知の対象を

More information

生命情報学

生命情報学 生命情報学 5 隠れマルコフモデル 阿久津達也 京都大学化学研究所 バイオインフォマティクスセンター 内容 配列モチーフ 最尤推定 ベイズ推定 M 推定 隠れマルコフモデル HMM Verアルゴリズム EMアルゴリズム Baum-Welchアルゴリズム 前向きアルゴリズム 後向きアルゴリズム プロファイル HMM 配列モチーフ モチーフ発見 配列モチーフ : 同じ機能を持つ遺伝子配列などに見られる共通の文字列パターン

More information

スライド 1

スライド 1 データ解析特論重回帰分析編 2017 年 7 月 10 日 ( 月 )~ 情報エレクトロニクスコース横田孝義 1 ( 単 ) 回帰分析 単回帰分析では一つの従属変数 ( 目的変数 ) を 一つの独立変数 ( 説明変数 ) で予測する事を考える 具体的には y = a + bx という回帰直線 ( モデル ) でデータを代表させる このためにデータからこの回帰直線の切片 (a) と傾き (b) を最小

More information

PowerPoint プレゼンテーション

PowerPoint プレゼンテーション 1/X Chapter 9: Linear correlation Cohen, B. H. (2007). In B. H. Cohen (Ed.), Explaining Psychological Statistics (3rd ed.) (pp. 255-285). NJ: Wiley. 概要 2/X 相関係数とは何か 相関係数の数式 検定 注意点 フィッシャーのZ 変換 信頼区間 相関係数の差の検定

More information

14 化学実験法 II( 吉村 ( 洋 mmol/l の半分だったから さんの測定値は くんの測定値の 4 倍の重みがあり 推定値 としては 0.68 mmol/l その標準偏差は mmol/l 程度ということになる 測定値を 特徴づけるパラメータ t を推定するこの手

14 化学実験法 II( 吉村 ( 洋 mmol/l の半分だったから さんの測定値は くんの測定値の 4 倍の重みがあり 推定値 としては 0.68 mmol/l その標準偏差は mmol/l 程度ということになる 測定値を 特徴づけるパラメータ t を推定するこの手 14 化学実験法 II( 吉村 ( 洋 014.6.1. 最小 乗法のはなし 014.6.1. 内容 最小 乗法のはなし...1 最小 乗法の考え方...1 最小 乗法によるパラメータの決定... パラメータの信頼区間...3 重みの異なるデータの取扱い...4 相関係数 決定係数 ( 最小 乗法を語るもう一つの立場...5 実験条件の誤差の影響...5 問題...6 最小 乗法の考え方 飲料水中のカルシウム濃度を

More information

カイ二乗フィット検定、パラメータの誤差

カイ二乗フィット検定、パラメータの誤差 統計的データ解析 008 008.. 林田清 ( 大阪大学大学院理学研究科 ) 問題 C (, ) ( x xˆ) ( y yˆ) σ x πσ σ y y Pabx (, ;,,, ) ˆ y σx σ y = dx exp exp πσx ただし xy ˆ ˆ はyˆ = axˆ+ bであらわされる直線モデル上の点 ( ˆ) ( ˆ ) ( ) x x y ax b y ax b Pabx (,

More information

解析センターを知っていただく キャンペーン

解析センターを知っていただく キャンペーン 005..5 SAS 問題設定 目的 PKパラメータ (AUC,Cmax,Tmaxなど) の推定 PKパラメータの群間比較 PKパラメータのバラツキの評価! データの特徴 非反復測定値 個体につき 個の測定値しか得られない plasma concentration 非反復測定値のイメージ図 測定時点間で個体の対応がない 着目する状況 plasma concentration 経時反復測定値のイメージ図

More information

A Constructive Approach to Gene Expression Dynamics

A Constructive Approach to Gene Expression Dynamics 配列アラインメント (I): 大域アラインメント http://www.lab.tohou.ac.jp/sci/is/nacher/eaching/bioinformatics/ week.pdf 08/4/0 08/4/0 基本的な考え方 バイオインフォマティクスにはさまざまなアルゴリズムがありますが その多くにおいて基本的な考え方は 配列が類似していれば 機能も類似している というものである 例えば

More information

Agilent 1色法 2条件比較 繰り返し実験なし

Agilent 1色法 2条件比較 繰り返し実験なし GeneSpring GX11.0.2 ビギナーズガイド Agilent 1 色法 2 条件の比較繰り返し実験あり 適用 薬剤非投与と投与の解析 Wild type と Knock out の解析 正常細胞と病態細胞の解析 など ビギナーズガイドは 様々なマイクロアレイの実験デザインがあるなかで 実験デザインの種類ごとに適切なデータ解析の流れを 実例とともに紹介するガイドブックです ご自分の実験デザインに適合したガイドをお使いください

More information

情報工学概論

情報工学概論 確率と統計 中山クラス 第 11 週 0 本日の内容 第 3 回レポート解説 第 5 章 5.6 独立性の検定 ( カイ二乗検定 ) 5.7 サンプルサイズの検定結果への影響練習問題 (4),(5) 第 4 回レポート課題の説明 1 演習問題 ( 前回 ) の解説 勉強時間と定期試験の得点の関係を無相関検定により調べる. データ入力 > aa

More information

ChIP-seq

ChIP-seq ChIP-seq 1 ChIP-seq 解析原理 ChIP サンプルのフラグメントでは タンパク質結合部位付近にそれぞれ Forward と Reverse のリードがマップされることが予想される ChIP のサンプルでは Forward と Reverse のリードを 3 側へシフトさせ ChIP のピークを算出する コントロールサンプルでは ChIP のサンプルとは異なり 特定の場所に多くマップされないため

More information

RSS Higher Certificate in Statistics, Specimen A Module 3: Basic Statistical Methods Solutions Question 1 (i) 帰無仮説 : 200C と 250C において鉄鋼の破壊応力の母平均には違いはな

RSS Higher Certificate in Statistics, Specimen A Module 3: Basic Statistical Methods Solutions Question 1 (i) 帰無仮説 : 200C と 250C において鉄鋼の破壊応力の母平均には違いはな RSS Higher Certiicate in Statistics, Specimen A Module 3: Basic Statistical Methods Solutions Question (i) 帰無仮説 : 00C と 50C において鉄鋼の破壊応力の母平均には違いはない. 対立仮説 : 破壊応力の母平均には違いがあり, 50C の方ときの方が大きい. n 8, n 7, x 59.6,

More information

統計学 - 社会統計の基礎 - 正規分布 標準正規分布累積分布関数の逆関数 t 分布正規分布に従うサンプルの平均の信頼区間 担当 : 岸 康人 資料ページ :

統計学 - 社会統計の基礎 - 正規分布 標準正規分布累積分布関数の逆関数 t 分布正規分布に従うサンプルの平均の信頼区間 担当 : 岸 康人 資料ページ : 統計学 - 社会統計の基礎 - 正規分布 標準正規分布累積分布関数の逆関数 t 分布正規分布に従うサンプルの平均の信頼区間 担当 : 岸 康人 資料ページ : https://goo.gl/qw1djw 正規分布 ( 復習 ) 正規分布 (Normal Distribution)N (μ, σ 2 ) 別名 : ガウス分布 (Gaussian Distribution) 密度関数 Excel:= NORM.DIST

More information

0 部分的最小二乗回帰 Partial Least Squares Regression PLS 明治大学理 学部応用化学科 データ化学 学研究室 弘昌

0 部分的最小二乗回帰 Partial Least Squares Regression PLS 明治大学理 学部応用化学科 データ化学 学研究室 弘昌 0 部分的最小二乗回帰 Parial Leas Squares Regressio PLS 明治大学理 学部応用化学科 データ化学 学研究室 弘昌 部分的最小二乗回帰 (PLS) とは? 部分的最小二乗回帰 (Parial Leas Squares Regressio, PLS) 線形の回帰分析手法の つ 説明変数 ( 記述 ) の数がサンプルの数より多くても計算可能 回帰式を作るときにノイズの影響を受けにくい

More information

プロジェクト概要 ー ヒト全遺伝子 データベース(H-InvDB)の概要と進展

プロジェクト概要 ー ヒト全遺伝子 データベース(H-InvDB)の概要と進展 個別要素技術 2 疾患との関連情報の抽出 予測のための 技術開発 平成 20 年 11 月 18 日産業技術総合研究所バイオメディシナル情報研究センター分子システム情報統合チーム 今西規 1 個別要素技術 2 課題一覧 1 大量文献からの自動知識抽出と文献からの既知疾患原因遺伝子情報の網羅的収集 2 疾患遺伝子情報整備と新規疾患遺伝子候補の予測 3 遺伝子多型情報整備 1 大量文献からの自動知識抽出と

More information

Microsoft Word - å“Ÿåłžå¸°173.docx

Microsoft Word - å“Ÿåłžå¸°173.docx 回帰分析 ( その 3) 経済情報処理 価格弾力性の推定ある商品について その購入量を w 単価を p とし それぞれの変化量を w p で表 w w すことにする この時 この商品の価格弾力性 は により定義される これ p p は p が 1 パーセント変化した場合に w が何パーセント変化するかを示したものである ここで p を 0 に近づけていった極限を考えると d ln w 1 dw dw

More information

様々なミクロ計量モデル†

様々なミクロ計量モデル† 担当 : 長倉大輔 ( ながくらだいすけ ) この資料は私の講義において使用するために作成した資料です WEB ページ上で公開しており 自由に参照して頂いて構いません ただし 内容について 一応検証してありますが もし間違いがあった場合でもそれによって生じるいかなる損害 不利益について責任を負いかねますのでご了承ください 間違いは発見次第 継続的に直していますが まだ存在する可能性があります 1 カウントデータモデル

More information

JMP による 2 群間の比較 SAS Institute Japan 株式会社 JMP ジャパン事業部 2008 年 3 月 JMP で t 検定や Wilcoxon 検定はどのメニューで実行できるのか または検定を行う際の前提条件の評価 ( 正規性 等分散性 ) はどのメニューで実行できるのかと

JMP による 2 群間の比較 SAS Institute Japan 株式会社 JMP ジャパン事業部 2008 年 3 月 JMP で t 検定や Wilcoxon 検定はどのメニューで実行できるのか または検定を行う際の前提条件の評価 ( 正規性 等分散性 ) はどのメニューで実行できるのかと JMP による 2 群間の比較 SAS Institute Japan 株式会社 JMP ジャパン事業部 2008 年 3 月 JMP で t 検定や Wilcoxon 検定はどのメニューで実行できるのか または検定を行う際の前提条件の評価 ( 正規性 等分散性 ) はどのメニューで実行できるのかというお問い合わせがよくあります そこで本文書では これらについて の回答を 例題を用いて説明します 1.

More information

大学院博士課程共通科目ベーシックプログラム

大学院博士課程共通科目ベーシックプログラム 平成 30 年度医科学専攻共通科目 共通基礎科目実習 ( 旧コア実習 ) 概要 1 ). 大学院生が所属する教育研究分野における実習により単位認定可能な実習項目 ( コア実習項目 ) 1. 組換え DNA 技術実習 2. 生体物質の調製と解析実習 3. 薬理学実習 4. ウイルス学実習 5. 免疫学実習 6. 顕微鏡試料作成法実習 7. ゲノム医学実習 8. 共焦点レーザー顕微鏡実習 2 ). 実習を担当する教育研究分野においてのみ単位認定可能な実習項目

More information

Excelによる統計分析検定_知識編_小塚明_5_9章.indd

Excelによる統計分析検定_知識編_小塚明_5_9章.indd 第7章57766 検定と推定 サンプリングによって得られた標本から, 母集団の統計的性質に対して推測を行うことを統計的推測といいます 本章では, 推測統計の根幹をなす仮説検定と推定の基本的な考え方について説明します 前章までの知識を用いて, 具体的な分析を行います 本章以降の知識は操作編での操作に直接関連していますので, 少し聞きなれない言葉ですが, 帰無仮説 有意水準 棄却域 などの意味を理解して,

More information

講義「○○○○」

講義「○○○○」 講義 信頼度の推定と立証 内容. 点推定と区間推定. 指数分布の点推定 区間推定 3. 指数分布 正規分布の信頼度推定 担当 : 倉敷哲生 ( ビジネスエンジニアリング専攻 ) 統計的推測 標本から得られる情報を基に 母集団に関する結論の導出が目的 測定値 x x x 3 : x 母集団 (populaio) 母集団の特性値 統計的推測 標本 (sample) 標本の特性値 分布のパラメータ ( 母数

More information

1.民営化

1.民営化 参考資料 最小二乗法 数学的性質 経済統計分析 3 年度秋学期 回帰分析と最小二乗法 被説明変数 の動きを説明変数 の動きで説明 = 回帰分析 説明変数がつ 単回帰 説明変数がつ以上 重回帰 被説明変数 従属変数 係数 定数項傾き 説明変数 独立変数 残差... で説明できる部分 説明できない部分 説明できない部分が小さくなるように回帰式の係数 を推定する有力な方法 = 最小二乗法 最小二乗法による回帰の考え方

More information

自動車感性評価学 1. 二項検定 内容 2 3. 質的データの解析方法 1 ( 名義尺度 ) 2.χ 2 検定 タイプ 1. 二項検定 官能検査における分類データの解析法 識別できるかを調べる 嗜好に差があるかを調べる 2 点比較法 2 点識別法 2 点嗜好法 3 点比較法 3 点識別法 3 点嗜好

自動車感性評価学 1. 二項検定 内容 2 3. 質的データの解析方法 1 ( 名義尺度 ) 2.χ 2 検定 タイプ 1. 二項検定 官能検査における分類データの解析法 識別できるかを調べる 嗜好に差があるかを調べる 2 点比較法 2 点識別法 2 点嗜好法 3 点比較法 3 点識別法 3 点嗜好 . 内容 3. 質的データの解析方法 ( 名義尺度 ).χ 検定 タイプ. 官能検査における分類データの解析法 識別できるかを調べる 嗜好に差があるかを調べる 点比較法 点識別法 点嗜好法 3 点比較法 3 点識別法 3 点嗜好法 : 点比較法 : 点識別法 配偶法 配偶法 ( 官能評価の基礎と応用 ) 3 A か B かの判定において 回の判定でAが選ばれる回数 kは p の二項分布に従う H :

More information

21世紀型パラメータ設計―標準SN比の活用―

21世紀型パラメータ設計―標準SN比の活用― 世紀のパラメータ設計ースイッチ機構のモデル化ー 接点 ゴム 変位 スイッチ動作前 スイッチ動作後 反転ばねでスイッチの クリック感 を実現した構造 世紀型パラメータ設計 標準 SN 比の活用 0 世紀の品質工学においては,SN 比の中に, 信号因子の乱れである 次誤差 (S res ) もノイズの効果の中に加えて評価してきた.のパラメータ設計の例では, 比例関係が理想であるから, 次誤差も誤差の仲間と考えてもよかったが,

More information

青焼 1章[15-52].indd

青焼 1章[15-52].indd 1 第 1 章統計の基礎知識 1 1 なぜ統計解析が必要なのか? 人間は自分自身の経験にもとづいて 感覚的にものごとを判断しがちである 例えばある疾患に対する標準治療薬の有効率が 50% であったとする そこに新薬が登場し ある医師がその新薬を 5 人の患者に使ったところ 4 人が有効と判定されたとしたら 多くの医師はこれまでの標準治療薬よりも新薬のほうが有効性が高そうだと感じることだろう しかし

More information

CBRC CBRC DNA

CBRC CBRC DNA 2001 3 2001 4 2004 4 CBRC CBRC DNA 生命現象のシステム的理解のために 生命の単位 細胞は非常に複雑 システム バイオロジー 生命現象を記述するモデル 細胞はいつ なにをするのか 生命現象は遺伝子が制御している 遺伝子ネットワーク 遺伝子発現を記述するモデル 構造解明 医療技術 創薬 シミュレーション 2001 2002 2003 2004 2005 1. 2001-2005

More information

Microsoft PowerPoint - 統計科学研究所_R_重回帰分析_変数選択_2.ppt

Microsoft PowerPoint - 統計科学研究所_R_重回帰分析_変数選択_2.ppt 重回帰分析 残差分析 変数選択 1 内容 重回帰分析 残差分析 歯の咬耗度データの分析 R で変数選択 ~ step 関数 ~ 2 重回帰分析と単回帰分析 体重を予測する問題 分析 1 身長 のみから体重を予測 分析 2 身長 と ウエスト の両方を用いて体重を予測 分析 1 と比べて大きな改善 体重 に関する推測では 身長 だけでは不十分 重回帰分析における問題 ~ モデルの構築 ~ 適切なモデルで分析しているか?

More information

< F55542D303996E291E894AD8CA9365F834E E95AA90CD836D815B>

< F55542D303996E291E894AD8CA9365F834E E95AA90CD836D815B> クラスター分析に関するノート 情報学部堀田敬介 2004/7/32008/7/ 改訂, 2009/0/3 改訂 ) 類似度の測定 まずはじめに, 各データ間の距離を測るが, 尺度毎に様々な方法が提案されている. 尺度に対応した類似度測定の距離を示す.. 間隔尺度による類似度の測定 n 個の対象があり, 各対象は間隔尺度で m 個の属性 変量 ) が測定されているとする. このとき対象 と q を x

More information

ゲノム情報解析基礎 ~ Rで塩基配列解析 ~

ゲノム情報解析基礎 ~ Rで塩基配列解析 ~ ネット接続できないヒトも ダブルクリックでローカルに r_seq.html を起動可能です 実習は デスクトップ上にある hoge フォルダの中身が以下の状態を想定して行います (R で ) 塩基配列解析の利用法 : GC 含量計算から発現変動解析まで東京大学 大学院農学生命科学研究科アグリバイオインフォマティクス教育研究プログラム門田幸二 ( かどたこうじ ) kadota@iu.a.u-tokyo.ac.jp

More information

分子進化モデルと最尤系統推定法 東北大 院 生命科学田邉晶史

分子進化モデルと最尤系統推定法 東北大 院 生命科学田邉晶史 分子進化モデルと最尤系統推定法 東北大 院 生命科学田邉晶史 まずはじめに, 最尤系統推定とは 多重モデル選択 である. 最尤系統推定の手順 1. 樹形を固定しての 2. 分子進化モデルの選択 1. 分子進化モデルを固定しての 2. 系統モデル ( 樹形 ) の選択 = 多重モデル選択 分子進化モデル超入門 とりあえず塩基置換モデルで 塩基置換モデルの 3 大要素 塩基置換確率行列 (nucleotide

More information

日心TWS

日心TWS 2017.09.22 (15:40~17:10) 日本心理学会第 81 回大会 TWS ベイジアンデータ解析入門 回帰分析を例に ベイジアンデータ解析 を体験してみる 広島大学大学院教育学研究科平川真 ベイジアン分析のステップ (p.24) 1) データの特定 2) モデルの定義 ( 解釈可能な ) モデルの作成 3) パラメタの事前分布の設定 4) ベイズ推論を用いて パラメタの値に確信度を再配分ベイズ推定

More information

Untitled

Untitled 上原記念生命科学財団研究報告集, 25 (2011) 86. 線虫 C. elegans およびマウスをモデル動物とした体細胞レベルで生じる性差の解析 井上英樹 Key words: 性差, ストレス応答,DMRT 立命館大学生命科学部生命医科学科 緒言性差は雌雄の性に分かれた動物にみられ, 生殖能力の違いだけでなく形態, 行動などそれぞれの性の間でみられる様々な差異と定義される. 性差は, 形態や行動だけでなく疾患の発症リスクの男女差といった生理的なレベルの差異も含まれる.

More information

Microsoft PowerPoint - statistics pptx

Microsoft PowerPoint - statistics pptx 統計学 第 17 回 講義 母平均の区間推定 Part- 016 年 6 14 ( )3 限 担当教員 : 唐渡 広志 ( からと こうじ ) 研究室 : 経済学研究棟 4 階 43 号室 email: kkarato@eco.u toyama.ac.jp website: http://www3.u toyama.ac.jp/kkarato/ 1 講義の目的 標本平均は正規分布に従うという性質を

More information

Python-statistics5 Python で統計学を学ぶ (5) この内容は山田 杉澤 村井 (2008) R によるやさしい統計学 (

Python-statistics5   Python で統計学を学ぶ (5) この内容は山田 杉澤 村井 (2008) R によるやさしい統計学 ( http://localhost:8888/notebooks/... Python で統計学を学ぶ (5) この内容は山田 杉澤 村井 (2008) R によるやさしい統計学 (http://shop.ohmsha.co.jp/shop /shopdetail.html?brandcode=000000001781&search=978-4-274-06710-5&sort=) を参考にしています

More information

Microsoft PowerPoint - Econometrics pptx

Microsoft PowerPoint - Econometrics pptx 計量経済学講義 第 4 回回帰モデルの診断と選択 Part 07 年 ( ) 限 担当教員 : 唐渡 広志 研究室 : 経済学研究棟 4 階 43 号室 emal: kkarato@eco.u-toyama.ac.p webste: http://www3.u-toyama.ac.p/kkarato/ 講義の目的 誤差項の分散が不均 である場合や, 系列相関を持つ場合についての検定 法と修正 法を学びます

More information

nagasaki_GMT2015_key09

nagasaki_GMT2015_key09 Workflow Variant Calling 03 長崎は遺伝研 大量遺伝情報研究室の所属です 国立遺伝学研究所 生命情報研究センター 3F 2F 欧州EBIと米国NCBIと密接に協力しながら DDBJ/EMBL/GenBank国際塩基配列データ ベースを構築しています 私たちは 塩基配列登録を支援するシステムづくり 登録データを活用するシステムづくり 高速シーケンス配列の情報解析 を行なっています

More information

リアルタイムPCRの基礎知識

リアルタイムPCRの基礎知識 1. リアルタイム PCR の用途リアルタイム PCR 法は 遺伝子発現解析の他に SNPs タイピング 遺伝子組み換え食品の検査 ウイルスや病原菌の検出 導入遺伝子のコピー数の解析などさまざまな用途に応用されている 遺伝子発現解析のような定量解析は まさにリアルタイム PCR の得意とするところであるが プラス / マイナス判定だけの定性的な解析にもその威力を発揮する これは リアルタイム PCR

More information

<4D F736F F D2090B695A8939D8C768A E F AA957A82C682948C9F92E8>

<4D F736F F D2090B695A8939D8C768A E F AA957A82C682948C9F92E8> 第 8 回 t 分布と t 検定 生物統計学 A.t 分布 ( 小標本に関する平均の推定と検定 ) 前々回と前回の授業では, 標本が十分に大きいあるいは母分散が既知であることを条件に正規分布を用いて推定 検定した. しかし, 母集団が正規分布し, 標本が小さい場合には, 標本分散から母分散を推定するときの不確実さを加味したt 分布を用いて推定 検定しなければならない. t 分布は標本分散の自由度 f(

More information

13章 回帰分析

13章 回帰分析 単回帰分析 つ以上の変数についての関係を見る つの 目的 被説明 変数を その他の 説明 変数を使って 予測しようというものである 因果関係とは限らない ここで勉強すること 最小 乗法と回帰直線 決定係数とは何か? 最小 乗法と回帰直線 これまで 変数の間の関係の深さについて考えてきた 相関係数 ここでは 変数に役割を与え 一方の 説明 変数を用いて他方の 目的 被説明 変数を説明することを考える

More information

Microsoft PowerPoint - 三次元座標測定 ppt

Microsoft PowerPoint - 三次元座標測定 ppt 冗長座標測定機 ()( 三次元座標計測 ( 第 9 回 ) 5 年度大学院講義 6 年 月 7 日 冗長性を持つ 次元座標測定機 次元 辺測量 : 冗長性を出すために つのレーザトラッカを配置し, キャッツアイまでの距離から座標を測定する つのカメラ ( 次元的なカメラ ) とレーザスキャナ : つの角度測定システムによる座標測定 つの回転関節による 次元 自由度多関節機構 高増潔東京大学工学系研究科精密機械工学専攻

More information

Microsoft PowerPoint - statistics pptx

Microsoft PowerPoint - statistics pptx 統計学 第 回 講義 仮説検定 Part-3 06 年 6 8 ( )3 限 担当教員 唐渡 広志 ( からと こうじ ) 研究室 経済学研究棟 4 階 43 号室 email kkarato@eco.u-toyama.ac.j webite htt://www3.u-toyama.ac.j/kkarato/ 講義の目的 つの 集団の平均 ( 率 ) に差があるかどうかを検定する 法を理解します keyword:

More information

機能ゲノム学(第6回)

機能ゲノム学(第6回) バイオインフォマティクス次世代シーケンサー (NGS) 編 東京大学大学院農学生命科学研究科アグリバイオインフォマティクス教育研究ユニット門田幸二 ( かどたこうじ ) http://www.iu.a.u-tokyo.ac.jp/~kadota/ kadota@iu.a.u-tokyo.ac.jp 1 バイオインフォマティクス人材育成講座 スタンダードコース 2 自己紹介 1995 年 3 月 高知工業高等専門学校

More information

SAP11_03

SAP11_03 第 3 回 音声音響信号処理 ( 線形予測分析と自己回帰モデル ) 亀岡弘和 東京大学大学院情報理工学系研究科日本電信電話株式会社 NTT コミュニケーション科学基礎研究所 講義内容 ( キーワード ) 信号処理 符号化 標準化の実用システム例の紹介情報通信の基本 ( 誤り検出 訂正符号 変調 IP) 符号化技術の基本 ( 量子化 予測 変換 圧縮 ) 音声分析 合成 認識 強調 音楽信号処理統計的信号処理の基礎

More information

配付資料 自習用テキスト 解析サンプル配布ページ 2

配付資料 自習用テキスト 解析サンプル配布ページ   2 分子系統樹推定法 理論と応用 2009年11月6日 筑波大 院 生命環境 田辺晶史 配付資料 自習用テキスト 解析サンプル配布ページ http://www.fifthdimension.jp/documents/molphytextbook/ 2 参考書籍 分子系統学 3 参考書籍 統計的モデル選択とベイジアンMCMC 4 祖先的な形質 問題 OTU左の の色は表現型形質の状態を表している 赤と青

More information

Medical3

Medical3 1.4.1 クロス集計表の作成 -l m 分割表 - 3つ以上のカテゴリを含む変数を用いて l mのクロス集計表による分析を行います この例では race( 人種 ) によってlow( 低体重出生 ) に差が認められるかどうかを分析します 人種には3つのカテゴリ 低体重出生には2つのカテゴリが含まれています 2つの変数はともにカテゴリ変数であるため クロス集計表によって分析します 1. 分析メニュー

More information

Microsoft Word doc

Microsoft Word doc . 正規線形モデルのベイズ推定翠川 大竹距離減衰式 (PGA(Midorikawa, S., and Ohtake, Y. (, Attenuation relationships of peak ground acceleration and velocity considering attenuation characteristics for shallow and deeper earthquakes,

More information

我々のビッグデータ処理の新しい産業応用 広告やゲーム レコメンだけではない 個別化医療 ( ライフサイエンス ): 精神神経系疾患 ( うつ病 総合失調症 ) の網羅的ゲノム診断法の開発 全人類のゲノム解析と個別化医療実現を目標 ゲノム育種 ( グリーンサイエンス ): ブルーベリー オオムギ イネ

我々のビッグデータ処理の新しい産業応用 広告やゲーム レコメンだけではない 個別化医療 ( ライフサイエンス ): 精神神経系疾患 ( うつ病 総合失調症 ) の網羅的ゲノム診断法の開発 全人類のゲノム解析と個別化医療実現を目標 ゲノム育種 ( グリーンサイエンス ): ブルーベリー オオムギ イネ モンテカルロ法による分子進化の分岐図作成 のための最適化法 石井一夫 1 松田朋子 2 古崎利紀 1 後藤哲雄 2 1 東京農工大学 2 茨城大学 2013 9 9 2013 1 我々のビッグデータ処理の新しい産業応用 広告やゲーム レコメンだけではない 個別化医療 ( ライフサイエンス ): 精神神経系疾患 ( うつ病 総合失調症 ) の網羅的ゲノム診断法の開発 全人類のゲノム解析と個別化医療実現を目標

More information

第7章

第7章 5. 推定と検定母集団分布の母数を推定する方法と仮説検定の方法を解説する まず 母数を一つの値で推定する点推定について 推定精度としての標準誤差を説明する また 母数が区間に存在することを推定する信頼区間も取り扱う 後半は統計的仮説検定について述べる 検定法の基本的な考え方と正規分布および二項確率についての検定法を解説する 5.1. 点推定先に述べた統計量は対応する母数の推定値である このように母数を一つの値およびベクトルで推定する場合を点推定

More information

解析法

解析法 1.Ct 値の算出方法 Ct 値の算出方法には 閾値と増幅曲線の交点を Ct 値とする方法 (Crossing Point 法 ) の他に 増幅曲線の 2 次導関数を求めてそれが最大となる点を Ct 値とする方法がある (2nd Derivative Maximum 法 ) 前者では 閾値を指数関数的増幅域の任意の位置に設定して解析するが その位置により Ct 値が変化するので実験間の誤差が大きくなりやすい

More information

Microsoft Word - 補論3.2

Microsoft Word - 補論3.2 補論 3. 多変量 GARC モデル 07//6 新谷元嗣 藪友良 対数尤度関数 3 章 7 節では 変量の対数尤度を求めた ここでは多変量の場合 とくに 変量について対数尤度を求める 誤差項 は平均 0 で 次元の正規分布に従うとする 単純化のため 分散と共分散は時間を通じて一定としよう ( この仮定は後で変更される ) したがって ij から添え字 を除くことができる このとき と の尤度関数は

More information

数値計算法

数値計算法 数値計算法 008 4/3 林田清 ( 大阪大学大学院理学研究科 ) 実験データの統計処理その 誤差について 母集団と標本 平均値と標準偏差 誤差伝播 最尤法 平均値につく誤差 誤差 (Error): 真の値からのずれ 測定誤差 物差しが曲がっていた 測定する対象が室温が低いため縮んでいた g の単位までしかデジタル表示されない計りで g 以下 計りの目盛りを読み取る角度によって値が異なる 統計誤差

More information

次元圧縮法を導入したクエリに基づくバイクラスタリング 情報推薦への応用 武内充三浦功輝岡田吉史 ( 室蘭工業大学 ) 概要以前, 我々はクエリに基づくバイクラスタリングを用いた情報推薦手法を提案した. 本研究では, 新たに推薦スコアが非常に良く似たユーザまたはアイテムを融合する次元圧縮法を導入した. 実験として, 縮減前と縮減後のデータセットのサイズとバイクラスタ計算時間の比較を行う. キーワード

More information

■リアルタイムPCR実践編

■リアルタイムPCR実践編 リアルタイム PCR 実践編 - SYBR Green I によるリアルタイム RT-PCR - 1. プライマー設計 (1)Perfect Real Time サポートシステムを利用し 設計済みのものを購入する ヒト マウス ラットの RefSeq 配列の大部分については Perfect Real Time サポートシステムが利用できます 目的の遺伝子を検索して購入してください (2) カスタム設計サービスを利用する

More information

ダンゴムシの 交替性転向反応に 関する研究 3A15 今野直輝

ダンゴムシの 交替性転向反応に 関する研究 3A15 今野直輝 ダンゴムシの 交替性転向反応に 関する研究 3A15 今野直輝 1. 研究の動機 ダンゴムシには 右に曲がった後は左に 左に曲がった後は右に曲がる という交替性転向反応という習性がある 数多くの生物において この習性は見受けられるのだが なかでもダンゴムシやその仲間のワラジムシは その行動が特に顕著であるとして有名である そのため図 1のような道をダンゴムシに歩かせると 前の突き当りでどちらの方向に曲がったかを見ることによって

More information

0 スペクトル 時系列データの前処理 法 平滑化 ( スムージング ) と微分 明治大学理 学部応用化学科 データ化学 学研究室 弘昌

0 スペクトル 時系列データの前処理 法 平滑化 ( スムージング ) と微分 明治大学理 学部応用化学科 データ化学 学研究室 弘昌 0 スペクトル 時系列データの前処理 法 平滑化 ( スムージング ) と微分 明治大学理 学部応用化学科 データ化学 学研究室 弘昌 スペクトルデータの特徴 1 波 ( 波数 ) が近いと 吸光度 ( 強度 ) の値も似ている ノイズが含まれる 吸光度 ( 強度 ) の極大値 ( ピーク ) 以外のデータも重要 時系列データの特徴 2 時刻が近いと プロセス変数の値も似ている ノイズが含まれる プロセス変数の極大値

More information

ボルツマンマシンの高速化

ボルツマンマシンの高速化 1. はじめに ボルツマン学習と平均場近似 山梨大学工学部宗久研究室 G04MK016 鳥居圭太 ボルツマンマシンは学習可能な相互結合型ネットワー クの代表的なものである. ボルツマンマシンには, 学習のための統計平均を取る必要があり, 結果を求めるまでに長い時間がかかってしまうという欠点がある. そこで, 学習の高速化のために, 統計を取る2つのステップについて, 以下のことを行う. まず1つ目のステップでは,

More information

れており 世界的にも重要課題とされています それらの中で 非常に高い完全長 cdna のカバー率を誇るマウスエンサイクロペディア計画は極めて重要です ゲノム科学総合研究センター (GSC) 遺伝子構造 機能研究グループでは これまでマウス完全長 cdna100 万クローン以上の末端塩基配列データを

れており 世界的にも重要課題とされています それらの中で 非常に高い完全長 cdna のカバー率を誇るマウスエンサイクロペディア計画は極めて重要です ゲノム科学総合研究センター (GSC) 遺伝子構造 機能研究グループでは これまでマウス完全長 cdna100 万クローン以上の末端塩基配列データを 報道発表資料 2002 年 12 月 5 日 独立行政法人理化学研究所 遺伝子の機能解析を飛躍的に進める世界最大規模の遺伝子情報を公開 - 遺伝子として認知されていなかった部分が転写されていることを実証 - 理化学研究所 ( 小林俊一理事長 ) は マウスの完全長 cdna 160,770 クローンの塩基配列および機能アノテーション ( 機能注釈 ) 情報を公開します これは 現在までに人類が収得している遺伝子の約

More information

不偏推定量

不偏推定量 不偏推定量 情報科学の補足資料 018 年 6 月 7 日藤本祥二 統計的推定 (statistical estimatio) 確率分布が理論的に分かっている標本統計量を利用する 確率分布の期待値の値をそのまま推定値とするのが点推定 ( 信頼度 0%) 点推定に ± で幅を持たせて信頼度を上げたものが区間推定 持たせた幅のことを誤差 (error) と呼ぶ 信頼度 (cofidece level)

More information

スライド 1

スライド 1 本資料について 本資料は下記論文を基にして作成されたものです. 文書の内容の正確さは保障できないため, 正確な知識を求める方は原文を参照してください. 著者 : 伊藤誠吾吉田廣志河口信夫 論文名 : 無線 LANを用いた広域位置情報システム構築に関する検討 出展 : 情報処理学会論文誌 Vol.47 No.42 発表日 :2005 年 12 月 著者 : 伊藤誠悟河口信夫 論文名 : アクセスポイントの選択を考慮したベイズ推定による無線

More information

Microsoft PowerPoint - A1.ppt [互換モード]

Microsoft PowerPoint - A1.ppt [互換モード] 011/4/13 付録 A1( 推測統計学の基礎 ) 付録 A1 推測統計学の基礎 1. 統計学. カイ 乗検定 3. 分散分析 4. 相関係数 5. 多変量解析 1. 統計学 3 統計ソフト 4 記述統計学 推測統計学 検定 ノンパラメトリック検定名義 / 分類尺度順序 / 順位尺度パラメトリック検定間隔 / 距離尺度比例 / 比率尺度 SAS SPSS R R-Tps (http://cse.aro.affrc.go.jp/takezawa/r-tps/r.html)

More information

Microsoft Word - Stattext13.doc

Microsoft Word - Stattext13.doc 3 章対応のある 群間の量的データの検定 3. 検定手順 この章では対応がある場合の量的データの検定方法について学びます この場合も図 3. のように最初に正規に従うかどうかを調べます 正規性が認められた場合は対応がある場合の t 検定 正規性が認められない場合はウィルコクソン (Wlcoxo) の符号付き順位和検定を行ないます 章で述べた検定方法と似ていますが ここでは対応のあるデータ同士を引き算した値を用いて判断します

More information

データ解析

データ解析 データ解析 ( 前期 ) 最小二乗法 向井厚志 005 年度テキスト 0 データ解析 - 最小二乗法 - 目次 第 回 Σ の計算 第 回ヒストグラム 第 3 回平均と標準偏差 6 第 回誤差の伝播 8 第 5 回正規分布 0 第 6 回最尤性原理 第 7 回正規分布の 分布の幅 第 8 回最小二乗法 6 第 9 回最小二乗法の練習 8 第 0 回最小二乗法の推定誤差 0 第 回推定誤差の計算 第

More information

Microsoft PowerPoint - stat-2014-[9] pptx

Microsoft PowerPoint - stat-2014-[9] pptx 統計学 第 17 回 講義 母平均の区間推定 Part-1 014 年 6 17 ( )6-7 限 担当教員 : 唐渡 広志 ( からと こうじ ) 研究室 : 経済学研究棟 4 階 43 号室 email: kkarato@eco.u-toyama.ac.j website: htt://www3.u-toyama.ac.j/kkarato/ 1 講義の目的 標本平均は正規分布に従うという性質を

More information

経済統計分析1 イントロダクション

経済統計分析1 イントロダクション 1 経済統計分析 9 分散分析 今日のおはなし. 検定 statistical test のいろいろ 2 変数の関係を調べる手段のひとつ適合度検定独立性検定分散分析 今日のタネ 吉田耕作.2006. 直感的統計学. 日経 BP. 中村隆英ほか.1984. 統計入門. 東大出版会. 2 仮説検定の手続き 仮説検定のロジック もし帰無仮説が正しければ, 検定統計量が既知の分布に従う 計算された検定統計量の値から,

More information

Probit , Mixed logit

Probit , Mixed logit Probit, Mixed logit 2016/5/16 スタートアップゼミ #5 B4 後藤祥孝 1 0. 目次 Probit モデルについて 1. モデル概要 2. 定式化と理解 3. 推定 Mixed logit モデルについて 4. モデル概要 5. 定式化と理解 6. 推定 2 1.Probit 概要 プロビットモデルとは. 効用関数の誤差項に多変量正規分布を仮定したもの. 誤差項には様々な要因が存在するため,

More information

経験ベイズ検定による 偽陽性制御の方法 大羽成征 (( おおばしげゆき 京大数理デザイン道場 年 0077 月 2244 日 1155:: :: u.ac.jp

経験ベイズ検定による 偽陽性制御の方法 大羽成征 (( おおばしげゆき 京大数理デザイン道場 年 0077 月 2244 日 1155:: :: u.ac.jp 経験ベイズ検定による 偽陽性制御の方法 大羽成征 (( おおばしげゆき )@@ 京大数理デザイン道場 22001144 年 0077 月 2244 日 1155::0055--1155::4400 Email: oba@i.kyoto- u.ac.jp Twi6er: @shigepong 神経細胞間の 解剖学的結合と機能的結合 軸索末端 シナプス小胞 シナプス後細胞 Wikipedia commons

More information

<4D F736F F F696E74202D E838A B83805F D B838093FC96E55F E707074>

<4D F736F F F696E74202D E838A B83805F D B838093FC96E55F E707074> トランスクリプトーム解析 プロテオーム解析入門 産業技術総合研究所生命情報工学研究センター 油谷幸代 内容 背景 トランスクリプトーム解析 プロテオーム解析 背景 (1/6) - セントラルドグマとゲノム情報解析 - セントラルドグマ ゲノム情報解析 DNA Genome mrna Transcriptome Protein Proteome Genome とは? 背景 (2/6) - ゲノムとは?-

More information

1

1 < 参考資料 1> 想定最大規模降雨に関する地域区分について 我が国は 東西南北に広い上 脊梁山脈など地形特性もあり 例えば日本海側 太平洋側等といった地域ごとに気温や降雨などの気象の状況は異なる このため これまで観測された降雨データを用いて想定最大規模降雨を設定するにあたり 降雨の特性の類似する地域に区分することとする 気象現象に関する地域区分については 例えば地域別比流量図 ( クリーガー曲線

More information

ゲノム情報解析基礎 ~ Rで塩基配列解析 ~

ゲノム情報解析基礎 ~ Rで塩基配列解析 ~ トランスクリプトーム解析の現況 ~ マイクロアレイ vs. RNA-seq~ 東京大学 大学院農学生命科学研究科 アグリバイオインフォマティクス教育研究プログラム門田幸二 ( かどたこうじ ) kadota@iu.a.u-tokyo.ac.jp http://www.iu.a.u-tokyo.ac.jp/~kadota/ 1 スライド PDF はウェブから取得可能です 2 ステレオタイプなイメージ

More information

Microsoft PowerPoint - データ解析基礎4.ppt [互換モード]

Microsoft PowerPoint - データ解析基礎4.ppt [互換モード] データ解析基礎. 正規分布と相関係数 keyword 正規分布 正規分布の性質 偏差値 変数間の関係を表す統計量 共分散 相関係数 散布図 正規分布 世の中の多くの現象は, 標本数を大きくしていくと, 正規分布に近づいていくことが知られている. 正規分布 データ解析の基礎となる重要な分布 平均と分散によって特徴づけることができる. 平均値 : 分布の中心を表す値 分散 : 分布のばらつきを表す値 正規分布

More information

したがって このモデルではの長さをもつ潜在履歴 latent history が存在し 同様に と指標化して扱うことができる 以下では 潜在的に起こりうる履歴を潜在履歴 latent history 実際にデ ータとして記録された履歴を記録履歴 recorded history ということにする M

したがって このモデルではの長さをもつ潜在履歴 latent history が存在し 同様に と指標化して扱うことができる 以下では 潜在的に起こりうる履歴を潜在履歴 latent history 実際にデ ータとして記録された履歴を記録履歴 recorded history ということにする M Bayesian Inference with ecological applications Chapter 10 Bayesian Inference with ecological applications 輪読会 潜在的な事象を扱うための多項分布モデル Latent Multinomial Models 本章では 記録した頻度データが多項分布に従う潜在的な変数を集約したものと考えられるときの

More information

Microsoft PowerPoint - R-stat-intro_12.ppt [互換モード]

Microsoft PowerPoint - R-stat-intro_12.ppt [互換モード] R で統計解析入門 (12) 生存時間解析 中篇 準備 : データ DEP の読み込み 1. データ DEP を以下からダウンロードする http://www.cwk.zaq.ne.jp/fkhud708/files/dep.csv /fkh /d 2. ダウンロードした場所を把握する ここでは c:/temp とする 3. R を起動し,2. 2 の場所に移動し, データを読み込む 4. データ

More information

MedicalStatisticsForAll.indd

MedicalStatisticsForAll.indd みんなの 医療統計 12 基礎理論と EZR を完全マスター! Ayumi SHINTANI はじめに EZR EZR iii EZR 2016 2 iv CONTENTS はじめに... ⅲ EZR をインストールしよう... 1 EZR 1...1 EZR 2...3...8 R Console...10 1 日目 記述統計量...11 平均値と中央値... 11...12...15...18

More information

Microsoft PowerPoint - ch04j

Microsoft PowerPoint - ch04j Ch.4 重回帰分析 : 推論 重回帰分析 y = 0 + 1 x 1 + 2 x 2 +... + k x k + u 2. 推論 1. OLS 推定量の標本分布 2. 1 係数の仮説検定 : t 検定 3. 信頼区間 4. 係数の線形結合への仮説検定 5. 複数線形制約の検定 : F 検定 6. 回帰結果の報告 入門計量経済学 1 入門計量経済学 2 OLS 推定量の標本分布について OLS 推定量は確率変数

More information