データ科学2.pptx

Similar documents
EBNと疫学

ビジネス統計 統計基礎とエクセル分析 正誤表

Excelによる統計分析検定_知識編_小塚明_5_9章.indd

情報工学概論

基礎統計

統計的データ解析

Medical3

経験ベイズ検定による 偽陽性制御の方法 大羽成征 (( おおばしげゆき 京大数理デザイン道場 年 0077 月 2244 日 1155:: :: u.ac.jp

Microsoft Word - å“Ÿåłžå¸°173.docx

統計学 - 社会統計の基礎 - 正規分布 標準正規分布累積分布関数の逆関数 t 分布正規分布に従うサンプルの平均の信頼区間 担当 : 岸 康人 資料ページ :

<4D F736F F D204B208C5182CC94E497A682CC8DB782CC8C9F92E BD8F6494E48A722E646F6378>

切片 ( 定数項 ) ダミー 以下の単回帰モデルを考えよう これは賃金と就業年数の関係を分析している : ( 賃金関数 ) ここで Y i = α + β X i + u i, i =1,, n, u i ~ i.i.d. N(0, σ 2 ) Y i : 賃金の対数値, X i : 就業年数. (

Kumamoto University Center for Multimedia and Information Technologies Lab. 熊本大学アプリケーション実験 ~ 実環境における無線 LAN 受信電波強度を用いた位置推定手法の検討 ~ InKIAI 宮崎県美郷

(3) 検定統計量の有意確率にもとづく仮説の採否データから有意確率 (significant probability, p 値 ) を求め 有意水準と照合する 有意確率とは データの分析によって得られた統計値が偶然おこる確率のこと あらかじめ設定した有意確率より低い場合は 帰無仮説を棄却して対立仮説

Vol. 29, No. 2, (2008) FDR Introduction of FDR and Comparisons of Multiple Testing Procedures that Control It Shin-ichi Matsuda Department of

Microsoft PowerPoint - statistics pptx

untitled

青焼 1章[15-52].indd

Microsoft Word - Stattext12.doc

日本経営システム学会

放射線専門医認定試験(2009・20回)/HOHS‐05(基礎二次)

プログラム

仮説検定を伴う方法では 検定の仮定が満たされ 検定に適切な検出力があり データの分析に使用される近似で有効な結果が得られることを確認することを推奨します カイ二乗検定の場合 仮定はデータ収集に固有であるためデータチェックでは対応しません Minitab は近似法の検出力と妥当性に焦点を絞っています

Microsoft PowerPoint - statistics pptx

Microsoft PowerPoint - e-stat(OLS).pptx

Probit , Mixed logit

paper2005b14.dvi

Microsoft Word - apstattext04.docx

Microsoft PowerPoint - Econometrics pptx

Microsoft PowerPoint - sc7.ppt [互換モード]


スライド 1

ChIP-seq

<4D F736F F D208EC08CB18C7689E68A E F AA957A82C682948C9F92E82E646F63>

解析センターを知っていただく キャンペーン

Microsoft PowerPoint - stat-2014-[9] pptx

RSS Higher Certificate in Statistics, Specimen A Module 3: Basic Statistical Methods Solutions Question 1 (i) 帰無仮説 : 200C と 250C において鉄鋼の破壊応力の母平均には違いはな

解答のポイント 第 1 章問 1 ポイント仮に1 年生全員の数が 100 人であったとする.100 人全員に数学の試験を課して, それらの 100 人の個人個人の点数が母集団となる. 問 2 ポイント仮に10 人を抽出するとする. 学生に1から 100 までの番号を割り当てたとする. 箱の中に番号札

異文化言語教育評価論 ⅠA 第 4 章分散分析 (3 グループ以上の平均を比較する ) 平成 26 年 5 月 14 日 報告者 :D.M. K.S. 4-1 分散分析とは 検定の多重性 t 検定 2 群の平均値を比較する場合の手法分散分析 3 群以上の平均を比較する場合の手法 t 検定

講義「○○○○」

Microsoft PowerPoint ppt

Microsoft PowerPoint - statistics pptx

Dependent Variable: LOG(GDP00/(E*HOUR)) Date: 02/27/06 Time: 16:39 Sample (adjusted): 1994Q1 2005Q3 Included observations: 47 after adjustments C -1.5

Microsoft Word - no103.docx

ベイズ統計入門

<4D F736F F D2090B695A8939D8C768A E F AA957A82C682948C9F92E8>

カイ二乗フィット検定、パラメータの誤差

切断安定分布による資産収益率のファットテイル性のモデル化とVaR・ESの計測手法におけるモデル・リスクの数値的分析

Microsoft PowerPoint - ch04j

<4D F736F F D208EC08CB18C7689E68A E F193F18D8095AA957A C C839395AA957A814590B38B4B95AA957A2E646F63>

スライド 1

R-introduction.R

様々なミクロ計量モデル†

第7章

Microsoft PowerPoint - Lecture 10.ppt [互換モード]

日本内科学会雑誌第98巻第4号

<4D F736F F F696E74202D2091BD8F6494E48A7282CC8AEE916282C B C815B F96405F947A957A97702E >

日本内科学会雑誌第97巻第7号

Microsoft Word - Stattext11.doc

0 部分的最小二乗回帰 Partial Least Squares Regression PLS 明治大学理 学部応用化学科 データ化学 学研究室 弘昌

Python-statistics5 Python で統計学を学ぶ (5) この内容は山田 杉澤 村井 (2008) R によるやさしい統計学 (

はじめに Excel における計算式の入力方法の基礎 Excel では計算式を入力することで様々な計算を行うことができる 例えば はセルに =SQRT((4^2)/3+3*5-2) と入力することで算出される ( 答え ) どのような数式が使えるかは 数式

Microsoft PowerPoint - 資料04 重回帰分析.ppt

Microsoft PowerPoint - 基礎・経済統計6.ppt

PowerPoint プレゼンテーション

ANOVA

CAEシミュレーションツールを用いた統計の基礎教育 | (株)日科技研

布に従う しかし サイコロが均質でなく偏っていて の出る確率がひとつひとつ異なっているならば 二項分布でなくなる そこで このような場合に の出る確率が同じであるサイコロをもっている対象者をひとつのグループにまとめてしまえば このグループの中では回数分布は二項分布になる 全グループの合計の分布を求め

日心TWS

0 スペクトル 時系列データの前処理 法 平滑化 ( スムージング ) と微分 明治大学理 学部応用化学科 データ化学 学研究室 弘昌

<4D F736F F D208EC08CB18C7689E68A E F193F18D8095AA957A C C839395AA957A814590B38B4B95AA957A2E646F63>

第 3 回講義の項目と概要 統計的手法入門 : 品質のばらつきを解析する 平均と標準偏差 (P30) a) データは平均を見ただけではわからない 平均が同じだからといって 同一視してはいけない b) データのばらつきを示す 標準偏差 にも注目しよう c) 平均

Microsoft Word - 計量研修テキスト_第5版).doc

目次 1 章 SPSS の基礎 基本 はじめに 基本操作方法 章データの編集 はじめに 値ラベルの利用 計算結果に基づく新変数の作成 値のグループ化 値の昇順

Microsoft PowerPoint slide2forWeb.ppt [互換モード]

untitled

Microsoft Word - 計量研修テキスト_第5版).doc

スライド 1

(.3) 式 z / の計算, alpha( ), sigma( ) から, 値 ( 区間幅 ) を計算 siki.3<-fuctio(, alpha, sigma) elta <- qorm(-alpha/) sigma /sqrt() elta [ 例 ]., 信頼率 として, サイ

PowerPoint プレゼンテーション

Microsoft PowerPoint - 14都市工学数理ノンパラ.pptx

Microsoft PowerPoint - 測量学.ppt [互換モード]

Microsoft Word - Time Series Basic - Modeling.doc

Š§’΂Š‡è/A6212D

第1回(全5回) Rの基礎と仮説検定

プログラミング入門1

Microsoft PowerPoint - 統計科学研究所_R_重回帰分析_変数選択_2.ppt

データ解析

次に示す数値の並びを昇順にソートするものとする このソートでは配列の末尾側から操作を行っていく まず 末尾の数値 9 と 8 に着目する 昇順にソートするので この値を交換すると以下の数値の並びになる 次に末尾側から 2 番目と 3 番目の 1

< C93878CBB926E8C9F93A289EF8E9197BF2E786264>

生命情報学

自動車感性評価学 1. 二項検定 内容 2 3. 質的データの解析方法 1 ( 名義尺度 ) 2.χ 2 検定 タイプ 1. 二項検定 官能検査における分類データの解析法 識別できるかを調べる 嗜好に差があるかを調べる 2 点比較法 2 点識別法 2 点嗜好法 3 点比較法 3 点識別法 3 点嗜好

SIGIR2013 勉強会 Session 11: Evaluation I 担当 : 加藤 ( 京都大学 )

PowerPoint プレゼンテーション

配付資料 自習用テキスト 解析サンプル配布ページ 2

数値計算法

データ構造

Microsoft Word - Stattext13.doc

角度統計配布_final.pptx

Microsoft PowerPoint - pr_12_template-bs.pptx

Transcription:

データ科学 多重検定 2 mul%ple test False Discovery Rate 藤博幸

前回の復習 1 多くの検定を繰り返す時には 単純に個々の検定を繰り返すだけでは不十分 5% 有意水準ということは, 1000 回検定を繰り返すと, 50 回くらいは帰無仮説が正しいのに 間違って棄却されてすまうじちがあるということ ex) 1 万個の遺伝子について 正常細胞とガン細胞で それぞれの遺伝子の発現に差があるかどうかを検定

RNA-seq で発現量を 5 回計測 正常細胞 ガン細胞 遺伝子 1 1.4 3.1 遺伝子正常細胞 2 4.5 ガン細胞 1.5 遺伝子 1 1.2 2.7 遺伝子正常細胞 2 4.5 ガン細胞. 1.5 遺伝子 1 1.8 2.3 遺伝子正常細胞 2 4.5 遺伝子ガン細胞. 3000 1.52.1 2.3 遺伝子 1 2.1 2.9 遺伝子 2 4.9 遺伝子. 3000 1.5 2.1 2.3 正常細胞ガン細胞 遺伝子 1 1.0 3.2 遺伝子. 3000 2.1 遺伝子 2 5.4 1.9 2.3 遺伝子 3000 2.1 2.3 遺伝子 3000 2.1 2.3

前回の復習 2 Family Wise Error Rate で制御する 1) Bonferroni 法 2) Holm 法

FWER: FP/(FP + TN) を制御 TN (True Nega*ve) 帰無仮説が正しく 棄却されない FP (False Posi%ve) 帰無仮説が正しいのに棄却される

FWER は厳しすぎる FP ( 帰無仮説が正しいのみ あやまって帰無仮説を棄却すること ; 正常細胞とガン細胞で 遺伝子 A の発現に差がないのに 棄却してしまうこと ) を抑えようとしているが そのため TP ( 帰無仮説が間違っていて 帰無仮説が正しく棄却されること ; 正常細胞とガン細胞で 遺伝子 A の発現に差があり 帰無仮説が棄却されること ) であっても棄却されにくい ----à 発現に差のある遺伝子を検出しにくい ( お金と時間がかかっているのに )

FDR (False Discovery Rate) FP が混じっても良いので TP を増やす ただし FP がどれだけ含めれているか (FDR) を推定して それを新たな基準とする TP をどの程度許可するかの基準を 有意水準の p- 値と区別するため q- 値とよぶ p- 値の分布に仮定を設けて FDR を計算

FDR = FP / (FP + TP) TP = true posi%ve: 対立仮説が正しく 帰無仮説が棄却 FP = false posi%ve: 帰無仮説が正しいのに 帰無仮説が棄却

Benjamini-Hochberg 法 1 m 回の多重検定の場合 (1) p-value を昇順に並べる (p 1 < p 2 < < p m ) (2) i = m とする (3) p i <= α i / m を満たす時 p 1 ~ p i を有意とする そうでなければ i を i 1 にして, 上の条件を確認する i = 1 になっても 条件を満たさない場合は有意なものはないとする FWER の Holm 法が p 1 から順次 p-value が大きい方に向かうのに対し BH 法は p m から出発して, p-value が小さい方に向かうことに注意

Benjamini-Hochberg 法 2 p 1 < p 2 < < p i < p m とする i 番目 (p i ) を検討する α を false posi%ve を含む割合とする. m α は m 回の検定中 false posi%ve の期待回数 i / m は, m 回の検定中 i 個の占める割合 すると, m α i / m = α i は i 回の検定の中で false posi%ve を起こす回数 (= 棄却されたのに本当は帰無仮説が正しいもの ) の期待値 FP の上限として α i を考える

Benjamini-Hochberg 法 3 今 p i 以下の p-value で棄却するすると posi%ve となる検定が i 個ある この i 個には true posi%ve も false posi%ve も含まれているとすると FP + TP = i FDR = FP/( FP + TP) = FP/i < α i / i = α このようにして FDR を α 以下になるよう制御できる

Benjamini-Hochberg 法 4 p i <= α i / m を満たす時 p 1 ~ p i を有意とする この式を書き直すと p i m / i <= α を満たす時 p 1 ~ p i を有意とする q i = p i m / i を p-value に対して q-value とよぶ

Benjamini-Hochberg 法 5 実際に行ってみよう p-value Gene 1 0.21 Gene 2 0.001 Gene 3 0.1 Gene 4 0.06 Gene 5 0.005 p- 値のソート p-value Gene 2 0.001 Gene 5 0.005 Gene 4 0.06 Gene 3 0.1 Gene 1 0.21 h_ps://www.slideshare.net/an%plas%cs/dna-21259335 より

Benjamini-Hochberg 法 6 p-value q-value q- 値への変換 Gene 2 0.001 Gene 5 0.005 Gene 4 0.06 Gene 3 0.1 Gene 1 0.21 0.001 x (5/1) 0.005 0.005 x (5/2) 0.00125 0.06 x (5/3) 0.1 0.1 x (5/4) 0.125 0.21 x 5/5 0.21

Benjamini-Hochberg 法 7 FDR の閾値を 0.05 として p-value の大きいものから順番に検討 p-value q-value Gene 2 0.001 Gene 5 0.005 Gene 4 0.06 Gene 3 0.1 Gene 1 0.21 0.001 x (5/1) 0.005 0.005 x (5/2) 0.00125 0.06 x (5/3) 0.1 0.1 x (5/4) 0.125 0.21 x 5/5 0.21 < 0.05 < 0.05 > 0.05 > 0.05 > 0.05 Gene 2 と Gene 5 が有意

R でやってみよう 1 Gene1~Gene5 の p-value をベクトルとして表現 > pv <- c(0.21, 0.001, 0.1, 0.06, 0.005) pv を昇順にソート > spv <- sort(pv) > spv [1] 0.001 0.005 0.060 0.100 0.210 q-value を記憶させる空ベクトルを作成 > qv <- c() for 文で q-value に変換 > for (i in 1:length(spv)) qv <- c(qv, spv[i]*length(spv)/i) > qv [1] 0.0050 0.0125 0.1000 0.1250 0.2100 前ページの表と同じ結果が得られたことを確認

R でやってみよう 2 p.adjust 関数を使ってみる > p.adjust(pv, method="bh", n=length(pv)) [1] 0.2100 0.0050 0.1250 0.1000 0.0125 > p.adjust(pv, method="bh", n=length(pv)) < 0.05 [1] FALSE TRUE FALSE FALSE TRUE 遺伝子の並び順のままで検定を行える

Benjamini-Hochberg 法の問題点 1 Benjamini-Hochberg 法のキモは q-value の計算で q i = p i m / i を p-value に対して q-value とよぶ p i を基準とした時 その時の false posi%ve の数が p i m と仮定している点にある p i が一様分布していればこの仮定は正しい 帰無仮説が全て正しい場合 (ex. 10000 個全ての遺伝子で正常細胞とガン細胞における発現量に差はない ) p-value は一様分布する

帰無仮説が全て正しい場合における p-value の一様分布の確認 前回の多重検定での false posi%ve 生成と同じシミュレーションを実施 > N <- 10000 # サンプル数を 10000 > p.values <- double(n) # p-value を格納するベクトル > for(i in 1:N) { + x <- rnorm(10, mean=0, sd=1) + y <- rnorm(10, mean=0, sd=1) + p.values[i] <- t.test(x,y)$p.value + } # 同じ正規分布から 10 こずつサンプルして平均値の差の検定 # 同じ分布からのサンプルなので差はないはず > hist(p.values) # p-value のヒストグラム作成

p-value がほぼ一様分布に従っていることがわかる

Benjamini-Hochberg 法の問題点 2 h_ps://sites.google.com/site/scriptocioinforma%cs/maikuroarei-guan-xi/fdr-zhi-yu-r

Benjamini-Hochberg 法の問題点 3 実際には 差があるものが含まれるので p-value は 0 に近い方に偏った分布となる > N <- 5000 > rm1 <- runif(n)*5 > rm2 <- runif(n)*5 > rs1 <- runif(n)*2 > rs2 <- runif(n)*2 > p.values <- double(n*2) > # 5000 個は同じ分布からサンプリング > for (i in 1:N) { + x <- rnorm(10, mean=0, sd=1) + y <- rnorm(10, mean=0, sd=1) + p.values[i] <- t.test(x,y)$p.value + } > # 残り 5000 個はランダムに生成した平均と標準偏差を持つ分布からサンプリング > for (i in 1:N) { + x <- rnorm(10, mean=rm1[i], sd=rs1[i]) + y <- rnorm(10, mean=rm2[i], sd=rs2[i]) + p.values[n+i] <- t.test(x,y)$p.value + } > hist(p.values)

p-value の一様性は成立していないこの点については Q-value 法や Local FDR 法などの改良があるが今回は説明を省く

帰無仮説の分布と対立仮説の分布の混合分布帰無仮説と対立仮説の密度比が各々 π 0 :1 - π 0 の比だったとする h_ps://sites.google.com/site/scriptocioinforma%cs/maikuroarei-guan-xi/fdr-zhi-yu-r h_ps://www.slideshare.net/yuifu/fdr-kashiwar-3 の記述だともう少し複雑

ヒストグラムのどの場所で高さをとるかという問題を考えたのが Q-value Q-value では 高さをとる場所を γ γ から推測される π 0 の値を π 0 (γ) としてプロットし このデータを自然スプライン関数で回帰 このスプライン関数を γ=0 まで外推した値を π 0 の予測値とする p-value のアナロジーとして使われている小文字の q-value とは違って これは Q value という手法名である点に注意 Q value はこの π 0 を BH 法の q-value にかける それ以外の計算手順は BH 法と同じなので 先にこの π 0 の予測値をかけておいた p -value を BH 法に適用すれば Q-vakue を求める事ができる R のパッケージ qvalue をインストールすると Q-value を計算できる

h_p://strimmerlab.org/notes/fdr.html

h_ps://www.slideshare.net/an%plas%cs/dna-21259335 h_ps://www.slideshare.net/yuifu/fdr-kashiwar-3 h_ps://sites.google.com/site/scriptocioinforma%cs/maikuroarei-guan-xi/fdr-zhi-yu-r h_p://d.hatena.ne.jp/hoxo_m/20120413/p1 h_p://www.med.osaka-u.ac.jp/pub/kid/clinicaljournalclub1.html