経験ベイズ検定による 偽陽性制御の方法 大羽成征 (( おおばしげゆき 京大数理デザイン道場 年 0077 月 2244 日 1155:: :: u.ac.jp

Similar documents
データ科学2.pptx

統計的データ解析

Kumamoto University Center for Multimedia and Information Technologies Lab. 熊本大学アプリケーション実験 ~ 実環境における無線 LAN 受信電波強度を用いた位置推定手法の検討 ~ InKIAI 宮崎県美郷

カイ二乗フィット検定、パラメータの誤差

情報工学概論

ビジネス統計 統計基礎とエクセル分析 正誤表

EBNと疫学

統計学 - 社会統計の基礎 - 正規分布 標準正規分布累積分布関数の逆関数 t 分布正規分布に従うサンプルの平均の信頼区間 担当 : 岸 康人 資料ページ :

Excelによる統計分析検定_知識編_小塚明_5_9章.indd

スライド 1

基礎統計

青焼 1章[15-52].indd

Microsoft Word - å“Ÿåłžå¸°173.docx

自動車感性評価学 1. 二項検定 内容 2 3. 質的データの解析方法 1 ( 名義尺度 ) 2.χ 2 検定 タイプ 1. 二項検定 官能検査における分類データの解析法 識別できるかを調べる 嗜好に差があるかを調べる 2 点比較法 2 点識別法 2 点嗜好法 3 点比較法 3 点識別法 3 点嗜好

RSS Higher Certificate in Statistics, Specimen A Module 3: Basic Statistical Methods Solutions Question 1 (i) 帰無仮説 : 200C と 250C において鉄鋼の破壊応力の母平均には違いはな

Microsoft Word - apstattext04.docx

Microsoft PowerPoint - R-stat-intro_12.ppt [互換モード]

日心TWS

0 スペクトル 時系列データの前処理 法 平滑化 ( スムージング ) と微分 明治大学理 学部応用化学科 データ化学 学研究室 弘昌

解析センターを知っていただく キャンペーン

仮説検定を伴う方法では 検定の仮定が満たされ 検定に適切な検出力があり データの分析に使用される近似で有効な結果が得られることを確認することを推奨します カイ二乗検定の場合 仮定はデータ収集に固有であるためデータチェックでは対応しません Minitab は近似法の検出力と妥当性に焦点を絞っています

Medical3

Microsoft PowerPoint - sc7.ppt [互換モード]

様々なミクロ計量モデル†

Microsoft PowerPoint - e-stat(OLS).pptx

スライド 1

スライド 1

<4D F736F F D208EC08CB18C7689E68A E F193F18D8095AA957A C C839395AA957A814590B38B4B95AA957A2E646F63>

<4D F736F F F696E74202D2088E38A77939D8C7695D78BAD89EF313691E63589F194E497A682C695AA8A84955C2E >

経済統計分析1 イントロダクション

Microsoft PowerPoint - statistics pptx

数値計算法

CAEシミュレーションツールを用いた統計の基礎教育 | (株)日科技研

Microsoft Word - Stattext12.doc

スライド 1

Microsoft PowerPoint - 時系列解析(10)_講義用.pptx

3. みせかけの相関単位根系列が注目されるのは これを持つ変数同士の回帰には意味がないためだ 単位根系列で代表的なドリフト付きランダムウォークを発生させてそれを確かめてみよう yと xという変数名の系列をを作成する yt=0.5+yt-1+et xt=0.1+xt-1+et 初期値を y は 10

Microsoft PowerPoint - Lecture 10.ppt [互換モード]

スライド 1

今日の要点 あぶない 時系列データ解析は やめましょう! 統計モデル のあてはめ (危 1) 時系列データの GLM あてはめ (危 2) 時系列Yt 時系列 Xt 各時刻の個体数 気温 とか

数値計算法

Microsoft Word - Time Series Basic - Modeling.doc

Microsoft PowerPoint - データ解析基礎4.ppt [互換モード]

<4D F736F F D208EC08CB18C7689E68A E F193F18D8095AA957A C C839395AA957A814590B38B4B95AA957A2E646F63>

<4D F736F F D204B208C5182CC94E497A682CC8DB782CC8C9F92E BD8F6494E48A722E646F6378>

 

異文化言語教育評価論 ⅠA 第 4 章分散分析 (3 グループ以上の平均を比較する ) 平成 26 年 5 月 14 日 報告者 :D.M. K.S. 4-1 分散分析とは 検定の多重性 t 検定 2 群の平均値を比較する場合の手法分散分析 3 群以上の平均を比較する場合の手法 t 検定

Microsoft PowerPoint - H17-5時限(パターン認識).ppt

Microsoft PowerPoint slide2forWeb.ppt [互換モード]

Microsoft Word - appendix_b

スライド 1

OpRisk VaR3.2 Presentation

Microsoft Word - 補論3.2

_KyoukaNaiyou_No.4

ボルツマンマシンの高速化

スライド 1

Microsoft PowerPoint - ShinIshii

タイトルを修正 軸ラベルを挿入グラフツール デザイン グラフ要素を追加 軸ラベル 第 1 横 ( 縦 ) 軸 凡例は削除 横軸は, 軸の目盛範囲の最小値 最 大値を手動で設定して調整 図 2 散布図の仕上げ見本 相関係数の計算 散布図を見ると, 因果関係はともかく, 人口と輸送量の間には相関関係があ

<4D F736F F D208EC08CB18C7689E68A E F AA957A82C682948C9F92E82E646F63>

ベイズ統計入門

<4D F736F F F696E74202D2088E38A77939D8C7695D78BAD89EF313791E63589F194E497A682C695AA8A84955C2E >

Microsoft PowerPoint - 資料04 重回帰分析.ppt

切片 ( 定数項 ) ダミー 以下の単回帰モデルを考えよう これは賃金と就業年数の関係を分析している : ( 賃金関数 ) ここで Y i = α + β X i + u i, i =1,, n, u i ~ i.i.d. N(0, σ 2 ) Y i : 賃金の対数値, X i : 就業年数. (

(3) 検定統計量の有意確率にもとづく仮説の採否データから有意確率 (significant probability, p 値 ) を求め 有意水準と照合する 有意確率とは データの分析によって得られた統計値が偶然おこる確率のこと あらかじめ設定した有意確率より低い場合は 帰無仮説を棄却して対立仮説

NLMIXED プロシジャを用いた生存時間解析 伊藤要二アストラゼネカ株式会社臨床統計 プログラミング グループグルプ Survival analysis using PROC NLMIXED Yohji Itoh Clinical Statistics & Programming Group, A

GJG160842_O.QXD

Microsoft PowerPoint - 【配布・WEB公開用】SAS発表資料.pptx

確率分布 - 確率と計算 1 6 回に 1 回の割合で 1 の目が出るさいころがある. このさいころを 6 回投げたとき,1 度も 1 の目が出ない確率を求めよ. 5 6 /6 6 =15625/46656= (5/6) 6 = ある市の気象観測所での記録では, 毎年雨の降る

解答のポイント 第 1 章問 1 ポイント仮に1 年生全員の数が 100 人であったとする.100 人全員に数学の試験を課して, それらの 100 人の個人個人の点数が母集団となる. 問 2 ポイント仮に10 人を抽出するとする. 学生に1から 100 までの番号を割り当てたとする. 箱の中に番号札

講義「○○○○」

Microsoft Word - 1 color Normalization Document _Agilent version_ .doc

森林水文 水資源学 2 2. 水文統計 豪雨があった時, 新聞やテレビのニュースで 50 年に一度の大雨だった などと報告されることがある. 今争点となっている川辺川ダムは,80 年に 1 回の洪水を想定して治水計画が立てられている. 畑地かんがいでは,10 年に 1 回の渇水を対象として計画が立て

Microsoft PowerPoint - Econometrics pptx

切断安定分布による資産収益率のファットテイル性のモデル化とVaR・ESの計測手法におけるモデル・リスクの数値的分析

PowerPoint プレゼンテーション

線形システム応答 Linear System response

Medical3

Microsoft PowerPoint - qcomp.ppt [互換モード]

PowerPoint プレゼンテーション

PowerPoint プレゼンテーション

角度統計配布_final.pptx

航空機の運動方程式

不偏推定量

ChIP-seq


MATLAB®製品紹介セミナー

13章 回帰分析

Microsoft Word - Stattext11.doc

Microsoft Word - lec_student-chp3_1-representative

日本製薬工業協会シンポジウム 生存時間解析の評価指標に関する最近の展開ー RMST (restricted mean survival time) を理解するー 2. RMST の定義と統計的推測 2018 年 6 月 13 日医薬品評価委員会データサイエンス部会タスクフォース 4 生存時間解析チー

第7章

PowerPoint プレゼンテーション

Vol. 29, No. 2, (2008) FDR Introduction of FDR and Comparisons of Multiple Testing Procedures that Control It Shin-ichi Matsuda Department of

PowerPoint プレゼンテーション

講座内容 第 1 週 データサイエンスとは 第 2 週 分析の概念と事例ビジネス課題解決のためのデータ分析基礎 ( 事例と手法 )1 第 3 週 分析の具体的手法ビジネス課題解決のためのデータ分析基礎 ( 事例と手法 )2 第 4 週 ビジネスにおける予測と分析結果の報告ビジネス課題解決のためのデー

PowerPoint プレゼンテーション

統計学 Ⅱ( 章 ( 区間推定のシミュレーション 母平均 μ の区間推定 X ~ N, のとき X T ~ 自由度 1の t分布 1 自由度 -1のt 分布の97.5% 点 :t.975 P t T t この式に T を代入する t.975 母集団

Microsoft PowerPoint - 01_内田 先生.pptx

Microsoft PowerPoint - 基礎・経済統計6.ppt

memo

Transcription:

経験ベイズ検定による 偽陽性制御の方法 大羽成征 (( おおばしげゆき )@@ 京大数理デザイン道場 22001144 年 0077 月 2244 日 1155::0055--1155::4400 Email: oba@i.kyoto- u.ac.jp Twi6er: @shigepong

神経細胞間の 解剖学的結合と機能的結合 軸索末端 シナプス小胞 シナプス後細胞 Wikipedia commons http://medcell.med.yale.edu/histology/nervous_system_lab/ i 1

カルシウムイメージングによる 神経活動解析 [Takahashi, Sasaki, Usami, & Ikegaya, Neurosci Res. 2007]

Material n Calcium imaging movie of mouse hippocampus n ( 84 * 194 ) [pixel] * 60000 [frame] (10min, 100Hz) n 60 ROIs (with high S/N rauo) are selected from automaucally detected 200 ROIs.

Observed Ume series and detected spikes 20 seconds

グレンジャー因果とは? Granger causality A n 観測点 A, B で時系列データを観測する p 例 : 脳波 神経スパイク 各種銘柄の株価 p 時系列データ x A (1),.x A (2),...,x A (T) x B (1),.x B (2),...,x B (T) n 観測値履歴による予測を行う ˆ x A A (t) = f A A (x A (t 1),...,x A (t p)) Time ˆ x A AB (t) = f A AB (x A (t 1),...,x A (t p),x B (t 1),...,x B (t p)) n 定義 : もしも Aß A よりも Aß AB のほうが予測誤差が ( 有意に ) 小さいならば Bà A のグレンジャー因果がある! とする t B

一般化線形モデル (GLM) に基づくスパイク応答モデル [Stevenson et al. 2008] ほか 過去 M フレーム分の履歴 第 i ニューロンの時間フレーム t における発火確率 ( 非定常ポアソン過程 ) 時刻 t N i (t) Time t ポアソン強度は 複数ニューロンの発火履歴の線形和で決まる f (x) = 1 1+ exp( x) 7

一般化線形モデル (GLM) に基づくスパイク応答モデル [Stevenson et al. 2008] ほか ポアソン強度は 複数ニューロンの発火履歴の線形和で決まる ニューロンペア毎の応答関数を見ると 機能的結合が分かる R i3 (s) R i1 (s) R i2 (s) s s s Neuron c N c (t) Time t

応答関数と機能的結合 R i1 (s) Excitatory 1 i None R i2 (s) s 2 R i3 (s) s 3 s

機能的結合の ( 古典的 ) 可視化法 Cross- correlogram Neuron i Neuron c Response of neuron i to activity of neuron c Spontaneous activity of neuron i

Cross- correlogram vs. GLM - - GLM が動力学的因果モデリングと呼ばれる理由 - - n Truth n Data n EsUmaUon n Result 1 2 1 2 1 2 4 3 1 3 1 3 1 2 3 1 2 3

問題点 多点電極 低速イメージング 高速イメージング ニューロン数少 L 多 J 多 J 時間解像度高 J 低 L 中 J ピクセルあたりノイズ低 J 中 J 高 L 連続撮像時間長 J 中短 L n J 高フレームレートイメージングでは 多数ニューロンを高い時間解像度で調べることができる n L しかし ニューロンあたり観測スパイク点数が減る -- パラメータあたりに換算するとさらに減る à 推定結果の統計的ゆらぎが大きい à 検定キッチリやって偽陽性リスクを見積もらねば!

機能的結合推定の偽陽性制御 i c R ic (s) 推定結果として得られたこの小さな応答関数は統計的に有意? 帰無仮説 H (i,c) 0 : R ic (s) = 0 を棄却するときの偽陽性リスクをどのように制御する? s Granger causality test [Kim et al. 2009] スパース推定 [Stevenson et al. 2008, などなど ] 経験ベイズ検定 L 正則化されていないため データが小さい ( 観測が短い ) とき不安定かつ検出力が低い L 調整がうまければ検出力は高いが 適当な検定統計量が無い J 正則化による検出力と 経験ベイズによる偽陽性制御を両立

False Discovery Rate (FDR) 制御 n 目的 p FDR とは ( 全検定対象の P 値が得られる場合 ) [ 偽陽性の個数 ] [ 陽性判定例の個数 ] の期待値 p FDR<α ( たとえば α=0.1) となるようにしたい Density * ratio FDR 1 0 1 H 1 陽性判定 偽陽性 H 0 1 π 0 P 値 真である帰無仮説の比率 0 陽性判定のしきい値

p 値のヒストグラム ( 例 ) n 10000 遺伝子それぞれ t 検定したとき p<0.01 であるものは 354 個 354 15

FDR 推定の手順 (4) FDR = + (5) 全遺伝子 i =1,,M について p i をしきい値にした場合の FDR 推定値を計算 これを Q 値と呼ぶ (1) 真である帰無仮説の比率を推定 (3) 偽陽性数の推定値が分かる (2) 任意にしきい値を決める 16 π 0

p 値のヒストグラム ( 例 2/2) n 10000 遺伝子中 p<0.01 であるものは 98 個 17

Bonferroni 補正と FDR 制御で 検出数を比較 N=10000, α=0.01 無補正生 P p<0.01 Bonferroni FWER<0.01 p<1e-6 FDR FDR<0.1 354 1 44 L L J 98 L 0 J 0 J 18

FDR のコントロール ( 任意統計量を直接叩く場合 ) n 目的 p FDR とは [ 偽陽性の個数 ] [ 陽性判定例の個数 ] の期待値 Density * ratio p FDR<α ( たとえば α=0.1) となるように 陽性判定のしきい値を決めたい 偽陽性 H 0 H 1 陽性判定 統計量の値 FDR 1 0 陽性判定のしきい値

経験ベイズ検定の方法 H 0 H 1 統計量の値 観測標本 帰無標本 n 方法 p 帰無分布 ( 帰無仮説 H 0 下の統計量の分布 ) の代わりに 帰無標本 ( 帰無仮説下シミュレーション観測値 ) を用いて 観測分布との密度比を推定する p 密度比が分かれば FDR も得られる p 帰無分布の理論値が分からない状況でも使える!

[ 用語確認 ] ベイズ 経験ベイズ 検定 p 帰無仮説 H_0 / 対立仮説 H_1 p 観測される確率変数 X とその 帰無分布 P( X H_0 ) 対立分布 P( X H_1 ) p 事前確率 P( H_0 ) = 1 P( H_1 ) = π0 p 事後確率 P( H_0 X ) = π0 P( X H_0 ) / P(X) エビデンス P(X) = π0 P(X H_0) + (1-π0) P(X H_1) n ベイズ推定とは事前確率 π0 で重み付けた推定のこと n 経験ベイズとは観測に基いて事前確率 π0 を決めること n 検定とは帰無仮説棄却の可否を決める手続きのこと n 経験ベイズ検定とは経験ベイズに基づく検定のこと

超多重検定に対する 経験ベイズ検定のメリット 対立分布形状 が使える通常の検定では推定方法がないため無視されるが 超多重検定の経験ベイズなら得られる! Density * ratio 帰無分布 合計分布 対立分布 [Efron, 2001] さきがけ領域会議 2010 年 6 月 22

非対称棄却域による検出力向上 n 対立分布の偏りによって正 負のしきい値が異なる n FDRのための統計量 局所 fdr を用いると 検出力が上がる Density * ratio 検出力 局所 fdr による ROC 古典的 t 統計量による ROC 第一種エラー率 23

2 次元統計量に基づく経験ベイズ検定 こんな統計量で理論的帰無分布など得られないが 経験的な帰無分布ならば得られる 検出力上がる z = ( t,log s) t = 1 群内平均の差 n 0 Δx s 群内標準偏差 [Ploner et al. 2006 Bioinformatics] 24

因果推定の数値実験 (1) n シミュレーションデータ p ニューロン数 15 p Hodgkin-Huxley sim. by NEST p 観測時点数 T=10000 n 比較対象 p グレンジャー因果検定 ( 青点線 ) p 提案手法 ( 赤線 ) n 検出力比較 p ROC 曲線 ( 正例負例の正解率 ) n 偽陽性制御比較 p Qvalue (FDR 推定値 ) p fdp ( 偽陽性比率実現値 )

因果推定の数値実験 (2) n 観測時点数を少なくすると 違いが顕著に

まとめ n グレンジャー因果に基づく機能的結合は 構造的結合と相互補完関係 n 観測信号の質 量が限られるため 統計的ゆらぎが避けられない 偽陽性リスク制御が必要 n 経験ベイズ検定によれば かなり面倒なモデルのもとでもリスク制御可能