予測について

Similar documents
統計的データ解析

基礎統計

Medical3

自動車感性評価学 1. 二項検定 内容 2 3. 質的データの解析方法 1 ( 名義尺度 ) 2.χ 2 検定 タイプ 1. 二項検定 官能検査における分類データの解析法 識別できるかを調べる 嗜好に差があるかを調べる 2 点比較法 2 点識別法 2 点嗜好法 3 点比較法 3 点識別法 3 点嗜好

EBNと疫学

Kumamoto University Center for Multimedia and Information Technologies Lab. 熊本大学アプリケーション実験 ~ 実環境における無線 LAN 受信電波強度を用いた位置推定手法の検討 ~ InKIAI 宮崎県美郷

Microsoft Word - å“Ÿåłžå¸°173.docx

様々なミクロ計量モデル†

Microsoft PowerPoint - R-stat-intro_12.ppt [互換モード]

Microsoft PowerPoint - e-stat(OLS).pptx

カイ二乗フィット検定、パラメータの誤差

memo

講義「○○○○」

Microsoft PowerPoint - Econometrics pptx

Z...QXD (Page 1)

Microsoft PowerPoint - statistics pptx

Microsoft PowerPoint - 資料04 重回帰分析.ppt

集中理論談話会 #9 Bhat, C.R., Sidharthan, R.: A simulation evaluation of the maximum approximate composite marginal likelihood (MACML) estimator for mixed mu

多変量解析 ~ 重回帰分析 ~ 2006 年 4 月 21 日 ( 金 ) 南慶典

Probit , Mixed logit

異文化言語教育評価論 ⅠA 第 4 章分散分析 (3 グループ以上の平均を比較する ) 平成 26 年 5 月 14 日 報告者 :D.M. K.S. 4-1 分散分析とは 検定の多重性 t 検定 2 群の平均値を比較する場合の手法分散分析 3 群以上の平均を比較する場合の手法 t 検定

PowerPoint プレゼンテーション

経済統計分析1 イントロダクション

0 部分的最小二乗回帰 Partial Least Squares Regression PLS 明治大学理 学部応用化学科 データ化学 学研究室 弘昌

OpRisk VaR3.2 Presentation

横浜市環境科学研究所

スライド 1

切片 ( 定数項 ) ダミー 以下の単回帰モデルを考えよう これは賃金と就業年数の関係を分析している : ( 賃金関数 ) ここで Y i = α + β X i + u i, i =1,, n, u i ~ i.i.d. N(0, σ 2 ) Y i : 賃金の対数値, X i : 就業年数. (

ビジネス統計 統計基礎とエクセル分析 正誤表

Microsoft Word - 補論3.2

分子進化モデルと最尤系統推定法 東北大 院 生命科学田邉晶史

21世紀型パラメータ設計―標準SN比の活用―

仮説検定を伴う方法では 検定の仮定が満たされ 検定に適切な検出力があり データの分析に使用される近似で有効な結果が得られることを確認することを推奨します カイ二乗検定の場合 仮定はデータ収集に固有であるためデータチェックでは対応しません Minitab は近似法の検出力と妥当性に焦点を絞っています

ベイズ統計入門

<4D F736F F D204B208C5182CC94E497A682CC8DB782CC8C9F92E BD8F6494E48A722E646F6378>


博士学位請求論文審査報告書 申請者 : 植松良公 論文題目 :Statistical Analysis of Nonlinear Time Series 1. 論文の主題と構成経済時系列分析においては, 基礎となる理論は定常性や線形性を仮定して構築されるが, 実際の経済データにおいては, 非定常性や

Python-statistics5 Python で統計学を学ぶ (5) この内容は山田 杉澤 村井 (2008) R によるやさしい統計学 (

SAP11_03

Medical3

NLMIXED プロシジャを用いた生存時間解析 伊藤要二アストラゼネカ株式会社臨床統計 プログラミング グループグルプ Survival analysis using PROC NLMIXED Yohji Itoh Clinical Statistics & Programming Group, A

Microsoft PowerPoint - H17-5時限(パターン認識).ppt

スライド 1

Excelにおける回帰分析(最小二乗法)の手順と出力

Chapter 1 Epidemiological Terminology

青焼 1章[15-52].indd

1. 多変量解析の基本的な概念 1. 多変量解析の基本的な概念 1.1 多変量解析の目的 人間のデータは多変量データが多いので多変量解析が有用 特性概括評価特性概括評価 症 例 主 治 医 の 主 観 症 例 主 治 医 の 主 観 単変量解析 客観的規準のある要約多変量解析 要約値 客観的規準のな

解析センターを知っていただく キャンペーン

クローニングのための遺伝学

Microsoft PowerPoint - Statistics[B]

<4D F736F F D208EC08CB18C7689E68A E F AA957A82C682948C9F92E82E646F63>

< 染色体地図 : 細胞学的地図 > 組換え価を用いることで連鎖地図を書くことができる しかし この連鎖地図はあくまで仮想的なものであって 実際の染色体と比較すると遺伝子座の順序は一致するが 距離は一致しない そこで実際の染色体上での遺伝子の位置を示す細胞学的地図が作られた 図 : 連鎖地図と細胞学

<4D F736F F F696E74202D A328CC B835E89F090CD89898F4B814096F689AA>

Microsoft PowerPoint 古川杉本SASWEB用プレゼン.ppt

MedicalStatisticsForAll.indd

<4D F736F F F696E74202D B835E89F090CD89898F4B81408F6489F18B4195AA90CD A E707074>

データ科学2.pptx

(3) 検定統計量の有意確率にもとづく仮説の採否データから有意確率 (significant probability, p 値 ) を求め 有意水準と照合する 有意確率とは データの分析によって得られた統計値が偶然おこる確率のこと あらかじめ設定した有意確率より低い場合は 帰無仮説を棄却して対立仮説

クロス集計表の作成 2 つのカテゴリ変数をもつデータがあるとする ( 例 )AGE( 年齢 ),EXPOSURE( 曝露の有無 ) と DISEASE( 病気の有無 ) についての 40 人のデータ タブ区切りテキストファイル

IBM Software Business Analytics IBM SPSS Missing Values IBM SPSS Missing Values 空白を埋める際の適切なモデルを構築 ハイライト データをさまざまな角度から容易に検証する 欠損データの問題を素早く診断する 欠損値を推定値に

Microsoft Word - Stattext12.doc

回帰分析の用途・実験計画法の意義・グラフィカルモデリングの活用 | 永田 靖教授(早稲田大学)

1.民営化

0 21 カラー反射率 slope aspect 図 2.9: 復元結果例 2.4 画像生成技術としての計算フォトグラフィ 3 次元情報を復元することにより, 画像生成 ( レンダリング ) に応用することが可能である. 近年, コンピュータにより, カメラで直接得られない画像を生成する技術分野が生

Microsoft PowerPoint - ch04j

ChIP-seq

JMP による 2 群間の比較 SAS Institute Japan 株式会社 JMP ジャパン事業部 2008 年 3 月 JMP で t 検定や Wilcoxon 検定はどのメニューで実行できるのか または検定を行う際の前提条件の評価 ( 正規性 等分散性 ) はどのメニューで実行できるのかと

Excelによる統計分析検定_知識編_小塚明_5_9章.indd

Microsoft PowerPoint - 統計科学研究所_R_重回帰分析_変数選択_2.ppt

EBNと疫学

R で QTL 解析 以下で R への入力コマンドはゴシック赤字で表記しています # より右はコメントなの で入力の必要はありません 操作を再現する際 タイプミスに注意しましょう データの読み込み qtl ライブラリーを起動し ファイル IN-RIL.csv を読み込みます library(qtl)

分析のステップ Step 1: Y( 目的変数 ) に対する値の順序を確認 Step 2: モデルのあてはめ を実行 適切なモデルの指定 Step 3: オプションを指定し オッズ比とその信頼区間を表示 以下 このステップに沿って JMP の操作をご説明します Step 1: Y( 目的変数 ) の

PowerPoint プレゼンテーション

計画研究 年度 定量的一塩基多型解析技術の開発と医療への応用 田平 知子 1) 久木田 洋児 2) 堀内 孝彦 3) 1) 九州大学生体防御医学研究所 林 健志 1) 2) 大阪府立成人病センター研究所 研究の目的と進め方 3) 九州大学病院 研究期間の成果 ポストシークエンシン

生命情報学

14 化学実験法 II( 吉村 ( 洋 mmol/l の半分だったから さんの測定値は くんの測定値の 4 倍の重みがあり 推定値 としては 0.68 mmol/l その標準偏差は mmol/l 程度ということになる 測定値を 特徴づけるパラメータ t を推定するこの手

一元配置分散分析法 F 検定と Welch 検定 一元配置分散分析で一般的に使用される F 検定は すべてのグループが共通だが未知の標準偏差 (σ) を共有するという仮定に基づきます 実際には この仮定が当てはまることはまれで その結果 タイプ I 過誤率の制御が難しくなります タイプ I の誤りと

Transcription:

ゲノムワイド SN-SN 相互作用解析 東北大学東北メディカル メガバンク植木優夫

Contents Gene-Gene interaction Models for Gene-Gene interaction Allelic interaction model Further topics

Gene-Gene interaction SN-GWAS により同定された疾患感受性 SN のほとんどは効果サイズが小さい オッズ比は.-.5 (ark et al. 0 NAS) 検出には多くのサンプルが必要 独立サンプルでの再現性の問題 説明できない遺伝率 CDCV (Common Disease Common Variant) 仮説に基づく SN (common variant) は集団頻度 5% 以上の高頻度バリアントを指す 3

4

Gene-Gene interaction 失われた遺伝率 (Manolio et al. 009 Nature) は以下の成分によって隠されている?. 遺伝子 x 遺伝子相互作用. 遺伝子 x 環境相互作用 3. レアバリアント (MAF<0.5%) [ またはMAF<0.5-5% の低頻度バリアント ] 5

Risch (990 AJHG) はありふれた疾患への相互作用の寄与を示唆する : 血縁度の減少に伴う再発リスク比の減少はよりも急激 データに適合 6

エピスタシスの進化的挙動 自然選択により有害アリルは直ちに集団から取り除かれる (Kimura & Crow 979) Hemani et al. (03 LoS Genet) は, エピスタシス相互作用の自然選択を仮定した進化シミュレーションを行い, 加法的遺伝分散が低レベルで維持されることを示した これまでに得られた相加的遺伝分散は, 実際には非相加的遺伝分散による寄与であった可能性がある 多くの研究者は遺伝子 - 遺伝子相互作用の重要性を認めている

Gene-Gene interaction 相互作用効果のモデル ( つの SNs,loci and ) Marchini et al. (005 Nat Genet) 8

GWAS で発見された相互作用 乾癬における ERA と HLA-C (Strange et al. 00 Nat Genet) 主効果 : OR = ~.3 (ERA, <e-9), ~4.7 (HLA-C, <e-3) 交互作用 値 = 7e-6 強直性脊椎炎における ERA と HLA-B7 (Evans et al. 0 Nat Genet) 主効果 : OR = ~.3 (ERA, <e-), ~40.8 (HLA-B7, <e-00) 交互作用 値 = 7e-6 一型糖尿病における HLA 領域内の非相加的効果 (Barrett et al. 009 Nat Genet, OR=5.5) いずれも強い主効果 9

Interaction between ERA and HLA-C (Strange et al. 00 Nat Genet) 0

標準的な SN-SN 相互作用モデル つのカテゴリ変数 ( 各 3 カテゴリ ) 間の交互作用項を含む分散分析モデル 通常の交互作用項の有意性検定 自由度 4 の尤度比検定 Cordell (009 Nat Rev Genet)

標準的な SN-SN 相互作用モデル 飽和モデルの利用は検出力を低下させる 加法 - 加法モデルが最もよく用いられる 優性 - 優性モデル, 劣性 - 劣性モデルという可能性も モデルの選定誤りは偽陽性を招く Cordell (009 Nat Rev Genet)

ロジスティック回帰での交互作用の検定 L 個の SN があるとき, 合計のペア数は L(L-)/ 例えば L=350,000 であれば,6,49,85,000 個のペアができる 網羅的に検索 値形質 ( 罹患の有無等 ) を対象にしたロジスティック回帰モデルは, 前向き研究だけでなくケース コントロール研究にも利用可能 (Anderson 97 Biometrika, rentice & yke 979 Biometrika) だが 数値最適化に伴う高い計算コスト 結果を格納するデータストレージ 3

フィルタリング ゲノムワイド関連解析で得られた p 値が小さい SN についてのみ相互作用を検討 検定数の削減 => 計算速度の向上, 有意水準の緩和 Use only 主効果をもたない相互作用を見落とす危険性 => 全探索 4

BOOST (Wan et al. 00 AJHG) 飽和モデルでのロジスティック回帰 尤度比検定統計量 (L f - L 0 ) を全探索 L f は数値最適化が不要, 陽に書ける L 0 は数値最適化が必要, 陽に書けない L 0 に必要な最尤推定量を Kirkwood Superposition Approximation (KSA) を用いて陽に書ける量で近似 => L 0 >L KSA ある閾値 t を超える (L f - L 0 ) を見つけるため,(L f - L KSA ) が t を超えるかどうか調べる t<(l f - L 0 )< (L f - L KSA ) より (L f - L KSA )>t となったペアについてだけ (L f - L 0 )>t を調べて, 計算コストとデータストレージの問題を解決 5

BOOST (Wan et al. 00 AJHG) (L f - L 0 )>t の閾値 t は自由度 4 のカイ 乗分布の分位点 多数の仮説を相手にするため, 多重検定補正が必要 L 個の SN があると, 合計のペア数は L(L-)/ 例えば L=350,000 であれば,6,49,85,000 個のペア 多重検定をボンフェローニ補正で行う場合,5% 有意水準での検定は, 各検定の有意水準を <8 x 0-3 におくことになる 6

BOOST (Wan et al. 00 AJHG) BOOST ではひとまず (L f - L KSA )>30 を用いてフィルタリングを行う [ 閾値 30 に対応する有意水準は 4.9 x 0-6 ] BOOST は全探索を可能とした最初の論文 問題 : 相互作用モデルによっては自由度 4 の検定は検出力が低下する可能性 相互作用検定間の独立性は成立しそうにない 分割表がスパースになるケースも多い 7

分割表はしばしばスパースとなる つの SN は連鎖不平衡になく, さらに Hardy- Weinberg 平衡を仮定し, 各 MAF を p,q とおけば, 一般集団での遺伝子型の頻度は bb bb BB aa p q p (-q)q p (-q) aa (-p)pq 4(-p)p(-q)q (-p)p(-q) AA (-p) q (-p) (-q)q (-p) (-q) 例えば p=q=0% とすれば 遺伝子型 aa/bb をもつ人の割合は 0.0%, つまり平均一人観察するのに 万サンプル必要 8

BOOST (Wan et al. 00 AJHG) 欠測データもしばしばある (BOOST の作者に問い合わせると,BOOST は欠測データを扱えず, メジャーホモ接合で impute せよということ ) まだ BOOST を使い novel な相互作用を発見できた結果はないようである 9

相互作用モデルの変更 SN-GWAS と同様, リスクアリル数によって罹患リスクが増加するモデルが自然 Han et al. (0 JASA) は係数に単調制約を入れた isotonic 回帰を用いた検定を提案した 0

アリル間の相互作用モデル 遺伝学の対象は, ヒト単位よりもむしろアリル単位 ヒトは 倍体生物であり, つのアリルをもつ 座位の SN がそれぞれ a/a,b/b アリルからなるときの回帰モデル ( アリルが与えられたもとでの条件付 ) (Wu et al. 00 LoS Genet) a b B A i

アリル間の相互作用モデル ケースコントロール研究デザインでは i AB, ab, log log Ab, ab, ここで は以下の期待頻度 AB, conrol Ab, ab, ab, a b B b B ab, ab, ab, ab, A Ab, AB, Ab, AB,

アリル間の相互作用モデル Wu et al. (00 LoS Genet) は期待頻度 を推定 ( 疑似 ) ハプロタイプ頻度で置き換え, 帰無仮説 i=0 を検定する以下の統計量 T を提案した rabhu & e er (0 Genome Res) はこの統計量を用いて高速な相互作用探索法を提案した n ˆ i T, vˆ ˆ iˆ log ˆ vˆ n AB, Ab, ˆ ˆ ˆ ab, ab, AB, ˆ log ˆ ˆ ab, n ˆ ˆ AB, :#of individuals, n ab AB, conrol Ab, ˆ ˆ ab, ab, ˆ ˆ Ab, ab,, ˆ ˆ, Ab, ab, :#of individuals,, 3

アリル間の相互作用モデル Wu et al. は T の分散項 ( 分母 ) に, 帰無仮説 i=0 の下で計算される漸近分散を用いている 倍体標本が得られている場合にのみ成立 ヒトのような 倍体標本では不成立 T iˆ vˆ iˆ, vˆ ˆ log ˆ n n AB, Ab, ˆ ˆ ˆ ab, ab, AB, ˆ AB, ˆ log ˆ ab, ˆ AB, conrol Ab, ˆ ˆ ab, ˆ ˆ Ab, ˆ ab, ab, ˆ, ab, Ab, ˆ ab, 4

アリル間の相互作用モデル 倍体においては, 最尤推定等 (EMアルゴリズム) を用いて ( 疑似 ) ハプロタイプ頻度を得る必要がある Wu et al. (00 LoS Genet) の漸近分散はこのバラツキを考慮していない iˆ T, vˆ ˆ iˆ log ˆ vˆ n n AB, Ab, ˆ ˆ ˆ ab, ab, AB, ˆ AB, ˆ log ˆ ˆ ab, ˆ AB, conrol Ab, ˆ ab, Ab, ˆ ˆ ab, ab, ˆ ˆ, ab, Ab, ˆ ab, 5

アリル間の相互作用モデル Ueki & Cordell (0 LoS Genet) では Brown (975 Theor op Biol) の結果を援用し, 頻度 を最尤推定した場合の漸近分散を導き,Wu et al. の T を修正した修正の効果 LD( 連鎖不平衡 ) の無い場合, 最尤推定することにより漸近分散は 倍に上昇 Wu et al. の T を使うと偽陽性 ( つまり相互作用がないのにあると判定される ) が生じる 6

アリル間の相互作用モデル アリルの相互作用モデルを考慮することは遺伝学の文脈からは自然 LINK fast-epistasis (urcell et al. 007 AJHG) が計算する統計量は, アリルをカウントした 分割表に対する Wu et al. 統計量と同じ形 しかし分割表の頻度は多項分布でないため,--fastepistasis の漸近分散に修正が必要 Ueki & Cordell (0 LoS Genet) は分散項を修正した 7

アリル間の相互作用モデル 倍体 ( 父系 母系 ) での Wu et al. 検定は, 以下のモデルにおけるパラメータ i に関する検定と解釈できる ab ab ab Ab AB i ab ( ) i Ab ( ) i AB i i i ( i)

アリル間の相互作用モデル Wu et al. モデルの遺伝子型が与えられたもとでの条件付分布 bb aa aa AA ( ) bb logit ( affected AaBb ) i BB ( ) i ( i) ( affected AaBb ) HWE logit - ( affected ( i) ab AB, ab) ( AB, ab) ( AB, ab) ab AB logit AB Ab ab - ( affected ( Ab, ab) ( ) Ab, ab) ( Ab, ab) Ab ab

Joint Effects 統計量 (Ueki & Cordell 0) Wu et al. のアリル間相互作用モデルにおける主効果は加法的にパラメトライズされている 遺伝子型の主効果には様々な形式が考えられる 主効果が優性, 劣性の場合に偽陽性 ( 偽相互作用 ) Ueki & Cordell (0) で新たに提案した Joint Effects 統計量 後ろ向きサンプリングに伴う主効果の影響を除去 ひとつのパラメータで相互作用効果をパラメトライズし,Wu et al. 統計量と互換性を持たせた オッズ比のキャンセリング特性を利用 30

aa 4 つのオッズ比の重みつき平均 aa AA bb a b c bb d e f BB g h i Joint Effects 統計量 (Ueki & Cordell 0) ˆ ai log cg ah af ae w w log bg w3 log cd w4 log( bd ) 重みは漸近分散を最小化するように決定 ef hi のときは以下の量で代替する e log ケース, コントロールの観測頻度 3

Ueki & Cordell の相互作用モデル 主効果パラメータを一般化して導入 bb aa aa AA bb logit ( affected AaBb ) i BB i i ( affected AaBb ) HWE logit ( affected ( AB, ab) ( AB, ab) ( AB, ab) i)ab ab AB logit AB Ab ab ( affected ( Ab, ab) ( ) Ab, ab) ( Ab, ab) Ab ab

ケース群の遺伝子型分布 ( ロジスティック回帰モデルを乗法的モデルにより近似 ) ai cg ah bg af cd ae bd ab Ab AB ab bb bb BB d aa aa AA a f / ab K f 0 h 0 ab ab / g f h / ab K 0 b f 0 ab Ab / K K e ( AaBb affected g h f 0 g h ab AB / K ) f c f g / Ab K f 0 g 0 h Ab AB / K i f g h / AB K 0 ( affected AB, ab) ( AB, ab) ( affected ( AaBb affected ) ( affected ) HWE f K ( affected ) 0 g h ab AB K Ab ab, Ab, ab) ( Ab, ab)

コントロール群の遺伝子型分布 ( 一般集団分布に近似可 ) ai cg ah bg af cd ae bd ab Ab AB ab bb aa aa AA a ab b ab Ab c Ab bb BB d ab ab g ab e ab AB Ab h ab AB ab f Ab AB i AB 以上のケース群, コントロール群の近似を用いたものが Ueki & Cordell (0) の Joint Effects 検定 相互作用がなければ (ω=), ケースとコントロールでそれぞれ計算した λ の値に差は生じない 相互作用があれば (ω ) 差が生じる 任意の主効果の形状を許す

ソフトウェア 35

その他の手法 Ma et al. (03 LoS Genet) は SN を遺伝子単位でグループ化し, 遺伝子間の相互作用を調べる手法を提案した SN 単位の関連解析を遺伝子単位に集約する手法 GATES(Li et al. 0 AJHG) を応用したもの Lewinger et al. (03 Genet Epidemiol) は 段階の検定を用いて, 厳しい有意水準を緩和しようと試みた SN 間の相関でスクリーニング 検定間の独立性を利用 (Dai et al. 0 Biomerika) 36

その他の手法 Ritchie et al. (00 AJHG) は, 遺伝子型データの高次の相互作用の分割表を高低リスクカテゴリにまとめる Multifactor Dimensionality Reduction 法 (MDR) を提案 クロスバリデーションを用いて効果の真偽を確認する 最近まで, 相互作用の検出に用いられてきた手法であるが, 計算量が高くゲノムワイドの適用は困難 Ueki & Tamiya (0 BMC Bioinf) は変数選択を利用する MDR と同種の手法を提案 Van Lishout et al. (03 BMC Bioinf) は値をパーミュテーションテストから有効に求める方法を提案 37

おわりに 遺伝子 - 遺伝子相互作用解析では, これまで再現性のあった結果はほとんど得られていない 遺伝子 - 環境相互作用も同様 今後さらなる研究が必要 38

Acknowledgements My special thanks to rof. Heather Cordell (Newcastle University, UK) rof. Gen Tamiya (Tohoku University, Japan) 39