分子進化モデルと最尤系統推定法 東北大 院 生命科学田邉晶史

Similar documents
配付資料 自習用テキスト 解析サンプル配布ページ 2

分子系統解析における様々な問題について 田辺晶史

分子系統樹推定の落とし穴と回避法 筑波大 生命環境 田辺晶史

Slide 1

分子系統解析における様々な問題について 田辺晶史

生命情報学

2011 年 6 月 9 日

生命情報学

統計的データ解析

基礎遺伝学

講義「○○○○」

分子系統樹作成方法

Microsoft Word - 補論3.2

<4D F736F F D E95F14E565F838C D955F907D90E096BE5F8F4390B394C5816A2E646F63>

バイオインフォマティクス第五回

様々なミクロ計量モデル†

Probit , Mixed logit

森林水文 水資源学 2 2. 水文統計 豪雨があった時, 新聞やテレビのニュースで 50 年に一度の大雨だった などと報告されることがある. 今争点となっている川辺川ダムは,80 年に 1 回の洪水を想定して治水計画が立てられている. 畑地かんがいでは,10 年に 1 回の渇水を対象として計画が立て

画像処理工学

Microsoft PowerPoint - ICS修士論文発表会資料.ppt

カイ二乗フィット検定、パラメータの誤差

Kumamoto University Center for Multimedia and Information Technologies Lab. 熊本大学アプリケーション実験 ~ 実環境における無線 LAN 受信電波強度を用いた位置推定手法の検討 ~ InKIAI 宮崎県美郷


NLMIXED プロシジャを用いた生存時間解析 伊藤要二アストラゼネカ株式会社臨床統計 プログラミング グループグルプ Survival analysis using PROC NLMIXED Yohji Itoh Clinical Statistics & Programming Group, A

我々のビッグデータ処理の新しい産業応用 広告やゲーム レコメンだけではない 個別化医療 ( ライフサイエンス ): 精神神経系疾患 ( うつ病 総合失調症 ) の網羅的ゲノム診断法の開発 全人類のゲノム解析と個別化医療実現を目標 ゲノム育種 ( グリーンサイエンス ): ブルーベリー オオムギ イネ

PowerPoint プレゼンテーション

日本生態学会誌59巻3号

SAP11_03

12„”‡Pfiú“ƒ-PDFŠp

ver

3-2 -

バイオインフォマティクス第四回

Microsoft Word - MacVector_Align_OP.doc


Microsoft PowerPoint - mp11-06.pptx

自動車感性評価学 1. 二項検定 内容 2 3. 質的データの解析方法 1 ( 名義尺度 ) 2.χ 2 検定 タイプ 1. 二項検定 官能検査における分類データの解析法 識別できるかを調べる 嗜好に差があるかを調べる 2 点比較法 2 点識別法 2 点嗜好法 3 点比較法 3 点識別法 3 点嗜好

Microsoft Word - Time Series Basic - Modeling.doc

バイオインフォマティクスⅠ

数値計算法

「組換えDNA技術応用食品及び添加物の安全性審査の手続」の一部改正について

7-1(DNA配列から遺伝子を探す).ppt

Microsoft PowerPoint - BIセンターセミナー2013.pptx[読み取り専用]

横浜市環境科学研究所

(.3) 式 z / の計算, alpha( ), sigma( ) から, 値 ( 区間幅 ) を計算 siki.3<-fuctio(, alpha, sigma) elta <- qorm(-alpha/) sigma /sqrt() elta [ 例 ]., 信頼率 として, サイ

基礎統計

スライド 1

A Constructive Approach to Gene Expression Dynamics

ベイズ統計入門

PowerPoint プレゼンテーション

「組換えDNA技術応用食品及び添加物の安全性審査の手続」の一部改正について

目次 ペトリネットの概要 適用事例

切片 ( 定数項 ) ダミー 以下の単回帰モデルを考えよう これは賃金と就業年数の関係を分析している : ( 賃金関数 ) ここで Y i = α + β X i + u i, i =1,, n, u i ~ i.i.d. N(0, σ 2 ) Y i : 賃金の対数値, X i : 就業年数. (

スライド 1

したがって このモデルではの長さをもつ潜在履歴 latent history が存在し 同様に と指標化して扱うことができる 以下では 潜在的に起こりうる履歴を潜在履歴 latent history 実際にデ ータとして記録された履歴を記録履歴 recorded history ということにする M

統合失調症発症に強い影響を及ぼす遺伝子変異を,神経発達関連遺伝子のNDE1内に同定した

untitled

Microsoft PowerPoint - ch04j

CLEFIA_ISEC発表

パソコンシミュレータの現状

untitled

第5回東京都廃棄物審議会

untitled


untitled

西食堂

フィジカルコンディショニング

PowerPoint プレゼンテーション

支援リスト3/30.xls

ChIP-seq

1

広報さっぽろ 2016年8月号 厚別区

計画研究 年度 定量的一塩基多型解析技術の開発と医療への応用 田平 知子 1) 久木田 洋児 2) 堀内 孝彦 3) 1) 九州大学生体防御医学研究所 林 健志 1) 2) 大阪府立成人病センター研究所 研究の目的と進め方 3) 九州大学病院 研究期間の成果 ポストシークエンシン

布に従う しかし サイコロが均質でなく偏っていて の出る確率がひとつひとつ異なっているならば 二項分布でなくなる そこで このような場合に の出る確率が同じであるサイコロをもっている対象者をひとつのグループにまとめてしまえば このグループの中では回数分布は二項分布になる 全グループの合計の分布を求め

スライド 1

分子系統樹作成方法

データ科学2.pptx

統計学的画像再構成法である

1. MEGA 5 をインストールする 1.1 ダウンロード手順 MEGA のホームページ ( から MEGA 5 software をコンピュータにインストールする 2. 塩基配列を決定する 2.1 Alignment E

PowerPoint プレゼンテーション

Microsoft PowerPoint - R-stat-intro_12.ppt [互換モード]

自己紹介 : 村脇有吾 京都大学大学院情報学研究科知能情報学専攻助教工学部電気電子工学科兼担 専門 : 計算言語学と自然言語処理 表の仕事は普通のテキスト処理 単語分割 ゼロ照応解析 常識的知識の獲得ほか 今日お話も裏の仕事 言語の研究ですが テキストは直接扱いません 2

EBNと疫学


人間石川馨と品質管理



東海道新幹線でDS


JA2008

Problem P5

PowerPoint Presentation

untitled

untitled


untitled

ヒトゲノム情報を用いた創薬標的としての新規ペプチドリガンドライブラリー PharmaGPEP TM Ver2S のご紹介 株式会社ファルマデザイン


FdData社会地理

消防力適正配置調査報告

Microsoft Word - 01Ł\”ƒ.doc

Transcription:

分子進化モデルと最尤系統推定法 東北大 院 生命科学田邉晶史

まずはじめに, 最尤系統推定とは

多重モデル選択 である.

最尤系統推定の手順 1. 樹形を固定しての 2. 分子進化モデルの選択 1. 分子進化モデルを固定しての 2. 系統モデル ( 樹形 ) の選択 = 多重モデル選択

分子進化モデル超入門 とりあえず塩基置換モデルで

塩基置換モデルの 3 大要素 塩基置換確率行列 (nucleotide substitution rate matrix) 塩基平衡頻度 (nucleotide equilibrium frequencies) 座位間の速度の不均質性 (rate heterogeneity among sites) r r r r r r r r r r r r 50 40 30 20 10 0 % axon1 axon2 axon3 axon4 axon5 axon6 axon7 axon8 axon9

塩基置換確率行列と塩基平衡頻度 r r r r r r r r r r r r π r π r π r π r π r π r π r π r π r π r π r π r : : : = π : π : π : π (π + π + π + π = 1) 真の置換確率と塩基頻度に分けて見かけの塩基置換確率行列を表現することで非対称な行列を効率的に表現できる

塩基置換確率行列と主なモデルの名称 塩基置換確率パラメータ数 等塩基頻度 不等塩基頻度 0 J69 F81 1 K80(K2P) HKY85 2 N93ef N93 2 K81(K3P) K81uf(K3Puf) 3 IMef IM 4 VMef VM 5 SYM R

座位間の速度の不均質性 axon1 axon2 axon3 axon4 axon5 axon6 axon7 axon8 axon9 不変座位率 (Proportion of invariable sites) 変異のある座位の変異速度が一定ならガンマ分布による近似より, 不変座位 変異座位の 2 カテゴリに分ける方が良い (+I) 離散化ガンマ分布による近似 (amma site rate heterogeneity) 座位頻度 不変座位 変異座位のカテゴリに分けた上で変異座位をさらにガンマ分布に基づいて複数カテゴリに分ける併用も可 (+I) 各座位の変異速度 パラメータは shape だけで済む (+) Site-Specific rate 各座位 or 座位群ごとに変異速度を推定パラメータ数は座位群数 -1 (+SS)

多数の遺伝子領域を取り扱う model heterogeneity among sites 1 遺伝子領域と同様にモデル選択 = oncatenate model 分子進化モデルはただ 1 つ 枝長パラメータ数は OU 数 2-3 各領域に異なるモデルを適用し, 相対速度比を推定 = Proportional model 分子進化モデルは領域毎に異なる 枝長パラメータ数は OU 数 2-3 領域毎の相対速度比パラメータ数は領域数 -1 各領域に異なるモデルを適用し, 対数尤度の和を採用 = Separate model 分子進化モデルは領域毎に異なる 枝長パラメータ数は (OU 数 2-3) 領域数

その他の分子進化モデル アミノ酸置換モデルアミノ酸間の置換速度を塩基置換モデルと同様にモデル化. ただ, アミノ酸は核酸よりも種類が多く, データ量に対してパラメータ数が増えすぎるので, 既知の系統樹から求めた速度を近縁種の解析に用いることがほとんどである. コドン置換モデル同義置換と非同義置換を区別してそれぞれに異なるモデルを適用した上で同義置換 / 非同義置換速度比を導入したモデル. 今後, モデルの改善と優れた実装ソフトウェアが登場すればタンパクコード領域データの解析で主流になると思われる. rrn 遺伝子 stem 領域用モデル rrn 遺伝子の stem 領域は mismatch,u-pair,watson-lick pair 間で置換速度が異なり,Watson-lick pair 内でも異なることを考慮したモデル. データ量に対してパラメータ数が増えすぎるので, 既知の系統樹から求めた速度を近縁種の解析に用いることもある.

最尤系統推定法の現在

最尤系統推定の手順 ( 発見的探索 ) 最も単純な分子進化モデルでNJ treeを作る 得た樹形で検討対象の全分子進化モデルでの最大化対数尤度を求めるよく利用されるModeltestという ソフトではモデル選択時の最適化モデル選択規準を算出して分子進化モデルを選択済みパラメータに固定する モデル選択時の樹形へ何らかの方法で初期系統樹を与える 強く依存してしまうのでは? 選択された分子進化モデルにおけるその樹形での各座位の形質状態の実現確率 ( 対数尤度 ) を算出する パラメータ最適化全座位の対数尤度の和がその配列データとその分子進化モデルにおけるその樹形の尤度 周辺樹形探索樹形を何らかの方法で変形する 変形した樹形の中から初期系統樹より尤度樹形の最適化の良い樹形を新たな初期系統樹にする

最尤系統推定とブートストラップ解析 最も単純な分子進化モデルでNJ treeを作る 検討対象の樹形をあらかじめ絞った上で得た樹形で検討対象の全分子進化モデル各座位のデータではなく候補樹形におけるでの最大化対数尤度を求める最大化対数尤度をブートストラップリサン プリングし, 和を比較 (RELL 法 ) モデル選択規準を算出して分子進化モデルを選択 何らかの方法で初期系統樹を与える 選択された分子進化モデルにおけるその樹形での各座位の形質状態の実現確率 ( 対数尤度 ) を算出する パラメータ最適化全座位の対数尤度の和がその配列データとその分子進化モデルにおけるその樹形の尤度 周辺樹形探索樹形を何らかの方法で変形する 変形した樹形の中から初期系統樹より尤度樹形の最適化の良い樹形を新たな初期系統樹にする 各座位のデータをブートストラップリサンプリングパラメータは元データの最尤系統樹で固定もしくは各 replicate で最適化

モデル依存性をいかに回避するか?

モデル依存性を抑制する方法 weightの大きい分子進化モデルを全て検討 モデル平均化 (model averaging) 最尤系統樹で再度分子進化モデル選択する ブートストラップ解析

モデル平均化 最も単純なモデルにおけるNJ treeでの最も単純な分子進化モデルでnj treeを作るパラメータ値を使ったモデル平均化はそ の樹形への依存は残るのでは? 得た樹形で検討対象の全分子進化モデルでの最大化対数尤度を求める モデル選択規準を算出して分子進化モデルを選択 何らかの方法で初期系統樹を与える 選択された分子進化モデルにおけるその樹形での各座位の形質状態の実現確率 ( 対数尤度 ) を算出する パラメータ最適化全座位の対数尤度の和がその配列データとその分子進化モデルにおけるその樹形の尤度 周辺樹形探索樹形を何らかの方法で変形する 変形した樹形の中から初期系統樹より尤度樹形の最適化の良い樹形を新たな初期系統樹にする

最尤系統樹で再度分子進化モデル選択する 最も単純なモデルにおける NJ tree で分子進化モデルを選択 選択された分子進化モデルで樹形選択 選択された樹形で再度モデル選択 やらないよりはマシマズいとは言えるが疑い無しとは言えない計算量から言えば現実的な対処法

ブートストラップ解析を用いた分子進化モデルと系統モデル依存性の抑制 最も単純な分子進化モデルでNJ treeを作る 得た樹形で検討対象の全分子進化モデルでの最大化対数尤度を求める各座位のデータを ブートストラップリサンプリングモデル選択規準を算出して分子進化モデルを選択 何らかの方法で初期系統樹を与える 選択された分子進化モデルにおけるその樹形での各座位の形質状態の実現確率 ( 対数尤度 ) を算出する パラメータ最適化全座位の対数尤度の和がその配列データとその分子進化モデルにおけるその樹形の尤度 周辺樹形探索樹形を何らかの方法で変形する 変形した樹形の中から初期系統樹より尤度樹形の最適化の良い樹形を新たな初期系統樹にする 計算量を考えると現時点では非現実的か

モデル選択規準は何を使うべきか?

その前に サンプルサイズ ( 標本数 ) って何?

サンプルサイズの数え方 axon1 axon2 axon3 axon4 axon5 axon6 axon7 axon8 axon9 the number of sites (alignment length) = L the number of OUs = N 塩基平衡頻度 (0~3) N L 塩基置換確率行列 (0~5) 各座位における置換数の和? or 変異座位数? 座位間の速度の不均質性 (0~) L 枝長 (2N-3) 各座位における置換数の和? or 変異座位数? 全体としてはサンプルサイズの少ないものにあわせるべき

各座位における置換数は系統モデルによって変化する axon1 axon3 1 回 axon1 axon2 axon3 axon4 axon2 axon1 axon4 axon2 2 回 axon3 axon4 しかし各座位の置換数の和にしろ, 変異座位数にしろ, パラメータ数の 40 倍を下回ることは現実のデータ解析ではかなり多い Ic が良い?

分子進化速度進化モデル選択はすべきか?

第 3 のモデル選択 1. 分子進化速度進化モデルと 2. 樹形を固定しての 3. 分子進化モデルの選択 1. 分子進化速度進化モデルと 2. 分子進化モデルを固定しての 3. 系統モデル ( 樹形 ) の選択 分子進化モデルと樹形を固定しての分子進化速度進化モデル選択

分子進化一定の検証法 No-lock ML tree 枝長パラメータ数は OU 数 2-3 Enforce-lock ML tree 枝長パラメータ数は OU 数 -1 b3 b1 b1=b2 b2 b1+b3=b4 パラメータ数の差は OU 数 -2 b4

No-lock vs Enforce-lock 全部違う, と, 全部同じ, の 二者択一

分子進化速度は 2 回加速?

c2 c1 b4 b1 b3 b2 a2 a3 No-lock model : 13 parameters 3 lock model : 9 parameters lnlの差が4 未満ならIで逆転 樹形選択の結果も変わるかも a1

分子進化速度進化モデル選択 利点 分岐年代推定への応用可能 系統モデル ( 樹形 ) 選択の改善できる 外群の無い系統解析での外群特定への応用可能 欠点 膨大な計算量 既存技術を用いた仮説の限定が必要 複雑なパラメータ推定 ( 絶望的?) long branch attractionを助長?