分子系統解析における様々な問題について 田辺晶史

Similar documents
分子系統解析における様々な問題について 田辺晶史

分子系統樹推定の落とし穴と回避法 筑波大 生命環境 田辺晶史

配付資料 自習用テキスト 解析サンプル配布ページ 2

分子進化モデルと最尤系統推定法 東北大 院 生命科学田邉晶史

我々のビッグデータ処理の新しい産業応用 広告やゲーム レコメンだけではない 個別化医療 ( ライフサイエンス ): 精神神経系疾患 ( うつ病 総合失調症 ) の網羅的ゲノム診断法の開発 全人類のゲノム解析と個別化医療実現を目標 ゲノム育種 ( グリーンサイエンス ): ブルーベリー オオムギ イネ

Slide 1

7-1(DNA配列から遺伝子を探す).ppt

<4D F736F F D E95F14E565F838C D955F907D90E096BE5F8F4390B394C5816A2E646F63>

バイオインフォマティクス第四回

NGSデータ解析入門Webセミナー

Microsoft PowerPoint - T05_田畑先生【CC-BY】.pptx

Microsoft PowerPoint _生物配列解析基礎_3回目.pptx

国際塩基配列データベース n DNA のデータベース GenBank ( アメリカ :Na,onal Center for Biotechnology Informa,on, NCBI が運営 ) EMBL ( ヨーロッパ : 欧州生命情報学研究所が運営 ) DDBJ ( 日本 : 国立遺伝研内の日

「組換えDNA技術応用食品及び添加物の安全性審査の手続」の一部改正について

クローニングのための遺伝学

GWB

「組換えDNA技術応用食品及び添加物の安全性審査の手続」の一部改正について

Microsoft Word - 2012ゼーミ5.docx

Mrbayesのダウンロード MrbayesのHP(MrBayes: Bayesian Inference of Phylogeny)アドレスは

1. MEGA 5 をインストールする 1.1 ダウンロード手順 MEGA のホームページ ( から MEGA 5 software をコンピュータにインストールする 2. 塩基配列を決定する 2.1 Alignment E

基本的な利用法

分子系統樹作成方法

GWB

Microsoft PowerPoint - BIセンターセミナー2013.pptx[読み取り専用]

核内受容体遺伝子の分子生物学

アルゴリズム入門

生命情報学

untitled

PowerPoint プレゼンテーション

7

Kumamoto University Center for Multimedia and Information Technologies Lab. 熊本大学アプリケーション実験 ~ 実環境における無線 LAN 受信電波強度を用いた位置推定手法の検討 ~ InKIAI 宮崎県美郷

Microsoft Word doc

PowerPoint Presentation

人工知能補足_池村

統計的データ解析

TC316_A5_2面_web用PDF台紙.indd

untitled

Microsoft PowerPoint - 4_河邊先生_改.ppt

ver

このうち ツールバーが表示されていないときは メニューバーから [ 表示 (V)] [ ツールバー (T)] の [ 標準のボタン (S)] [ アドレスバー (A)] と [ ツールバーを固定する (B)] をクリックしてチェックを付けておくとよい また ツールバーはユーザ ( 利用者 ) が変更

1. はじめに 1. はじめに 1-1. KaPPA-Average とは KaPPA-Average は KaPPA-View( でマイクロアレイデータを解析する際に便利なデータ変換ソフトウェアです 一般のマイクロアレイでは 一つのプロー

計画研究 年度 定量的一塩基多型解析技術の開発と医療への応用 田平 知子 1) 久木田 洋児 2) 堀内 孝彦 3) 1) 九州大学生体防御医学研究所 林 健志 1) 2) 大阪府立成人病センター研究所 研究の目的と進め方 3) 九州大学病院 研究期間の成果 ポストシークエンシン

Microsoft Word - MacVector_Align_OP.doc

スライド 1

系統分類学4-18

AJACS_komachi.key

Ⅰ 調査研究の概要

GWB

A Constructive Approach to Gene Expression Dynamics

論文題目  腸管分化に関わるmiRNAの探索とその発現制御解析

バイオインフォマティクスⅠ

2012 年 2 月 3 日第 5 回アグリ技術シーズセミナー 植物ゲノム研究の育種への利用 - 世界の最先端と育種への利用状況 その可能性 - コムギ遺伝資源の持つ表現型 遺伝子型多型の評価 : ゲノム情報活用の現状と課題 京都大学大学院農学研究科応用生物科学専攻植物遺伝学分野那須田周平

統合失調症発症に強い影響を及ぼす遺伝子変異を,神経発達関連遺伝子のNDE1内に同定した

untitled


FdData社会地理

消防力適正配置調査報告

Microsoft Word - 01Ł\”ƒ.doc

Microsoft PowerPoint - w5.pptx

bb-8

< 染色体地図 : 細胞学的地図 > 組換え価を用いることで連鎖地図を書くことができる しかし この連鎖地図はあくまで仮想的なものであって 実際の染色体と比較すると遺伝子座の順序は一致するが 距離は一致しない そこで実際の染色体上での遺伝子の位置を示す細胞学的地図が作られた 図 : 連鎖地図と細胞学

バイオインフォマティクス第五回

Microsoft PowerPoint - e-stat(OLS).pptx

れており 世界的にも重要課題とされています それらの中で 非常に高い完全長 cdna のカバー率を誇るマウスエンサイクロペディア計画は極めて重要です ゲノム科学総合研究センター (GSC) 遺伝子構造 機能研究グループでは これまでマウス完全長 cdna100 万クローン以上の末端塩基配列データを

Microsoft PowerPoint - BI_okuno_

Microsoft PowerPoint ppt

Medical3

福沢論文

<907D945D F D C789C195CF8D5888EA97978CF68A4A97702E786C7378>

QuickPrimer 結果判定用エクセルシート は QuickPrimer (Real Time) シリーズ病原因子遺伝子検出用 ( 製品コード MR101 ~ MR107 MR109 ~ MR113) および細菌遺伝子 (16S rdna) 検出用 ( 製品コード MR201 ~ MR205 M

Microsoft PowerPoint - ad11-09.pptx

バイオインフォマティクスⅠ

雑草学会大会2015.indd

Taro-cshプログラミングの応用.jt

CONTENTS マニュアルの表記... S01-02_01 1.DataNature Smart 全体概要図... S01-02_11 2. 基本操作... S01-02_ ジョブの作成... S01-02_21 加工条件設定... S01-02_21 Step1: 処理対象データの指

ソフトウェア基礎 Ⅰ Report#2 提出日 : 2009 年 8 月 11 日 所属 : 工学部情報工学科 学籍番号 : K 氏名 : 當銘孔太

プロジェクト概要 ー ヒト全遺伝子 データベース(H-InvDB)の概要と進展

パッケージのインストール Rには 複雑な解析を便利に行うためのパッケージが容易されています ( 世界中の研究者達が提供してくれる ) 今回は例として多重比較検定用のmultcomp パッケージをインストールしてみます ( 注意 ) 滋賀県立大学のようにプロキシ経由でインターネットに接続する環境で R

遺伝子解析による移植されたゲンジボタルの移植元判別法

Microsoft PowerPoint - 基礎生物学A-6-メンデル遺伝.pptx

広島市衛研年報 35, 52-60(2016) 2005/06 シーズンから 2015/16 シーズンまでに検出されたノロウイルス GⅡ の遺伝子型解析と流行状況の分析 藤井慶樹則常浩太八島加八山本美和子 松室信宏 石村勝之 2005/06 シーズンから 2015/16 シーズンまでの間に, 広島市

はじめに IPA/SEC では ソフトウェア開発における定量的管理の普及促進の一環として 国内の多様なソフトウェア開発のプロジェクトデータを整理 分析した ソフトウェア開発データ白書 を 2004 年より定期的に発行しています その最新版である ソフトウェア開発データ白書 を 2

1. 腸管出血性大腸菌 (EHEC) の系統解析 上村健人 1. はじめに近年 腸管出血性大腸菌 (EHEC) による食中毒事件が度々発生しており EHEC による食中毒はその症状の重篤さから大きな社会問題となっている EHEC による食中毒の主要な汚染源の一つとして指摘されているのが牛の糞便である

H26_大和証券_研究業績_C本文_p indd

第4回独立行政法人評価委員会技術基盤分科会製品評価技術基盤機構部会 参考資料N2-1 平成15年度NITE業務実績表参考資料集 表紙~P19


Made for Life Report 2008

Microsoft Outlook 2013


2011 年 6 月 9 日

第4回バイオインフォマティクスアルゴリズム実習

R で QTL 解析 以下で R への入力コマンドはゴシック赤字で表記しています # より右はコメントなの で入力の必要はありません 操作を再現する際 タイプミスに注意しましょう データの読み込み qtl ライブラリーを起動し ファイル IN-RIL.csv を読み込みます library(qtl)

生命情報学

TuMV 720 nm 1 RNA 9,830 1 P1 HC Pro a NIa Pro 10 P1 HC Pro 3 P36 1 6K1 CI 6 2 6K2VPgNIa Pro b NIb CP HC Pro NIb CP TuMV Y OGAWA et al.,

操作マニュアルアテンダント

PowerPoint プレゼンテーション

PowerPoint プレゼンテーション

PowerPoint プレゼンテーション

スライド 1

Microsoft Word - å“Ÿåłžå¸°173.docx

Transcription:

分子系統解析における様々な問題について 田辺晶史

そもそもどこの配列を使うべき?

そもそもどこの配列を使うべき? 置換が早すぎず遅すぎない (= 多すぎず少なすぎない )

そもそもどこの配列を使うべき? 置換が早すぎず遅すぎない (= 多すぎず少なすぎない ) 連続長は長い方が良い

そもそもどこの配列を使うべき? 置換が早すぎず遅すぎない (= 多すぎず少なすぎない ) 連続長は長い方が良い 遺伝子重複が起きていない (= パラログでない )

で そういう領域をどうやって探す?

で そういう領域をどうやって探す? 外群種と内群種のゲノム トランスクリプトームがある場合

で そういう領域をどうやって探す? 外群種と内群種のゲノム トランスクリプトームがある場合 BLAST で類似箇所を探す

で そういう領域をどうやって探す? 外群種と内群種のゲノム トランスクリプトームがある場合 BLASTで類似箇所を探す 類似度が高く アライメント長が長く そういうのが1 件だけのものを採用

で そういう領域をどうやって探す? 外群種と内群種のゲノム トランスクリプトームがある場合 BLASTで類似箇所を探す 類似度が高く アライメント長が長く そういうのが1 件だけのものを採用 PhyloMarker, markers_genesというソフトが自動的にやってくれる

で そういう領域をどうやって探す? 外群種と内群種のゲノム トランスクリプトームがある場合 BLASTで類似箇所を探す 類似度が高く アライメント長が長く そういうのが1 件だけのものを採用 PhyloMarker, markers_genesというソフトが自動的にやってくれる ゲノム トランスクリプトームがない場合

で そういう領域をどうやって探す? 外群種と内群種のゲノム トランスクリプトームがある場合 BLASTで類似箇所を探す 類似度が高く アライメント長が長く そういうのが1 件だけのものを採用 PhyloMarker, markers_genesというソフトが自動的にやってくれる ゲノム トランスクリプトームがない場合 全ゲノム解読する

で そういう領域をどうやって探す? 外群種と内群種のゲノム トランスクリプトームがある場合 BLASTで類似箇所を探す 類似度が高く アライメント長が長く そういうのが1 件だけのものを採用 PhyloMarker, markers_genesというソフトが自動的にやってくれる ゲノム トランスクリプトームがない場合 全ゲノム解読する トランスクリプトーム解析を行う

で どうやって解読する?

で どうやって解読する? 下記のコマンドで多重整列データからユニバーサルプライマーを自動作成 pgpickprimer \ --maxpick=99 \ --consensus=90 \ --sizerange=90-500 \ --tmrange=45-65 \ inputfile \ outputfile コマンド名 最大プライマーセット数 縮重多数決合意配列の閾値 増幅産物のアライメント長範囲 プライマーの Tm 値範囲 入力ファイル名 出力ファイル名 \ は 次の行に改行なしで続く という意味であることに注意ただしスペースは入れること

多遺伝子座連結解析の問題

多遺伝子座連結解析の問題 パラログ混入や浸透交雑 水平伝播 incomplete lineage sorting で 遺伝子座間で支持する系統樹が異なる ( 不調和 )

多遺伝子座連結解析の問題 パラログ混入や浸透交雑 水平伝播 incomplete lineage sorting で 遺伝子座間で支持する系統樹が異なる ( 不調和 ) 連結解析のブートストラップ値悪化やアーティファクトの原因

多遺伝子座連結解析の問題 パラログ混入や浸透交雑 水平伝播 incomplete lineage sorting で 遺伝子座間で支持する系統樹が異なる ( 不調和 ) 連結解析のブートストラップ値悪化やアーティファクトの原因 Internode Certainty, ICAll, TreeC, TCA 値で不調和を評価

多遺伝子座連結解析の問題 パラログ混入や浸透交雑 水平伝播 incomplete lineage sorting で 遺伝子座間で支持する系統樹が異なる ( 不調和 ) 連結解析のブートストラップ値悪化やアーティファクトの原因 Internode Certainty, ICAll, TreeC, TCA 値で不調和を評価 IC, ICA は系統仮説ごとに出るが TC, TCA は系統樹全体で 1 つ

多遺伝子座連結解析の問題 パラログ混入や浸透交雑 水平伝播 incomplete lineage sorting で 遺伝子座間で支持する系統樹が異なる ( 不調和 ) 連結解析のブートストラップ値悪化やアーティファクトの原因 Internode Certainty, ICAll, TreeC, TCA 値で不調和を評価 IC, ICA は系統仮説ごとに出るが TC, TCA は系統樹全体で 1 つ IC の範囲は 1~0 で ICA は 1~ マイナス? 小さいほど不調和

多遺伝子座連結解析の問題 パラログ混入や浸透交雑 水平伝播 incomplete lineage sorting で 遺伝子座間で支持する系統樹が異なる ( 不調和 ) 連結解析のブートストラップ値悪化やアーティファクトの原因 Internode Certainty, ICAll, TreeC, TCA 値で不調和を評価 IC, ICA は系統仮説ごとに出るが TC, TCA は系統樹全体で 1 つ IC の範囲は 1~0 で ICA は 1~ マイナス? 小さいほど不調和 TC, TCA は IC, ICA の総和.OTU 数 -3 で割ってデータ間比較

多遺伝子座連結解析の問題 パラログ混入や浸透交雑 水平伝播 incomplete lineage sorting で 遺伝子座間で支持する系統樹が異なる ( 不調和 ) 連結解析のブートストラップ値悪化やアーティファクトの原因 Internode Certainty, ICAll, TreeC, TCA 値で不調和を評価 IC, ICA は系統仮説ごとに出るが TC, TCA は系統樹全体で 1 つ IC の範囲は 1~0 で ICA は 1~ マイナス? 小さいほど不調和 TC, TCA は IC, ICA の総和.OTU 数 -3 で割ってデータ間比較 使用する遺伝子座を選別する

多遺伝子座連結解析の問題 パラログ混入や浸透交雑 水平伝播 incomplete lineage sorting で 遺伝子座間で支持する系統樹が異なる ( 不調和 ) 連結解析のブートストラップ値悪化やアーティファクトの原因 Internode Certainty, ICAll, TreeC, TCA 値で不調和を評価 IC, ICA は系統仮説ごとに出るが TC, TCA は系統樹全体で 1 つ IC の範囲は 1~0 で ICA は 1~ マイナス? 小さいほど不調和 TC, TCA は IC, ICA の総和.OTU 数 -3 で割ってデータ間比較 使用する遺伝子座を選別する Clusterflock, Concaterpiller, Conclustador

多遺伝子座連結解析の問題 パラログ混入や浸透交雑 水平伝播 incomplete lineage sorting で 遺伝子座間で支持する系統樹が異なる ( 不調和 ) 連結解析のブートストラップ値悪化やアーティファクトの原因 Internode Certainty, ICAll, TreeC, TCA 値で不調和を評価 IC, ICA は系統仮説ごとに出るが TC, TCA は系統樹全体で 1 つ IC の範囲は 1~0 で ICA は 1~ マイナス? 小さいほど不調和 TC, TCA は IC, ICA の総和.OTU 数 -3 で割ってデータ間比較 使用する遺伝子座を選別する Clusterflock, Concaterpiller, Conclustador species tree method を使う

多遺伝子座連結解析の問題 パラログ混入や浸透交雑 水平伝播 incomplete lineage sorting で 遺伝子座間で支持する系統樹が異なる ( 不調和 ) 連結解析のブートストラップ値悪化やアーティファクトの原因 Internode Certainty, ICAll, TreeC, TCA 値で不調和を評価 IC, ICA は系統仮説ごとに出るが TC, TCA は系統樹全体で 1 つ IC の範囲は 1~0 で ICA は 1~ マイナス? 小さいほど不調和 TC, TCA は IC, ICA の総和.OTU 数 -3 で割ってデータ間比較 使用する遺伝子座を選別する Clusterflock, Concaterpiller, Conclustador species tree method を使う STEM, BUCKy, ASTRAL, *BEAST, BEST(MrBayes)

タクソンサンプリング法

タクソンサンプリング法 全種サンプリングは必ずしも良くない

タクソンサンプリング法 全種サンプリングは必ずしも良くない 系統樹上の分岐点 端点の密度ができるだけ偏らない方が良い

タクソンサンプリング法 全種サンプリングは必ずしも良くない 系統樹上の分岐点 端点の密度ができるだけ偏らない方が良い 同一配列や近縁配列が一部では多く一部では少ないのは

パーティションの切り方

パーティションの切り方 Kakusan4 は以下を比較して選択

パーティションの切り方 Kakusan4は以下を比較して選択 遺伝子座間 コドン位置間全部切る 遺伝子座間全部切る コドン位置間全部切らない 遺伝子座間 コドン位置間全部切らない

パーティションの切り方 Kakusan4は以下を比較して選択 遺伝子座間 コドン位置間全部切る 遺伝子座間全部切る コドン位置間全部切らない 遺伝子座間 コドン位置間全部切らない もっと柔軟にな切り方があるのでは?

パーティションの切り方 Kakusan4は以下を比較して選択 遺伝子座間 コドン位置間全部切る 遺伝子座間全部切る コドン位置間全部切らない 遺伝子座間 コドン位置間全部切らない もっと柔軟にな切り方があるのでは? PartitionFinderで探索可能

χ 2 検定で組成の均一性が棄却されたら

χ 2 検定で組成の均一性が棄却されたら 塩基配列では ACGT を AGY や RY に変換する

χ 2 検定で組成の均一性が棄却されたら 塩基配列では ACGT を AGY や RY に変換する アミノ酸配列は Dayhoff coding 法 +GTR20 モデルなどを使う

χ 2 検定で組成の均一性が棄却されたら 塩基配列では ACGT を AGY や RY に変換する アミノ酸配列は Dayhoff coding 法 +GTR20 モデルなどを使う 形質状態のいくつかを統合することで無理矢理均一に

χ 2 検定で組成の均一性が棄却されたら 塩基配列ではACGTをAGYやRYに変換する アミノ酸配列はDayhoff coding 法 +GTR20モデルなどを使う 形質状態のいくつかを統合することで無理矢理均一に nhphylobayesで系統樹上での組成変化を許す

χ 2 検定で組成の均一性が棄却されたら 塩基配列ではACGTをAGYやRYに変換する アミノ酸配列はDayhoff coding 法 +GTR20モデルなどを使う 形質状態のいくつかを統合することで無理矢理均一に nhphylobayesで系統樹上での組成変化を許す より適しているがLinux 上でしか動かない

例 : 塩基配列の第 3 コドン位置だけ RY コード化 下記のコマンドを入力して Enter pgrecodeseq \ --type=dna \ 3-.\3 \ GT-AC \ inputfile \ outputfile コマンド名 入力配列は DNA 3 つめから最後まで 3 つおきに処理 G を A に T を C に置換 入力ファイル名 出力ファイル名 \ は 次の行に改行なしで続く という意味であることに注意ただしスペースは入れること

例 :χ 2 検定で不均質解消を確認 下記のコマンドを入力して Enter pgtestcomposition \ --type=dna \ 3-.\3 \ inputfile \ outputfile コマンド名 入力配列は DNA 3 つめから最後まで 3 つおきに処理 入力ファイル名 出力ファイル名 \ は 次の行に改行なしで続く という意味であることに注意ただしスペースは入れること

例 : アミノ酸配列を Dayhof コード化 下記のコマンドを入力して Enter pgrecodeseq \ コマンド名 --type=aa \ 入力配列はアミノ酸 STGPNEQKHVILYW-AAAADDDRRMMMFF \ inputfile \ outputfile 入力ファイル名 出力ファイル名 \ は 次の行に改行なしで続く という意味であることに注意ただしスペースは入れること

変換したデータ解析の注意 RAxML で解析するときはさらに 01 データにして binary データ として解析する -m BINGAMMA

変換したデータ解析の注意 RAxMLで解析するときはさらに01データにしてbinaryデータとして解析する -m BINGAMMA RAxMLで解析するときはさらに0~9A~Vのデータにして multistateデータとして解析する -m MULTIGAMMA -K GTR

データのギャップ情報を使いたいとき

データのギャップ情報を使いたいとき トリミング前の配列から simple indel coding 法でギャップの 有無を 01 に符号化

データのギャップ情報を使いたいとき トリミング前の配列から simple indel coding 法でギャップの有無を01に符号化 トリミング後の配列に加えてMrBayes, RAxML, PAUP* で系統樹推定

例 :simple indel coding 法でギャップ情報を 01 データ化 下記のコマンドを入力して Enter pgencodegap \ --method=sic \ inputfile \ outputfile コマンド名 符号化法は SIC 入力ファイル名 出力ファイル名 注 : 入力ファイル形式は NEXUS のみに対応 \ は 次の行に改行なしで続く という意味であることに注意ただしスペースは入れること

例 : ギャップの 01 データを塩基配列と連結 下記のコマンドを入力して Enter pgconcatgap \ --output=mrbayes \ DNAseqfile \ binarydatafile コマンド名 MrBayes 向けの出力を行う 塩基配列ファイル名 01 データファイル名 \ は 次の行に改行なしで続く という意味であることに注意ただしスペースは入れること

変異がある座位だけのデータに関する注意事項

変異がある座位だけのデータに関する注意事項 形態形質 SNP などのデータでは 変異がある座位しか含まれ ていない

変異がある座位だけのデータに関する注意事項 形態形質 SNP などのデータでは 変異がある座位しか含まれ ていない これは データ収集にバイアス ascertainment bias がある

変異がある座位だけのデータに関する注意事項 形態形質 SNPなどのデータでは 変異がある座位しか含まれていない これは データ収集にバイアスascertainment biasがある RAxMLでは以下のオプションで補正した尤度を使用する -m ASC_BINGAMMA -m ASC_MULTIGAMMA -m ASC_GTRGAMMA -m ASC_PROTGAMMA[matrixname](F)

系統樹推定の勘所

系統樹推定の勘所 重要度高 重要度低

系統樹推定の勘所 データの質重要度高 重要度低

系統樹推定の勘所 データの質 多重整列とトリミング 重要度高 遺伝子座サンプリング タクソンサンプリング 不適な部分の除去 重要度低

系統樹推定の勘所 データの質 多重整列とトリミング 重要度高 遺伝子座サンプリング タクソンサンプリング 不適な部分の除去 樹形探索範囲の広さ (NNI SPR TBR 多点探索) 重要度低

系統樹推定の勘所 データの質 多重整列とトリミング 重要度高 遺伝子座サンプリング タクソンサンプリング 不適な部分の除去 樹形探索範囲の広さ (NNI SPR TBR 多点探索) パーティションの切り方 重要度低

系統樹推定の勘所 データの質 多重整列とトリミング 重要度高 遺伝子座サンプリング タクソンサンプリング 不適な部分の除去 樹形探索範囲の広さ (NNI SPR TBR 多点探索) パーティションの切り方 パーティション間モデル ( 等速度 比例 分離 ) 重要度低

系統樹推定の勘所 データの質 多重整列とトリミング 重要度高 遺伝子座サンプリング タクソンサンプリング 不適な部分の除去 樹形探索範囲の広さ (NNI SPR TBR 多点探索) パーティションの切り方 パーティション間モデル ( 等速度 比例 分離 ) パーティション内モデル (JC69~GTR+G) 重要度低