Similar documents
生命情報学

多重配列アラインメント 最近のソフトウェアについて た. 計算時間は数分程度である. また, 類似性の高い入力配列に限定すれば, 計算量は配列の長さの 1 乗に比例する. そのため Pfam や ASTRAL など大量のアラインメントを実行する必要のあるプロジェクトで TCoffee などとともに使

A Constructive Approach to Gene Expression Dynamics

Microsoft PowerPoint - lecture a.pptx

Microsoft PowerPoint - lecture a.pptx

PowerPoint Presentation

第4回バイオインフォマティクスアルゴリズム実習

生命情報学

アルゴリズム入門

生物物理 Vol. 45 No. 1 (2005) だけ正確なアラインメントが必要な方 (4) 立体構造とアミノ酸配列の関係, あるいは立体構造と機能との関係に興味がある方 2. おもなサービス 2.1 ペアワイズ3Dアラインメントこれは2つの構造をアラインメントする基本的な機能であり,MATRAS

™…{,

2014 年電子情報通信学会総合大会ネットワークシステム B DNS ラウンドロビンと OpenFlow スイッチを用いた省電力法 Electric Power Reduc8on by DNS round- robin with OpenFlow switches 池田賢斗, 後藤滋樹

「組換えDNA技術応用食品及び添加物の安全性審査の手続」の一部改正について

3 2 2 (1) (2) (3) (4) 4 4 AdaBoost 2. [11] Onishi&Yoda [8] Iwashita&Stoica [5] 4 [3] 3. 3 (1) (2) (3)


「組換えDNA技術応用食品及び添加物の安全性審査の手続」の一部改正について

Microsoft PowerPoint - BIセンターセミナー2013.pptx[読み取り専用]

相同性配列検索ツール:GHOST-MPと ヒト口腔内メタゲノム解析


_<74B0><5883><611F><67D3><30DD><30B1><30D7><30ED>_<5FF5><6821>2.pdf

5_motif 公開版.ppt

Microsoft PowerPoint - BI_okuno_

バイオインフォマティクスⅠ

nagasaki_GMT2015_key09

Microsoft PowerPoint SIGAL.ppt

CBRC CBRC DNA

1_alignment.ppt

博士論文 考え続ける義務感と反復思考の役割に注目した 診断横断的なメタ認知モデルの構築 ( 要約 ) 平成 30 年 3 月 広島大学大学院総合科学研究科 向井秀文

我々のビッグデータ処理の新しい産業応用 広告やゲーム レコメンだけではない 個別化医療 ( ライフサイエンス ): 精神神経系疾患 ( うつ病 総合失調症 ) の網羅的ゲノム診断法の開発 全人類のゲノム解析と個別化医療実現を目標 ゲノム育種 ( グリーンサイエンス ): ブルーベリー オオムギ イネ

分子系統樹推定の落とし穴と回避法 筑波大 生命環境 田辺晶史

研究成果報告書

ver

報道発表資料 2007 年 8 月 1 日 独立行政法人理化学研究所 マイクロ RNA によるタンパク質合成阻害の仕組みを解明 - mrna の翻訳が抑制される過程を試験管内で再現することに成功 - ポイント マイクロ RNA が翻訳の開始段階を阻害 標的 mrna の尻尾 ポリ A テール を短縮

2008 年度下期未踏 IT 人材発掘 育成事業採択案件評価書 1. 担当 PM 田中二郎 PM ( 筑波大学大学院システム情報工学研究科教授 ) 2. 採択者氏名チーフクリエータ : 矢口裕明 ( 東京大学大学院情報理工学系研究科創造情報学専攻博士課程三年次学生 ) コクリエータ : なし 3.

Microsoft PowerPoint - OS11.pptx

Bioinformatics2

IPSJ SIG Technical Report 1,a) 1,b) 1,c) 1,d) 2,e) 2,f) 2,g) 1. [1] [2] 2 [3] Osaka Prefecture University 1 1, Gakuencho, Naka, Sakai,

PowerPoint Presentation

Microsoft Word - MacVector_Align_OP.doc

Slide 1

b n m, m m, b n 3

Print

reply_letter

1 研究開発のねらい 糖鎖は 細胞表面のタンパク質や脂質に結合し 血液型の決定 細胞接着 抗原抗体反応 ウイルス感染などの生体反応で重要な役割を果たす生体分子である 糖鎖による多様な生物学的機能のうち 糖鎖結合タンパク質による糖鎖の特異的認識があり 糖鎖 - タンパク質間の相互作用の解析に糖鎖アレイ

分子進化モデルと最尤系統推定法 東北大 院 生命科学田邉晶史

7-1(DNA配列から遺伝子を探す).ppt

早稲田大学大学院日本語教育研究科 修士論文概要書 論文題目 ネパール人日本語学習者による日本語のリズム生成 大熊伊宗 2018 年 3 月

bioinfo pptx

A Precise Calculation Method of the Gradient Operator in Numerical Computation with the MPS Tsunakiyo IRIBE and Eizo NAKAZA A highly precise numerical

COMPUTING THE LARGEST EMPTY RECTANGLE

Microsoft PowerPoint - os ppt [互換モード]

1. はじめに 2

zsj2017 (Toyama) program.pdf


_170825_<52D5><7269><5B66><4F1A>_<6821><4E86><5F8C><4FEE><6B63>_<518A><5B50><4F53><FF08><5168><9801><FF09>.pdf

毎回変動し, 必ずしも良い結果を出力するとは限らない. 理由の一つとして,GS 法は配列データごとに, ランダムに与えた初期値に基づいて類似部分配列の位置を確率的に更新している為, 計算途中でそれらの位置が常に変動し, 結果が安定しないという問題が発生する. 本稿では, この問題を解決する為に, 配

untitled

10D16.dvi

Bioinformatics3

ボルツマンマシンの高速化

bioinfo ppt

タイトル

RNA配列比較検索の方法

IPSJ SIG Technical Report Vol.2015-MUS-106 No.10 Vol.2015-EC-35 No /3/2 BGM 1,4,a) ,4 BGM. BGM. BGM BGM. BGM. BGM. BGM. 1.,. YouTube 201

Microsoft PowerPoint - mp11-06.pptx

ビッグデータ分析を高速化する 分散処理技術を開発 日本電気株式会社

HP表紙.indd

カメラレディ原稿

大学院博士課程共通科目ベーシックプログラム

¥ì¥·¥Ô¤Î¸À¸ì½èÍý¤Î¸½¾õ

PowerPoint プレゼンテーション

CLEFIA_ISEC発表

20mm 63.92% ConstantZoom U 5

パソコンシミュレータの現状

インターリーブADCでのタイミングスキュー影響のデジタル補正技術

Microsoft PowerPoint - 3rd-jikken-vscreen [互換モード]

(a) (b) 2 2 (Bosch, IR Illuminator 850 nm, UFLED30-8BD) ( 7[m] 6[m]) 3 (PointGrey Research Inc.Grasshopper2 M/C) Hz (a) (b

No. 3 Oct The person to the left of the stool carried the traffic-cone towards the trash-can. α α β α α β α α β α Track2 Track3 Track1 Track0 1

生命情報学

バイオインフォマティクスⅠ

Robot Platform Project(RPP) "Spur" "YP-Spur" rev. 4 [ ] Robot Platform Project(RPP) WATANABE Atsushi 1.,,., Fig. 1.,,,,,.,,,..,,..,,..,,,,. "

<4D F736F F F696E74202D2090B696BD979D8D488A778EC08CB F31947A957A8E9197BF205B8CDD8AB B83685D>

技術開発懇談会-感性工学.ppt

再生可能エネルギー発電と二次電池を導入した地域電力システムのシミュレーションによる設計


02名簿.indb

<4D F736F F D D88E389C88A7790EA8D5582C982A882AF82E98F438BC6944E8CC082CC93C197E182C98AD682B782E9905C8D8782B

1. MEGA 5 をインストールする 1.1 ダウンロード手順 MEGA のホームページ ( から MEGA 5 software をコンピュータにインストールする 2. 塩基配列を決定する 2.1 Alignment E

コンピュータ応用・演習 情報処理システム

集中理論談話会 #9 Bhat, C.R., Sidharthan, R.: A simulation evaluation of the maximum approximate composite marginal likelihood (MACML) estimator for mixed mu

データ構造

れており 世界的にも重要課題とされています それらの中で 非常に高い完全長 cdna のカバー率を誇るマウスエンサイクロペディア計画は極めて重要です ゲノム科学総合研究センター (GSC) 遺伝子構造 機能研究グループでは これまでマウス完全長 cdna100 万クローン以上の末端塩基配列データを

京都大学博士 ( 工学 ) 氏名宮口克一 論文題目 塩素固定化材を用いた断面修復材と犠牲陽極材を併用した断面修復工法の鉄筋防食性能に関する研究 ( 論文内容の要旨 ) 本論文は, 塩害を受けたコンクリート構造物の対策として一般的な対策のひとつである, 断面修復工法を検討の対象とし, その耐久性をより

日心TWS

この方法では, 複数のアドレスが同じインデックスに対応づけられる可能性があるため, キャッシュラインのコピーと書き戻しが交互に起きる性のミスが発生する可能性がある. これを回避するために考案されたのが, 連想メモリアクセスができる形キャッシュである. この方式は, キャッシュに余裕がある限り主記憶の

Using VectorCAST/C++ with Test Driven Development

スライド 1

ヒトゲノム情報を用いた創薬標的としての新規ペプチドリガンドライブラリー PharmaGPEP TM Ver2S のご紹介 株式会社ファルマデザイン

分子系統解析における様々な問題について 田辺晶史

修士論文予稿集の雛型

Transcription:

早稲田大学大学院理工学研究科 博士論文概要 論文題目 An algorithm for alignment of multiple biological sequences with generalized gap penalty functions 一般化ギャップペナルティ関数を用いた生物配列のマルチプルアラインメントアルゴリズム 申請者 山田 Shinsuke 真介 Yamada 情報 ネットワーク専攻並列 分散アーキテクチャ研究 2008 年 1 月

No.1 ヒトゲノムをはじめとする様々な生物種のゲノムが解読され 計算機の速度向上率を上回るペースで DNA の塩基配列や タンパク質のアミノ酸配列などの生物配列が蓄積されている ゲノムとは 全遺伝情報のことであり DNA 塩基配列として保持される 従って 生物種の違いはゲノムの違いであると言うことができる 同様に DNA 塩基配列から転写 翻訳というプロセスを経て合成されるタンパク質についても その構成要素である個々のアミノ酸の相違が立体構造や機能の変化となって表れる そのため タンパク質の立体構造や遺伝子発現などの高次の情報も配列情報に支配されている 進化の過程において 配列上の塩基ないしアミノ酸 ( まとめて残基と呼ぶ ) が別の残基に変化したり ( 置換 ) 残基が配列の途中に入ったり( 挿入 ) ある残基が配列中から欠落したり( 欠失 ) という現象が起こる そのため 進化の過程で配列上に生じた置換 挿入 欠失といった現象を反映するように配列中の残基同士を対応づけることが様々な配列解析を行う上で重要である このように配列中の残基同士を対応づけたものがアラインメントである アラインメント中で挿入や欠失により対応させることのできない残基には空白文字を対応させ 連続した空白文字のことをギャップと呼ぶ 2 配列間でのアラインメントをペアワイズアラインメント 3 配列以上でのアラインメントをマルチプルアラインメントという 最適なペアワイズアラインメントは平均配列長の二乗の計算量で計算可能である マルチプルアラインメントの場合 アラインメントの良さを表す目的関数とその最適化を考えなければならないが 単純な目的関数を用いたとしても最適なマルチプルアラインメントが現実的な時間内で計算できるのはせいぜい十数配列に限られてしまう そのため 現実的な計算時間で実用的なマルチプルアラインメントを得るべく 様々なアルゴリズムが開発されてきた 主要なマルチプルアラインメントアルゴリズムとして 累進法と反復改善法が挙げられる 累進法とは ペアワイズアラインメントからはじめて 徐々にアラインメントを組み上げて最終的なマルチプルアラインメントを得る方法である アラインメントを行う順番は 配列ペア間の距離を基に計算される系統樹に従って決定されることが多い 累進法では 高速にアラインメントを計算することが可能であるものの 途中段階のアラインメントに生じたエラーを取り除くことが出来ないため 最終的なアラインメントの精度は反復改善法に比べて低下することが多い 累進法の代表的なアルゴリズムとして ClustalW T-Coffee POA などを挙げることができる 一方 反復改善法は 累進法などで得られたアラインメントに対し アラインメントを2つに分割し それらのアラインメントから再び1つのアラインメントを計算する ということを繰り返す方法である そのため アラインメント中のエラーを取り除くことが可能となる 多くのアルゴリズムでは 系統樹の枝を切断する形でアラインメントを2つに分割する 反復改善法では 累進法に比べて計算量が多いものの 概ね高精度なアラインメントを得ることができる Prrn MAFFT ProbCons MUSCLE DIALIGN-T などが主要な反復改善アルゴリズムである 累進法であれ 反復改善法であれ 繰り返し用いられるアルゴリズムがグループ間アラインメント

No.2 アルゴリズムである グループ間アラインメントアルゴリズムとは 2つの配列グループ ( アラインメントと同義 ) から1つのアラインメントを計算する方法である ペアワイズアラインメントと異なり グループ内部に様々な長さのギャップが既に存在しているため それらの扱いに注意を要する アラインメントアルゴリズムは 比較の仕方によって2つのタイプに分けられる 1つが配列全体同士を比較するグローバルアラインメントアルゴリズムであり もう1つが部分配列同士の比較を行うローカルアラインメントアルゴリズムである アラインメントアルゴリズムの比較評価を行った論文において (a) グローバルなアルゴリズムの方がローカルなアルゴリズムよりも多くの場合においてアラインメント精度が良い (b) 進化の過程で長い挿入や欠失が生じた配列を含むアラインメントの場合にはローカルなアルゴリズムの方が概ね高精度である ということが報告されている 上記の背景のもと 本研究ではグローバルアラインメントを行う反復改善法によるアラインメント精度の向上と計算の高速化を目的とする 具体的には 主に以下の3 点について提案 検証を行っている (1) 区分的線形関数をギャップペナルティとして用いたグループ間アラインメントアルゴリズムの提案 (2) maximal expected accuracy (MEA) に基づいたグループ間アラインメントアルゴリズムの有効性について検証 (3) グループ間アラインメントされる領域を制限するアンカーリングアルゴリズムや反復改善数を削減するグルーピングアルゴリズムの提案 (1) のアルゴリズムは 長い挿入や欠失の生じた配列を含むアラインメント精度を向上させることが主要な目的である MAFFT や ProbCons T-Coffee では グローバルなペアワイズアラインメントとローカルなペアワイズアラインメントから整合性スコアを計算し 最終的なマルチプルアラインメントの計算時にその整合性スコアを用いることで精度を向上させているが 整合性スコアの計算には配列数の二乗のメモリと計算量が必要になるという問題点がある それに対し 本研究ではグループ間アラインメントアルゴリズムに使用するギャップペナルティ関数として 区分的線形ギャップペナルティ ( 複数の線形関数を組み合わせた関数 ) を用いることで 精度向上を図る 従来のアフィンギャップペナルティ ( 切片が0でない線形関数 ) では長いギャップに対して大きなペナルティを与え過ぎるという問題点があるが 区分的線形ギャップペナルティによりこの問題を回避できる (2) に関しては ProbCons でも用いられているが 他の配列解析の分野で MEA に基づく手法の有効性が最近いくつかの論文で報告されており 本研究においても検証を行い 精度向上に有効であることを示す (3) では 両アルゴリズムとも最終的なアラインメント精度の低下を最小限に抑えつつ 計算量を削減させることを目的とする アンカーリングとは 与えられたアラインメントに対し アライン

No.3 メント中で保存された領域をアンカーポイントとして抽出することである アンカーポイントを固定してグループ間アラインメントされる領域を制限することで 反復改善時の計算において1 回の計算量を減らすことが可能となる グルーピングとは アラインメントから計算される系統樹に基づき 保存された部分アラインメントを抽出することである その部分アラインメントを変更するような分割をしないことで反復改善の回数そのものを削減し 計算時間の大幅な短縮を実現する 上記の (1) から (3) のアルゴリズムを PRIME というプログラムとして実装し http://prime.cbrc.jp/ にてソースコードを GPL2 ライセンスの下で公開している 本論文は8 章から成り その内容について以下で述べる 2 章では 本論文で用いる記号を導入し マルチプルアラインメント問題について定義する 3 章において これまでに開発されてきた代表的なマルチプルアラインメントアルゴリズムを示す 4 章では 区分的線形ギャップペナルティを用いたグループ間アラインメントアルゴリズムについて提案する まずは既存のアフィンギャップペナルティに用いたグループ間アラインメントアルゴリズムについて述べる 次に区分的線形関数ギャップペナルティを導入し 区分的線形ギャップペナルティを用いたグループ間アラインメントアルゴリズムについて提案する 5 章では maximal expected accuracy に基づいたグループ間アラインメントアルゴリズムについて述べる MEA 法は 正しくアラインメントされると期待される残基ペアの数を最大化する方法である その正しさを表す指標としてペア HMM と呼ばれる隠れマルコフモデルから計算される事後確率を使用する 本論文で用いたペア HMM の実際のモデルを示し 事後確率の計算アルゴリズムを述べる そして 事後確率をスコアリング関数として用いたグループ間アラインメントアルゴリズムについて記す 6 章では アンカーリングアルゴリズムとグルーピングアルゴリズムについて提案する 両アルゴリズムとも 2 種類のアルゴリズムについて提案を行っている 一方は 単体のアラインメント中の保存度に基づく方法で もう一方は 反復改善の前と後の2つのアラインメントを比較する方法である まず 保存度に基づくアンカーリングとグルーピングについて示す 次に 2つのアラインメントの比較によるアンカーリングとグルーピングについて述べる 7 章では 4 章から6 章で述べたアルゴリズムについて 上述の他のマルチプルアラインメントアルゴリズムも含めた評価を行う 使用する BAliBASE ベンチマークと PREFAB ベンチマークについて紹介した後 両ベンチマークの違いやアラインメント精度を表す評価尺度について説明する 最後に ベンチマーク結果を述べ PRIME が世界最高精度を誇るプログラムと統計的に見ても同等のアラインメント精度を実現でき またアンカーリングやグルーピングにより精度の低下を抑えつつ高速化できることを示す 8 章において 本論文のまとめを行い 結論を述べる また 今後の課題と展望について記す

早稲田大学博士 ( 工学 ) 学位申請研究業績書 No.1 氏名山田真介印 (2007 年 12 月現在 ) 種類別題名 発表 発行掲載誌名 発表 発行年月 連名者 ( 申請者含む ) 論文 [1] Shinsuke Yamada, Osamu Gotoh and Hayato Yamana: Improvement in speed and accuracy of multiple sequence alignment program PRIME, IPSJ Transactions on Bioinformatics, Nov. 2007.( 投稿中 ) [2] Shinsuke Yamada, Osamu Gotoh and Hayato Yamana: Improvement in accuracy of multiple sequence alignment using novel group-to-group sequence alignment algorithm with piecewise linear gap cost, BMC Bioinformatics, Vol.7, Article No.524, Dec. 2006. 講演 [3] 山田真介, 後藤修, 山名早人 : マルチプルアラインメントプログラム PRIME の速度 精度両面からの改良, 情処研報 (MPS67/BIO11),Vol.2007, No.128, pp.267-274, 2007 年 12 月. [4] Shinsuke Yamada, Osamu Gotoh and Hayato Yamana: Improvement in speed and accuracy of multiple sequence alignment program PRIME, The proceedings of the 2007 annual conference of the Japanese Society for Bioinformatics, Dec. 2007. [5] Shinsuke Yamada, Osamu Gotoh and Hayato Yamana: PRIME: multiple sequence alignment program based on group-to-group sequence alignment algorithm with piecewise linear gap cost, 15th Annual International Conference on Intelligent Systems for Molecular Biology (ISMB) / 6th European Conference on Computational Biology (ECCB), Jul. 2007. [6] 山田真介, 後藤修, 山名早人 :PRIME: 区分的線形ギャップコストを用いたマルチプルアラインメントプログラム,CBRC2006,2006 年 9 月.( ポスター発表 ) [7] 山田真介 ;PRIME: 区分的線形ギャップコストを用いたマルチプルアラインメントプログラム, CBRC2006,2006 年 9 月.( 依頼講演 ) [8] Shinsuke Yamada and Osamu Gotoh: PRIME - an implementation of a doubly nested randomized iterative refinement strategy with the piecewise linear gap cost, CBRC / International Symposium on Computational Biology & Bioinformatics (ISCBB), Sep. 2005. [9] Shinsuke Yamada, Osamu Gotoh and Hayato Yamana: Extension of Prrn: implementation of a doubly nested randomized iterative refinement strategy under the piecewise linear gap cost 15th International Conference on Genome Informatics (GIW), Dec. 2004.

早稲田大学博士 ( 工学 ) 学位申請研究業績書 No.2 種類別題名 発表 発行掲載誌名 発表 発行年月 連名者 ( 申請者含む ) [10] 山田真介, 後藤修 : 区分的線形ギャップコストを用いたマルチプルアラインメントアルゴリズムの開発, 産総研生命情報科学人材養成コース 最終シンポジウム, 2004 年 9 月. [11] Shinsuke Yamada, Osamu Gotoh and Hayato Yamana: The group-to-group sequence alignment algorithm under the piecewise linear gap cost, 12th International Conference on Intelligent Systems for Molecular Biology (ISMB) / 3rd European Conference on Computational Biology (ECCB), Jul. 2004. 著書 その他 [12] Osamu Gotoh, Shinsuke Yamada, Tetsushi Yada: Multiple sequence alignment, In Handbook of Computational Molecular Biology, Edited by Srinivas Aluru, Chapman & Hall, pp.3-1--3-36, Dec. 2005. ( 講演 ) 山田真介, 山名早人, 野口保 : タンパク質立体構造に基づいたアラインメント中の保存領域抽出手法の改良, 第 7 回日本蛋白質科学会年会,2007 年 5 月. ( 講演 )Shinsuke Yamada, Kouratou Yamada, Hayato Yamana, Tamotsu Noguchi: Automatic extraction of conserved region from alignment based on protein structure, 5th East Asian Biophysics Symposium (EABS) / 44th Annual Meeting of the Biophysical Society of Japan (BSJ), Nov. 2006. ( 講演 ) 山田真介, 山田晃太郎, 山名早人, 野口保 : タンパク質立体構造に基づく保存領域の自動抽出, 次世代コンピューティングシステムに関する合同ワークショップ,2006 年 7 月. ( 講演 ) 山田晃太郎, 山田真介, 山名早人, 野口保 : タンパク質立体構造に基づく保存領域の自動抽出, 第 6 回日本蛋白質科学会年会,2006 年 4 月. ( 講演 ) 山田真介, 富井健太郎 : 構造プロファイルを用いた局所構造予測法の開発 産総研生命情報科学人材養成コース 設立 1 周年記念シンポジウム,2002 年 10 月. ( 講演 ) 山田真介, 富井健太郎, 太田元規, 秋山泰, 山名早人 : 構造プロファイルによる局所構造予測法の開発, 第 2 回日本蛋白質科学会年会,2002 年 6 月. 以上

早稲田大学博士 ( 工学 ) 学位申請研究業績書 No.3 種類別題名 発表 発行掲載誌名 発表 発行年月 連名者 ( 申請者含む )