我々のビッグデータ処理の新しい産業応用 広告やゲーム レコメンだけではない 個別化医療 ( ライフサイエンス ): 精神神経系疾患 ( うつ病 総合失調症 ) の網羅的ゲノム診断法の開発 全人類のゲノム解析と個別化医療実現を目標 ゲノム育種 ( グリーンサイエンス ): ブルーベリー オオムギ イネ

Similar documents
本日の内容 1 概要 2 事例 1 DNA 自動解析装置の品質管理 3 事例 2 進化系統樹の作成の最適化と生物種の識別 4 事例 3 精神神経系疾患の診断系確立 5 事例 4 人材育成 情報処理学会ビッグデータ活用実務フォーラム

分子系統解析における様々な問題について 田辺晶史

分子系統解析における様々な問題について 田辺晶史

NGSデータ解析入門Webセミナー

GWB

配付資料 自習用テキスト 解析サンプル配布ページ 2

分子系統樹推定の落とし穴と回避法 筑波大 生命環境 田辺晶史

Slide 1

生命情報学

自己紹介 : プロフィール 石井一夫 ( 東京農工大学特任教授 ) 専門分野 : ゲノム科学 バイオインフォマティクス データマイニング 計算機統計学 経歴 : 徳島大学大学院医学研究科博士課程修了後 東京大学医科学研究所ヒトゲノム解析センターリサーチアソシエート 理化学研究所ゲノム科学総合研究セン

2


23_33.indd

Microsoft Word - 1 color Normalization Document _Agilent version_ .doc

Microsoft PowerPoint - BIセンターセミナー2013.pptx[読み取り専用]

バイオインフォマティクス第四回

Deep Learningでの地図タイル活用の検討

Microsoft PowerPoint - matsuda-web.pptx

統合失調症の病名変更が新聞報道に与えた影響過去約 30 年の網羅的な調査 1. 発表者 : 小池進介 ( 東京大学学生相談ネットワーク本部 / 保健 健康推進本部講師 ) 2. 発表のポイント : 過去約 30 年間の新聞記事 2,200 万件の調査から 病名を 精神分裂病 から 統合失調症 に変更

次世代シークエンサーを用いたがんクリニカルシークエンス解析

分子進化モデルと最尤系統推定法 東北大 院 生命科学田邉晶史

A Constructive Approach to Gene Expression Dynamics


Untitled

HP ProLiant Gen8とRed Hatで始めるHadoop™ ~Hadoop™スタートアップ支援サービス~

CAEシミュレーションツールを用いた統計の基礎教育 | (株)日科技研

7-1(DNA配列から遺伝子を探す).ppt

1. MEGA 5 をインストールする 1.1 ダウンロード手順 MEGA のホームページ ( から MEGA 5 software をコンピュータにインストールする 2. 塩基配列を決定する 2.1 Alignment E

自己紹介 : プロフィール 石井一夫 ( 東京農工大学特任教授 ) 専門分野 : ゲノム科学 バイオインフォマティクス データマイニング 計算機統計学 経歴 : 徳島大学大学院医学研究科博士課程修了後 東京大学医科学研究所ヒトゲノム解析センターリサーチアソシエート 理化学研究所ゲノム科学総合研究セン

PowerPoint プレゼンテーション

福沢論文

Microsoft PowerPoint _SINET_cloud


- 1 -

%

ID010-2

2

帳票OCR Ver.8

京都府中小企業技術センター技報 37(2009) 新規有用微生物の探索に関する研究 浅田 *1 聡 *2 上野義栄 [ 要旨 ] 産業的に有用な微生物を得ることを目的に 発酵食品である漬物と酢から微生物の分離を行った 漬物から分離した菌については 乳酸菌 酵母 その他のグループに分類ができた また

PowerPoint プレゼンテーション

14号A4indd

2


271124【議運】レジュメ


untitled


Taro12-第4回意見募集結果(改訂



平成16年度外務省事後評価実施計画策定について



Microsoft PowerPoint - BI_okuno_

LAMP スタック:品質およびセキュリティ

Microsoft PowerPoint - 3. 資料2 がんゲノム情報管理センターの進捗状況

総セク報告書(印刷発出版_.PDF

Microsoft PowerPoint - ESS2014-matsuda-pub.pptx

計画研究 年度 定量的一塩基多型解析技術の開発と医療への応用 田平 知子 1) 久木田 洋児 2) 堀内 孝彦 3) 1) 九州大学生体防御医学研究所 林 健志 1) 2) 大阪府立成人病センター研究所 研究の目的と進め方 3) 九州大学病院 研究期間の成果 ポストシークエンシン





Microsoft Word - 46流力・ANSS14リーフレット_final.docx

人工知能補足_池村

RICCについて

核内受容体遺伝子の分子生物学

別添 2 SQL インジェクション ぜい弱性診断で最低限行うべき項目 1 ( ' ( 検索キー )''-- ( 検索キー ) and 'a'='a ( 検索キー ) and 1=1 は最低限 行うこと ) OS コマンドインジェクション 2 (../../../../../../../bin/sle

ビッグデータ分析を高速化する 分散処理技術を開発 日本電気株式会社

生物物理 Vol. 45 No. 1 (2005) だけ正確なアラインメントが必要な方 (4) 立体構造とアミノ酸配列の関係, あるいは立体構造と機能との関係に興味がある方 2. おもなサービス 2.1 ペアワイズ3Dアラインメントこれは2つの構造をアラインメントする基本的な機能であり,MATRAS

相同性配列検索ツール:GHOST-MPと ヒト口腔内メタゲノム解析

PowerPoint Presentation

1. はじめに 1. はじめに 1-1. KaPPA-Average とは KaPPA-Average は KaPPA-View( でマイクロアレイデータを解析する際に便利なデータ変換ソフトウェアです 一般のマイクロアレイでは 一つのプロー

ソフト活用事例③自動Rawデータ管理システム

2017/8/2 HP SiteScope software 監視機能対応表 この監視機能対応表は HP SiteScope software v11.33) に対応しています モニタ モニタ説明 モニタ説明 SiteScope for Windows SiteScope for Linux ネット

進捗状況の確認 1. gj も gjp も動いた 2. gj は動いた 3. gj も動かない 2

統合失調症発症に強い影響を及ぼす遺伝子変異を,神経発達関連遺伝子のNDE1内に同定した

bb-8

Microsoft Word doc

Microsoft Word - 2TXL実施要綱 doc

31 gh gw

Microsoft Word - 206MSAccess2010

untitled

プレポスト【解説】

IBIS

R pdf

5_motif 公開版.ppt

ver

Microsoft PowerPoint - T05_田畑先生【CC-BY】.pptx

PowerPoint プレゼンテーション

Microsoft Word - MacVector_Align_OP.doc

WagbySpec7

PowerPoint プレゼンテーション

<4D F736F F D B8BA4974C835C E838D815B838A F92B28DB895F18D908F912E646F6378>

Slide 1

<4D F736F F D FC8E448FEE95F1837C815B835E838B C8F92E88B608F912E646F63>

Microsoft Word - PRESS_

プレゼンテーション2.ppt

汎発性膿庖性乾癬の解明

LinuxServerMori.pdf

Transcription:

モンテカルロ法による分子進化の分岐図作成 のための最適化法 石井一夫 1 松田朋子 2 古崎利紀 1 後藤哲雄 2 1 東京農工大学 2 茨城大学 2013 9 9 2013 1

我々のビッグデータ処理の新しい産業応用 広告やゲーム レコメンだけではない 個別化医療 ( ライフサイエンス ): 精神神経系疾患 ( うつ病 総合失調症 ) の網羅的ゲノム診断法の開発 全人類のゲノム解析と個別化医療実現を目標 ゲノム育種 ( グリーンサイエンス ): ブルーベリー オオムギ イネなどの新品種の開発 環境アセスメント ( エコサイエンス ): 環境微生物の分布 分類 生態調査 世界遺産に指定された東南アジアの古代遺跡の環境破壊状況の調査

ゲノム科学におけるビッグデータ分析 4 HPC 1. 2. Big iron ( ) HPC HP 4TB CPU: Xeon E7 (80 160 ) 3. Hadoop Amazon Elastic MapReduce Amazon EMR 4. Hadoop usp-boa USP 1,2,

次世代シークエンサーによるゲノム解析 GenomeAnalyzerIIx(Illumina 社 ) DNA Linux

目的 : 447 種類の遺伝子を用いた 28 種の近縁生物種の分岐図を作成する 従来 分岐図 ( 進化系統樹 ) は ミトコンドリアや 16S RNA など比較的短い配列情報をもとに作成していた 近年の ゲノム解析技術の進歩から ゲノム全体に渡る配列情報を用いて分岐図を作成することが可能となった その遺伝子 ( 配列 ) の組合せはほぼ無限にあり どのような配列をもとに分岐図を作成するかは 議論の余地がある しかし この検討には大量の計算が必要である 今回 モンテカルロ法による無作為抽出と ビッグデータ処理による最適化法を確立することを目的とした

目的 : 447 種類の遺伝子を用いた 28 種の近縁生物種の分岐図を作成する 447 1000 RNA- Seq 1 28 種の近縁生物種の RNA 配列を次世代シーケンサーにより分析 網羅的 RNA 配列を取得 (RNA-Seq) 2 配列データの結合編集作業 ( アセンブリ ) をアセンブリソフトウェア velvet-oases を用いて実施 3 28 種のうち代表的な 5 種に共通する遺伝子を相同性検索 (BLAST) にて 抽出 この段階で 1165 個の遺伝子を選択 4 各遺伝子をマルチプルアラインメント ( 多重整列 ) (MAFFT と Trimal を使用 ) 1061 個の遺伝子がアラインメント可能であった 5 公共データベース対する相同性をもとに 836 個の遺伝子を選択 805 個の遺伝子がアラインメント ( 整列 ) 可能 6 明らかにおかしな分岐図が見られたため 相同性検索をやり直し

目的 : 447 種類の遺伝子を用いた 28 種の近縁生物種の分岐図を作成する 447 7 代表種 5 種と残り 23 種との相同性をもとに 1061 個の遺伝子から 455 個の遺伝子を選択 8 447 個の遺伝子がアラインメント可能であった 9 当初の約 1000 個の遺伝子で検討する代わりに 上記 447 個の遺伝子を用いて分岐図作成の検討を行なうこととした

方法 : 分岐図作成の最適化検討のためのシナリオ 1 447 種類の遺伝子のマルチプルアラインメントデータを使用 2 447 種類の遺伝子の組合せ数を計算 組合せのパターンを生成 447 種類の遺伝子のうち 4 つまでの遺伝子を除く組合せの数が 1656133808 であったので 今回はこれで 最適化法の確立の検討を行なった 447 個の遺伝子の総当たりの組合せは 6.109568e+99 であり これを検討することは現実には無理 3 1656133808 の数から 一様乱数を発生 該当する遺伝子の組合せたマルチプルアラインメントを作成 ( ブートストラップ法 ) 4 分岐図を作成し 分岐パターンを抽出 最尤法による推定により分岐図を作成 ( 分岐図作成ソフト RAxML を使用 ) 5 分岐パターンを集計して 最適化分岐図を作成し 分岐図作成に対し寄与度の高い遺伝子を検出した

447 (with R) > choose(447,1) # 447 1 [1] 447 > choose(447,1)+choose(447,2) # 2 [1] 100128 > choose(447,1)+choose(447,2)+choose(447,3) [1] 14886143 # 3 >choose(447,1)+choose(447,2)+choose(447,3)+ choose(447,4) # 4 [1] 1656133808 <- ( ) >choose(447,1)+choose(447,2)+choose(447,3)+...+ choose(447,447) # 447 [1] 6.109568e+99

実施結果 : 447 4 1656133808 Perl

実施結果 : 乱数の発生と対応する組合せ数列の選択 1 R を用いて一様乱数 (runif() を発生 ) run1 <- round(runif(100000, min = 1, max = 1656133808)) # 10 万個の乱数を発生 2 乱数に対応する組合わせ数列を選択 81571247 365913044 1023396239 644416555 691641727 1268663549 982640498 670232037 516837044 938086069 5,121,150,372 27,29,176,229 95,160,302,413 51,199,232,430 56,126,142,201 135,342,359,446 89,303,405,437 54,98,149,213 39,234,259,417 84,108,135,403 3 447 個のうち乱数に対応する遺伝子を除き 残りのすべての遺伝子を連結させたマルチプルアラインメントファイルを作成

実施結果 : RAxML の実行による分岐図の作成 1 マルチプルアラインメントデータの fasta 形式ファイルから phylip 形式ファイルへの変換 2 分岐図作成ソフト RAxML の実行 3 RAxML の出力結果から以下のコマンドにより 数値や記号などを取り去り 分岐図の簡素化パターンに変換

実施結果 : RAxML の出力結果を分岐図パターンに変換 # RAxML の出力結果から以下のコマンドにより 数値や記号などを取り去り 分岐図パターンに変換 ==> RAxML_bestTree.out <== # RAxML の出力結果 (((x:0.00531404813722460411,b:0.00582680929801783314):0.02597126625043840939,(m: 0.03645324955994154459,((i:0.02130122160079299734,g:0.03144790765745542060):0.00424151281867054565,u:0.02948686769656536782):0.02040360046940021752):0.01521774994899611003):0.00840806219060770237, ((((z:0.34344767189954156228,(t:0.14262613954560879326,l:0.09611024306570406517): 0.12482727188754781655):0.17738679389459199864,(((q:0.09220903636333667441,c:0.07849740402964605623): 0.02162213710044687265,(((((e:0.02209622018870339294,k:0.02893283119099681472):0.00897154535047478552, p:0.08526167426794276083):0.01393193949473354662,(f:0.01318356630444799359,(n:0.01952490523202302791, &:0.01693127308779425119):0.00813604928815400003):0.07817988855466992404):0.02263432315084732208,(r: 0.04590445767519640841,h:0.04637315388999797144):0.03865318679664145329):0.00789191373814705256,(v: 0.03284611917996409919,d:0.02250210568318532570):0.17923032798411692168):0.01001049487098192720): 0.10325734189742048763,(y:0.20086249354886381857,(j:0.18321752975378832740,#:0.20967985390326032702): 0.12992858329809614526):0.01880523845322217696):0.03857414591748902638):0.06620101031901222399,(o: 0.03854648520093560682,s:0.03552704927452698946):0.12706855170728659221):0.05630830036902149949,w: 0.13933629626394547496):0.07157780409461377003,a:0.03782021720159066402):0.0; ==> RAxML_bestTreeSUMMARY.out <== # 変換された簡素化分岐図パターン (((x,b),(m,((i,g),u))),((((z,(t,l)),(((q,c),(((((e,k),p),(f,(n,&))),(r,h)),(v,d))),(y,(j,#)))),(o,s)),w),a)

実施結果 : 分岐図パターンの集計 20 19 : (((x,b),(m,((i,g),u))),((((z,(t,l)),(((q,c),(((((e,k),p),(f,(n,&))),(r,h)),(v,d))),(y,(j,#)))),(o,s)),w),a) 1 : (((x,b),(m,((i,g),u))),((((z,(t,l)),(((q,c),((v,d),((((e,k),p),(f,(n,&))),(r,h)))),(y,(j,#)))),(o,s)),w),a) 189 203 337 393 λ \ λ } λ }

実施結果 : 最適化された分岐図パターン 0.08 m x k r c s w j o q v # b z d n f l e h i u t & a p g y (((x,b),(m,((i,g),u))),((((z,(t,l)),(((q,c),(((((e,k),p),(f,(n,&))),(r,h)),(v,d))),(y,(j,#)))),(o,s)),w),a) x b m b g u q c e k f n p & r h v d j # o s z t l w a ID 1

0.08 x z u o p & l f m k # g q i h r v e b w c t y a j d n s 実施結果 : 最適化された分岐図パターン (((x,b),(m,((i,g),u))),((((z,(t,l)),(((q,c),(((((e,k),p),(f,(n,&))),(r,h)),(v,d))),(y,(j,#)))),(o,s)),w),a) x b m b g u q c e k f n p & r h v d j # o s z t l w a y ID 17 1

0.08 & f d a w z j x n k l m p s c o y g i r b e u h t # q v 実施結果 : 最適化された分岐図パターンと異なるパターン x b m b g u q c e k f n p & r h v d j # o s z t l w a y ID 22 1 (((x,b),(m,((i,g),u))),((((z,(t,l)),(((q,c),((v,d),((((e,k),p),(f,(n,&))),(r,h)))),(y,(j,#)))),(o,s)),w),a)

まとめ : Big Iron

その他の事例など : HP ProLiant DL980 G7 CPU Xeon E7 80 160 TB 32GBDIMMx128 HDD:7.2TB 900GBx8 OS:RHEL6.3 2 8 MIT

Reminding Waterloo Bridge (1940) Powered by FreeBSD 20