資料

Similar documents
ウイルス進化_池村

人工知能補足_池村

Perl + α. : DNA, mrna,,

遺伝子発現データの クラスタリングの理論的背景

我々のビッグデータ処理の新しい産業応用 広告やゲーム レコメンだけではない 個別化医療 ( ライフサイエンス ): 精神神経系疾患 ( うつ病 総合失調症 ) の網羅的ゲノム診断法の開発 全人類のゲノム解析と個別化医療実現を目標 ゲノム育種 ( グリーンサイエンス ): ブルーベリー オオムギ イネ

13FG-生物-問題_H1.indd

Hi-level 生物 II( 国公立二次私大対応 ) DNA 1.DNA の構造, 半保存的複製 1.DNA の構造, 半保存的複製 1.DNA の構造 ア.DNA の二重らせんモデル ( ワトソンとクリック,1953 年 ) 塩基 A: アデニン T: チミン G: グアニン C: シトシン U

Microsoft PowerPoint - 4_河邊先生_改.ppt

相同性配列検索ツール:GHOST-MPと ヒト口腔内メタゲノム解析

7-1(DNA配列から遺伝子を探す).ppt

nagasaki_GMT2015_key09

Microsoft Word - 【広報課確認】 _プレス原稿(最終版)_東大医科研 河岡先生_miClear

連続講演会 東京で学ぶ京大の知 シリーズ 16 社会に浸透する情報技術第 2 回 ゲノム情報のコンピュータ解析 高校数学 +α による先端的解析手法 京都大学が東京 品川の 京都大学東京オフィス で開く連続講演会 東京で学ぶ京大の知 のシリーズ 16 社会に浸透する情報技術 9 月 22 日の第 2

PowerPoint プレゼンテーション

Microsoft PowerPoint - BIセンターセミナー2013.pptx[読み取り専用]

PowerPoint Presentation

Microsoft PowerPoint - DNA1.ppt [互換モード]

なお本研究は 東京大学 米国ウィスコンシン大学 国立感染症研究所 米国スクリプス研 究所 米国農務省 ニュージーランドオークランド大学 日本中央競馬会が共同で行ったもの です 本研究成果は 日本医療研究開発機構 (AMED) 新興 再興感染症に対する革新的医薬品等開発推進研究事業 文部科学省新学術領

論文題目  腸管分化に関わるmiRNAの探索とその発現制御解析

GWB

Vol (??? 1959) DNA Analysis of Evolutionary Lineage by Self-organizing map Kentaro Nishimuta, 1 Ikuo Yoshihara, 2 Kunihito Yamamori 2 a

NGSデータ解析入門Webセミナー

報道発表資料 2007 年 8 月 1 日 独立行政法人理化学研究所 マイクロ RNA によるタンパク質合成阻害の仕組みを解明 - mrna の翻訳が抑制される過程を試験管内で再現することに成功 - ポイント マイクロ RNA が翻訳の開始段階を阻害 標的 mrna の尻尾 ポリ A テール を短縮

図 1 マイクロ RNA の標的遺伝 への結合の仕 antimir はマイクロ RNA に対するデコイ! antimirとは マイクロRNAと相補的なオリゴヌクレオチドである マイクロRNAに対するデコイとして働くことにより 標的遺伝 とマイクロRNAの結合を競合的に阻害する このためには 標的遺伝

ルス薬の開発の基盤となる重要な発見です 本研究は 京都府立医科大学 大阪大学 エジプト国 Damanhour 大学 国際医療福祉 大学病院 中部大学と共同研究で行ったものです 2 研究内容 < 研究の背景と経緯 > H5N1 高病原性鳥インフルエンザウイルスは 1996 年頃中国で出現し 現在までに

分子系統樹推定の落とし穴と回避法 筑波大 生命環境 田辺晶史

ヒトゲノム情報を用いた創薬標的としての新規ペプチドリガンドライブラリー PharmaGPEP TM Ver2S のご紹介 株式会社ファルマデザイン

Microsoft PowerPoint - プレゼンテーション1

バイオインフォマティクスⅠ

物学的現象をはっきりと掌握することに成功した論文である との高い評価を得ています 2. 研究成果ブフネラゲノムの全塩基配列の決定に当たっては 全ゲノムショットガンシークエンス法 4 を用いました 今回ゲノム解析に成功したのは エンドウヒゲナガアブラムシ (Acyrthosiphon pisum) の

大学院博士課程共通科目ベーシックプログラム

Slide 1


TuMV 720 nm 1 RNA 9,830 1 P1 HC Pro a NIa Pro 10 P1 HC Pro 3 P36 1 6K1 CI 6 2 6K2VPgNIa Pro b NIb CP HC Pro NIb CP TuMV Y OGAWA et al.,

Microsoft Word doc

PowerPoint プレゼンテーション

Microsoft PowerPoint - 資料6-1_高橋委員(公開用修正).pptx

スライド 1

分子系統解析における様々な問題について 田辺晶史

Microsoft PowerPoint - 水質(片山).pptx

<4D F736F F F696E74202D2095B68B9E8BE68E7396AF8CF68A4A8D758DC D18F4390B3816A2E B8CDD8AB B83685D>

アルゴリズム入門

Microsoft PowerPoint - pr_12_template-bs.pptx


PowerPoint プレゼンテーション

平成 30 年 9 月 5 日 国立研究開発法人海洋研究開発機構 国立大学法人筑波大学 海洋微生物の中に隠された新しいウイルスワールドを発見 ~RNA ウイルス網羅検出技術の開発と海洋微生物への適用 ~ 1. 概要国立研究開発法人海洋研究開発機構 ( 理事長平朝彦 以下 JAMSTEC という) 海

Presentation Title

生命情報学

「組換えDNA技術応用食品及び添加物の安全性審査の手続」の一部改正について

分子進化モデルと最尤系統推定法 東北大 院 生命科学田邉晶史

<4D F736F F D F D F095AA89F082CC82B582AD82DD202E646F63>

<4D F736F F D E95F14E565F838C D955F907D90E096BE5F8F4390B394C5816A2E646F63>

「組換えDNA技術応用食品及び添加物の安全性審査の手続」の一部改正について

計画研究 年度 定量的一塩基多型解析技術の開発と医療への応用 田平 知子 1) 久木田 洋児 2) 堀内 孝彦 3) 1) 九州大学生体防御医学研究所 林 健志 1) 2) 大阪府立成人病センター研究所 研究の目的と進め方 3) 九州大学病院 研究期間の成果 ポストシークエンシン

プロジェクト概要 ー ヒト全遺伝子 データベース(H-InvDB)の概要と進展

京都府中小企業技術センター技報 37(2009) 新規有用微生物の探索に関する研究 浅田 *1 聡 *2 上野義栄 [ 要旨 ] 産業的に有用な微生物を得ることを目的に 発酵食品である漬物と酢から微生物の分離を行った 漬物から分離した菌については 乳酸菌 酵母 その他のグループに分類ができた また

修士論文予稿集の雛型

Microsoft Word - PRESS_

Microsoft Word - Gateway technology_J1.doc

記載例 : 大腸菌 ウイルス ( 培養細胞 ) ( 注 )Web システム上で承認された実験計画の変更申請については 様式 A 中央の これまでの変更 申請を選択し 承認番号を入力すると過去の申請内容が反映されます さきに内容を呼び出してから入力を始めてください 加齢医学研究所 分野東北太郎教授 ヒ

みどりの葉緑体で新しいタンパク質合成の分子機構を発見ー遺伝子の中央から合成が始まるー

GWB

Microsoft PowerPoint - matsuda-web.pptx

ソフト活用事例③自動Rawデータ管理システム

統合失調症発症に強い影響を及ぼす遺伝子変異を,神経発達関連遺伝子のNDE1内に同定した

bb-8

Progress report



進捗状況の確認 1. gj も gjp も動いた 2. gj は動いた 3. gj も動かない 2

第4回独立行政法人評価委員会技術基盤分科会製品評価技術基盤機構部会 参考資料N2-1 平成15年度NITE業務実績表参考資料集 表紙~P19

2

<4D F736F F D AA96EC82CC837C815B835E838B C6782CC82BD82DF82CC92B28DB F18D908F912E646F63>

JP-NETを活用した特許マップ 作成マニュアル【基礎編】

syoku10_10.indd

11yama

第122号.indd

GWB_RNA-Seq_

ビッグデータ分析を高速化する 分散処理技術を開発 日本電気株式会社

スライド 1

LinuxServerMori.pdf

記載例 : ウイルス マウス ( 感染実験 ) ( 注 )Web システム上で承認された実験計画の変更申請については 様式 A 中央の これまでの変更 申請を選択し 承認番号を入力すると過去の申請内容が反映されます さきに内容を呼び出してから入力を始めてください 加齢医学研究所 分野東北太郎教授 組

15K14554 研究成果報告書

KEGG.ppt

PowerPoint プレゼンテーション

TaKaRa PCR Human Papillomavirus Typing Set

0 スペクトル 時系列データの前処理 法 平滑化 ( スムージング ) と微分 明治大学理 学部応用化学科 データ化学 学研究室 弘昌

クローニングのための遺伝学

インフルエンザ、鳥インフルエンザと新型インフルエンザの違い

れており 世界的にも重要課題とされています それらの中で 非常に高い完全長 cdna のカバー率を誇るマウスエンサイクロペディア計画は極めて重要です ゲノム科学総合研究センター (GSC) 遺伝子構造 機能研究グループでは これまでマウス完全長 cdna100 万クローン以上の末端塩基配列データを

表1_表4

高次元データ スパース正則化学習法 最適化手法 proximal point algorithm 確率最適化手法 2

Untitled


スライド 1

分子系統解析における様々な問題について 田辺晶史

Microsoft PowerPoint - T05_田畑先生【CC-BY】.pptx

,g,g,g,9g

図 /2010~2015/2016 におけるシーズン毎の検出状況 ( 丸の大きさが検出数の程度を表し グラフ内の数字が検出数を示す ) 図 2. RdRp 領域と VP1 領域の遺伝子型の分類 及び検出状況 /2016~2016/17(2 シーズン ) における VP1

1. MEGA 5 をインストールする 1.1 ダウンロード手順 MEGA のホームページ ( から MEGA 5 software をコンピュータにインストールする 2. 塩基配列を決定する 2.1 Alignment E

Transcription:

課題代表者 : 阿部貴志 *1 課題参加者 : 池村淑道 *2 *1 新潟大学 工学部,*2 長浜バイオ大学 地球環境は多様な微生物類により多大な影響を受け 環境修復や保全における役割も大きい 近年のゲノム解読技術の発展は メタゲノム解析 と呼ばれる新分野を生み 次世代シーケンサーの登場によって 全地球レベルでの生物生態系の把握を目標にした大規模解析が行われている ゲノム配列データの爆発的な増加に対応できる手法として 我々は高度な並列化に適した BLSOM を開発し 地球シミュレータを用いて 我が国のメタゲノム解析実験グループとの共同研究を継続している

一括学習型自己組織化マップ BLSOM 生命の設計図であるゲノムは 4 種類の文字 (A, T, G, C; 塩基と呼ぶ ) で書かれている ACAGATTAGACCCTGAC------------------- 例えば ヒトゲノムの場合は 30 億文字 (3Gb) で書かれており 朝刊の新聞に例えると 25 年分 現在は約 4 万種類のゲノムが解読されている 塩基配列が既知なすべての生物のゲノム配列を対象に 各々を 1 万文字 (10 kb) に断片化して以下の単語を数える 2 連塩基 : AA, AC, AG, AT---------------: 16 種類の単語 3 連塩基 : AAA, AAC,AAG ------------: 64 種類の単語 4 連塩基 : AAAA, AAAC, AAAG-------: 256 種類の単語 5 連塩基 : AAAAA, AAAAC, -------: 1024 種類の単語 高次元の大量情報解析のため地球シミュレータを利用

真核生物 13 種のゲノム配列を対象にした 連続塩基の頻度に関する BLSOM 解析の例 3 連塩基 PCA, 10-kb 3 連塩基 BLSOM, 10-kb 3 連塩基 BLSOM, 100-kb パン酵母 ( ), 分裂酵母 ( ), 粘菌 ( ), 赤痢アメーバ ( ), マラリア原虫 ( ), シロイヌナズナ ( ), ウマゴヤシ ( ), イネ ( ), 線虫 ( ), ショウジョウバエ ( ), フグ ( ), ゼブラフィッシュ ( ), ヒト ( ). 4 連塩基 BLSOM, 10-kb 4 連塩基 BLSOM, 100-kb 計算中に生物種の情報を与えなくても 生物種ごとに自己組織化 教師なしの機械学習

Unsupervised data mining: 予備知識やモデルや仮説なしに計算機が教えてくれる 白, ランダム値 ;, 高頻度出現 ;, 低頻度出現 4 連塩基 SOM, 100-kb C A Z D H R F AACC AAGG AATT ACAC AGGA AGGC AGGT ATGG CAGT CGGA CGGC CTCA CTTG GGGA TTAA

全既知原核生物 3,457 属の BLSOM(28 の系統群に分離 ) 断片化サイズ 5kb, 縮退 4 連続塩基での BLSOM マップ ( 解析データ数 :3,868,729 件,136 次元ベクトル,2048 コア利用 ) 強力な可視化機能により 全生物の多様性を俯瞰的に可視化連続塩基出現頻度のみで原核生物および真核生物が高精度 (97%) に分離 連続塩基出現頻度の類似性のみで 生物系統が推定可能

メタゲノム解析 1: 一般的手法の現状 多様な環境から混合ゲノム DNA の抽出 ウイルスは検出不可能 メタ 16S rrna 解析 16S rrna 配列決定 相同性検索 既知微生物 16S rrna 配列データベース 微生物叢のゲノム配列を丸ごと解読 全ての DNA を抽出 調整 メタゲノム解析 遺伝子機能を知る 次世代シーケンサ 系統樹作成 メタケ ノム配列 AGTCTTAGCT TTGAACCTA C CCGTCTTCTA AATCCGGTG

メタゲノム解析 2: 一般的手法の問題点 新規性の高い生物由来ゲノム配列が多く存在 既存の類似配列が少ないため, 配列相同性検索では的確な生物系統推定が困難な場合が多い 配列相同性 ( 配列間のアラインメント ) とは異なる観点での推定手法の開発が必須 BLSOM 連続塩基組成に基づく一括学習型自己組織化マップ (Batch Learning Self-Organizing Map; BLSOM) による生物系統推定法を開発

全既知原核生物 + メタゲノム配列 (from Sargasso Sea) メタゲノム配列で既知生物と一緒にクラスタリング ( 自己組織化 ) した (21%) 8 メタゲノム配列のみ Unclassified (79%) 新規性の高いゲノム探索

最近は環境メタゲノム解析が注目されている 全既知生物種ゲノムの BLSOM ( 毎年更新 ) 原核生物 5,600 種, 真核生物 412 種, ミトコンドリア 4,479 種, 葉緑体 225 種, ウィルス 31,486 種 (1,120 万件 ) での断片化サイズ 5 kb, 縮退 4 連続塩基での大規模 BLSOM 近年 ウィルスに対する要望が高まっている

メタゲノム配列 (300 塩基以上 ) 大規模 BLSOM マップを用いたメタゲノム配列に対する生物系統推定ワークフロー 1 st Step: Kingdom-BLSOM, 生物ドメインの推定 特徴 配列相同性とは異なるアプローチのため 相同性検索よりもロバスト性が高い 配列情報のみで 推定可能 段階的な予測により 新規性の高い微生物種の系統も検出可能 2 nd Step: Prokaryote-BLSOM, 原核生物の Phylum の推定 原核生物と推定された配列をマッピング 新型シーケンサなどにより大量のゲノム配列情報が次々と蓄積されており 各 step の参照用 BLSOM マップを常に最新のものに更新する必要がある. 3 rd Step: Genus-BLSOM, Phylum ごとに Genus の推定 推定された Phylum の BLSOM へマッピング Actinobacteria Alpha-proteobacteria

PEMS (Phylogenetic Estimation of Metagenomic sequence using BLSOM) メタゲノム配列に対する BLSOM を用い た系統推定用ソフトウェアを公開 (ES 成果の利用促進 ) 毎年更新したマップを使用 Kingdom Phylum Genus と多段階での予測が可能 メタケ ノム配列 (FASTA) 各配列の推定結果閲覧 SOM マップ上の分布 サンプル間比較結果 0% 20% 40% 60% 80% 100% 多くの研究者に活用されている http://bioinfo.ie.niigata-u.ac.jp/?pems_soft

巨大メモリーを備えた HPC が可能にするゲノム研究を目指して 超高次元でスパースなビッグデータか らの能率的な知識発見 探索的な試みの例 核酸医薬の英語名 = therapeutic oligonucleotide 20~30 連続塩基の核酸断片 ゲノム 20 mer(4 20 ) は約 1 兆 1 千億の変数それなりの工夫が必要 RNA sirna の場合 RISC と呼ばれるたんぱく質複合体と結合してより効果的! RISC

ウイルス用の核酸医薬のデータベース 20 連程度の塩基のオリゴヌクレオチドを医薬品として使用 抗ウイルス核酸医薬用にデザインされ培養細胞系では活性が確認された例 インフルエンザ A 型ウイルスも重要なターゲット 45 種類の配列が提案 インフルエンザ エボラ マーズ ジカ熱 デング熱のウイルスは極端に進化速度が高く ある時期にデザインされた核酸医薬もその薬効を失いやすい 待ち構え型の核酸医薬のデザイン

ウイルスに対して強力な手法を提供している インフルエンザ エボラ マーズウイルスの変化予測 全インフルエンザ A ウイルス 5350 株を対象とした 4 連続塩基頻度に基づいた BLSOM 解析 : Avian, 1948 株 : Human, 2955 株 : 新型 : Equine, 68 株 : Swine, 249 株 : Other(Seal, Tiger etc), 130 株 単一の宿主生物に由来する配列のみが分離していた格子点は宿主カテゴリー別の色を着色し 複数の宿主由来配列が混在している場合には黒で示している どの配列も分類されていない格子点は白色 感染宿主ごとにウイルスゲノムの特徴が異なっていた

BLSOM ( 教師無し機械学習 ) の発見 新型インフルエンザ株のオリゴヌクレオチド組成の一部は 季節性のヒト由来株からずれていてトリ 豚 馬由来に近い 高頻度 : 低頻度 4 連続塩基の BLSOM AGCG CCAC 新 新 新型 H1N1 CGGC UUUU 新 新 新 これらのオリゴヌクレオチドは次第にヒト由来型に変わると予想してよいか? そうならば 変化の方向を予測できる 一年後に検証可能

H1N1/09 で変化が予想される連続塩基及びコドン H1N1/09 では好まれているが ヒト株では好まれない 減ると予想 Codon GCA, CAG, CUC, AAG, UUC, UCG Di AG, CG, GA Tri AGA, CAG, CCA, GCG, GUG AAGA, ACGG, AGAG, AGCG, AGGA, AUAA, AUCC, CACG, CCAC, Tetra CCAG, CGGC, GACG, GACU, GGCA, GUCG, GUCU, UCCA, UCUU, UGAA, UUCG H1N1/09 では好まれていないが ヒト株で好まれる 増えると予想 Codon CAA, UUG, AAA, UUU, ACU, GUU Di AA, UU Tri AAA, AUU, GGG, UCA, UGU, UUA, UUG, UUU AAAA, AAAC, AACU, AGCU, AUAG, AUUA, CAAA, GGGG, GGUU, Tetra GUCA, GUUG, UAUG, UGUA, UGUU, UUAA, UUAU, UUGU, UUUG, UUUU 2010 年に予測を論文発表 (DNA Res. 2011) した結果が 2012 年に実証された (BMC Infectious Diseases )

流行開始の半年後には H1N1/09 の 2,143 株のゲノム配列が解読された Di 2009/4 2009/8 2009/12 Tri 2009/4 2009/8 2009/12 Tetra 2009/4 2009/8 2009/12 BLSOM による機械学習でインフルエンザウイルスゲノムの月単位でも観測可能なオリゴヌクレオチド組成の変化が明らかになっていた ビッグデータ解析の特徴 まず計算機に聞いてみよう それから... Iwasaki et al. DNA Res 2011; 18: 125-136. Iwasaki et al. BMC Infect Dis 2013; 13: 386.

待ち構え型の核酸医薬のデザイン 実験家がデザインした sirna 配列の出現率のヒト H1N1 と H3N2 と ph1n1 での時系列変化 a c a b c 1 1 1 元 0.5 0.5 0.5 0 1930 1950 1970 1990 2010 0 1930 1950 1970 1990 2010 0 1930 1950 1970 1990 2010 d e f 1 1 1 変異 0.5 0.5 0.5 0 1930 1950 1970 1990 2010 0 1930 1950 1970 1990 2010 0 1930 1950 1970 1990 2010 混合して使用すると良いと考えられる候補 (1 塩基変異 ) の特定. d f 20 mer(4 20 ) は約 1 兆 1 千億の変数 超高次元でスパースなビッグデータからの能率的な知識発見 RNAi について実験的研究がされていない広範なウイルスを対象にした AI に支援された解析が重要になる