バイオインフォマティクスⅠ

Similar documents
Microsoft PowerPoint - bioinformatics-2-p

GWB

次世代シークエンサーを用いたがんクリニカルシークエンス解析

NGSデータ解析入門Webセミナー

バイオインフォマティクスⅠ

機能ゲノム学(第6回)

Microsoft PowerPoint - ad11-09.pptx

GWB

Microsoft PowerPoint - DNA1.ppt [互換モード]

手順 ) 1) プライマーの設計 発注変異導入部位がプライマーのほぼ中央になるようにする 可能であれば 制限酵素サイトができるようにすると確認が容易になる プライマーは 25-45mer で TM 値が 78 以上になるようにする Tm= (%GC)-675/N-%mismatch

分子系統解析における様々な問題について 田辺晶史

Microsoft PowerPoint - 社外資料_TruSeq Synthetic Long-Read DNA Library Prep.pptx

井上先生 報告書 清水

PowerPoint プレゼンテーション

EBNと疫学

シーケンサー利用技術講習会 第10回 サンプルQC、RNAseqライブラリー作製/データ解析実習講習会

GWB

計画研究 年度 定量的一塩基多型解析技術の開発と医療への応用 田平 知子 1) 久木田 洋児 2) 堀内 孝彦 3) 1) 九州大学生体防御医学研究所 林 健志 1) 2) 大阪府立成人病センター研究所 研究の目的と進め方 3) 九州大学病院 研究期間の成果 ポストシークエンシン

Microsoft PowerPoint - DA2_2018.pptx

Microsoft PowerPoint - DA2_2017.pptx

オートマトンと言語

オートマトン 形式言語及び演習 1. 有限オートマトンとは 酒井正彦 形式言語 言語とは : 文字列の集合例 : 偶数個の 1 の後に 0 を持つ列からなる集合 {0, 110, 11110,

論文題目  腸管分化に関わるmiRNAの探索とその発現制御解析

大学院博士課程共通科目ベーシックプログラム

Presentation Title Arial 28pt Bold Agilent Blue

Introduction to Illumina Next Generation Sequencing (NGS)

分子進化モデルと最尤系統推定法 東北大 院 生命科学田邉晶史

Microsoft PowerPoint - DA2_2017.pptx

生命情報学

修士論文予稿集の雛型

Microsoft PowerPoint - 3. 資料2 がんゲノム情報管理センターの進捗状況

ChIP-seq

PrimeSTAR® Mutagenesis Basal Kit

データ構造

4 月 東京都立蔵前工業高等学校平成 30 年度教科 ( 工業 ) 科目 ( プログラミング技術 ) 年間授業計画 教科 :( 工業 ) 科目 :( プログラミング技術 ) 単位数 : 2 単位 対象学年組 :( 第 3 学年電気科 ) 教科担当者 :( 高橋寛 三枝明夫 ) 使用教科書 :( プロ

Microsoft Word - FMB_Text(PCR) _ver3.doc

リアルタイムPCR実験のためのガイドライン

ボルツマンマシンの高速化

3rd-jikken-ngs

Matrix and summation convention Kronecker delta δ ij 1 = 0 ( i = j) ( i j) permutation symbol e ijk = (even permutation) (odd permutation) (othe

cp-7. 配列

Microsoft PowerPoint - 資料6-1_高橋委員(公開用修正).pptx

GeneArt

リード・ゲノム・アノテーションインポート

Microsoft PowerPoint - H21生物計算化学2.ppt

図 1 アドインに登録する メニューバーに [BAYONET] が追加されます 登録 : Excel 2007, 2010, 2013 の場合 1 Excel ブックを開きます Excel2007 の場合 左上の Office マークをクリックします 図 2 Office マーク (Excel 20

今回のプログラミングの課題 ( 前回の課題で取り上げた )data.txt の要素をソートして sorted.txt というファイルに書出す ソート (sort) とは : 数の場合 小さいものから大きなもの ( 昇順 ) もしくは 大きなものから小さなもの ( 降順 ) になるよう 並び替えること

離散数学


Slide 1

040402.ユニットテスト


NGS速習コース

小児の難治性白血病を引き起こす MEF2D-BCL9 融合遺伝子を発見 ポイント 小児がんのなかでも 最も頻度が高い急性リンパ性白血病を起こす新たな原因として MEF2D-BCL9 融合遺伝子を発見しました MEF2D-BCL9 融合遺伝子は 治療中に再発する難治性の白血病を引き起こしますが 新しい

リアルタイムPCRの基礎知識

多様なモノクロナル抗体分子を 迅速に作製するペプチドバーコード手法を確立 動物を使わずに試験管内で多様な抗体を調製することが可能に 概要 京都大学大学院農学研究科応用生命科学専攻 植田充美 教授 青木航 同助教 宮本佳奈 同修士課程学生 現 小野薬品工業株式会社 らの研究グループは ペプチドバーコー

PowerPoint Presentation

Microsoft Word - NumericalComputation.docx

バイオインフォマティクスⅠ

GWB_RNA-Seq_

Microsoft Word - シート集7A2_707.docx

MLPA 法 Q&A 集

Transcription:

バイオインフォマティクス ( 第 2 回 ) 慶應義塾大学生命情報学科 榊原康文

( 朝日新聞 2003 年 4 月 15 日 ) ヒトゲノムの塩基配列 : 28 億 6 千万塩基 99% を解読精度は 99.99% 以上

( 朝日新聞 2007 年 4 月 13 日 ) アカゲザルのゲノム配列 : 染色体 21 対 ( ヒト 23 対, チンプ 24 対 ) 遺伝子領域の違いヒトやチンパンジーと約 2.5% ( ヒトとチンプの間 1.2%) などなど 比較ゲノム解析

アサガオの全ゲノム解読

納豆菌 (Bacillus subtilis natto ) のゲノム A A T 納豆菌ゲノム T G G C C ( 朝日新聞朝刊科学面 2010 年 5 月 14 日 ) (Nishito et al., BMC Genomics, 2010)

ゲノムの大きさ 大腸菌 出芽酵母 ショウジョウバエ ヒト 500 万塩基対 1,200 万 1.3 億塩基対 塩基対 (1.8 億塩基対 ) 2 倍 30 倍 < < < 30 億塩基対 600 倍 Ensembl Genome Browser http://www.ensembl.org/index.html Golden path length (reference assembly length)

ゲノムの配列決定 1 物理地図 (DNAマーカーの位置) の作成 2 ショットガン法 3 シークエンサーによるDNA 断片の配列 (600~ 700 塩基 ) の決定 4 コンピュータによるDNA 断片のアセンブル

DNAの配列

DNA シークエンサー

染色体 : ヒトゲノム配列決定のショットガン法 ショットガンにより断片化 : 多重なライブラリー シーケンシングにより配列決定 アセンブリ : のりしろ 膨大な断片の両端を相互に比較して重なりを見つけて, 元の配列につなぎ戻していく :

ゲノム配列の決定法 1 大まかに分けて二種類考えられる 1. 階層的ショットガン法 2. ホールゲノムショットガン法 2 それぞれ長所と短所がある 1. 階層的ショットガン法は, 精度が高いが時間とお金と手間がかかる 2. ホールゲノムショットガン法は, お金や時間が少なくてすむが, 精度の問題や長いゲノムの配列決定に対しては問題点も多い

階層的ショットガン法 1

階層的ショットガン法 2

階層的ショットガン法 3

階層的ショットガン法 4

1 2 3 4 階層的ショットガン法によるゲノムの配列決定の手順 ゲノムDNAを染色体ごとに分けた後, 制限酵素を用いて GC GGCCGC 10 万 CGCCGG CG ~20 万塩基対の断片に切断 断片を BAC( 細菌人工染色体 ) にクローニング後,BAC クローンの BAC ライブラリを作成 物理地図を用いて, 各 BAC クローンのゲノム ( 染色体 ) 上での位置を決定 BAC クローンの配列を決定するため, 約 2000 塩基対の長さの断片, ショットガンクローン, に切断 ( 超音波などにより切断 ) 5 ショットガンクローンの両端約 600 塩基の配列を多数決定し, それをコンピュータを用いてつなぎ合わせて, もとの BAC クローンの配列を決定する アセンブリ 6 NotI の制限酵素サイト : BAC クローンの配列と, 整列順の情報を使って染色体の配列を決定する

階層的ショットガン法の特徴 1 精度の高いゲノム配列が決定できる 2 手間と時間とお金がかかる 大きなクローン (BAC) は作成に時間がかかる BACを並べ, マップを作るのが大変 手作業で並べなくてはならない

1 制限酵素マッピング : 物理地図作成の方法 制限酵素の切断部位を DNA 分子に位置づける 2 蛍光 in situ ハイブリダイゼーション : 標識したDNA 分子をプローブとして, 無傷な染色体にハイブリダイゼーションさせることにより, そのマーカーの位置を決める (DNAの標識: 蛍光, 放射性, その他のマーカーをDNA 分子に付着させる ) 3 配列タグ部位 (STS) マッピング : STSは100~500 塩基対の短いDNA 配列で, その塩基配列がわかっていて, 対象の染色体やゲノム上にただ1 度しか存在しないもの. このように定義されたSTSの位置を, 多数のDNA 断片の集合とPCRにより決定する

さまざまな物理地図

ホールゲノムショットガン法 1 ( 次世代シークエンサーでは, サブクローニングも行わない!)

ホールゲノムショットガン法 2

ドラフト配列 カバー率 :10 万塩基の BAC クローンの配列決定を 10 万塩基分行った場合, カバー率 1 という. シークエンサーの一度の決定塩基数を 600 とすると,10 万塩基のカバー率 1 の場合には, 約 167(100,000/600) 回のシークエンスをすることになる 確率論的に, 正確な配列決定を行うには,10~20 のカバー率が必要とされる 完全配列 ドラフト配列 : 全ゲノム配列に対して, カバー率 4~5 で配列を決定したもの. カバー率 4~5 では不完全で,7 万 5 千ヶ所もの穴があいている, 向きや順番が正しくないものもある 次世代シークエンサー ( リード長数十塩基 ) の場合, ドラフト配列でカバー率 40~50 が必要.

セレラ社によるヒトゲノム配列決定 1 セレラ社がヒトゲノム配列決定を 1 年と見積もった理由 : 1 ドラフト配列はカバー率 4~5 なので,30 億の長さのヒトゲノムの全配列に対して, シークエンサーの決定塩基数 600 を使って, 3,000,000,000 4.5 600=22,500,000 回 のシークエンスを行うことになる 2 96 穴シークエンサーは, 約 800 回 /1 台 1 日シークエンスできる 22,500,000 800 29,000 台 日 3 セレラ社は,270 台のシークエンサーを持っていた 4 シークエンス約 110 日, アセンブリに残りの日数

次世代シークエンサーの登場 従来のシークエンサー (ABI 社 3730xl) 処理能力 Mbp / 日 ~2 リード長 bp ~800 次世代シークエンサー (Illumina 社 HiSEQ4000) ~400,000 ~150 従来のゲノム解読 数ヵ国のプロジェクトが協力 数億円の規模の莫大な費用 個人ゲノムを 1000 ドルで読む時代へ

コンピュータによる DNA 断片のアセンブル 1 2 3 4 5 6 部分文字列をヒントにして, 全文字列を決定する ( 最短共通超文字列 (Shortest Common Superstring)) ターゲット : 再構築によって得られる長い配列 フラグメント :2 重鎖のどちらかの鎖のある長さ分だけ 5 3 の方向に配列決定したもの 対象とする配列の長さを 10% 程度以内の誤差で大まかに知ることができる ショットガン法から得られた多くのフラグメント間の重なりをもとにターゲット分子の塩基配列を再構築する フラグメントをつなぎ合わせる作業を, アセンブルとよぶ

理想的なアセンブルの例 1 4 つのフラグメント, ターゲットの長さ 10 塩基 ACCGT CGTGC TTAC TACCGT 配列の重複の情報を利用して, アライメント --ACCGT-- ----CGTGC TTAC----- -TACCGT-- ========= TTACCGTGC コンセンサス配列

実際のアセンブルにおける問題 1 部分文字列の誤り ( ベースコールエラー ) 2 部分文字列の向き 3 繰り返し配列の存在 4 全体が被覆されていない場合

部分文字列の誤り 1 ベースコールエラー : 塩基の置換, 挿入, 欠失 100 塩基につき 1 から 5 塩基程度の頻度で起こる 置換エラー ACCGT CGTGC TTAC TGCCGT --ACCGT-- ----CGTGC TTAC----- -TGCCGT-- ========= TTACCGTGC

部分文字列の誤り 挿入エラー ACCGT CAGTGC TTAC TACCGT --ACC-GT-- ----CAGTGC TTAC------ -TACC-GT-- ========== TTACC-GTGC

部分文字列の誤り 欠失エラー ACCGT CGTGC TTAC TACGT (TACCGT) --ACCGT-- ----CGTGC TTAC----- -TA-CGT-- ========= TTACCGTGC

部分文字列の向き 1 フラグメントは DNA2 重鎖の両方からくるので, 通常はどちらの鎖に含まれるかわからない. 相補鎖からの 2 つのフラグメントは, 向きが反対でかつ塩基は相補的となる CACGT ACGT ACTACG GTACT ACTGA CTGA CACGT-------- -ACGT-------- --CGTAGT----- -----AGTAC--- --------ACTGA ---------CTGA ============= CACGTAGTACTGA

繰り返し配列の存在 繰り返し配列 : ターゲット分子内に,2 回以上現れる配列

Double Barreled ショットガン法

Mate Pair ( Double Barreled ショットガン法 )

ゲノムアセンブラ用語

アセンブルのアルゴリズム 1 エラーがなく, かつ向きが分かっていることを仮定 2 最短共通超文字列 (Shortest Common Superstring) 3 ハミルトン経路アルゴリズム ( グラフ問題 ) 最短共通超文字列 (SCS): 入力 : 文字列の集合 F 出力 : 次の条件を満たす最短の文字列 S: S は, すべての w F に対して,w の超文字列である 例 ) F = {ACCGT,CGTGC,TTAC,TACCGT} S = TTACCGTGC は F の最短共通超文字列

有向マルチグラフ 集合 F の有向マルチグラフとは : 1 各ノードには, 集合 F の要素がラベル付けされている. 2 ノード a からノード b に伸びる重み t の有向辺が存在する : suffix(a, t ) = prefix(b, t ) TGGCAAT 2 1 CTTT AATGGC 5 4 有向マルチグラフ上での最大重みをもつハミルトン経路は, 最短共通超文字列を与える 3 1 1 1 1 1 3 3 1 4 TAG GGCC

欲張りアルゴリズム ハミルトン経路とは : すべてのノードを ただ一度だけ 通過する経路 ( 二度通過はダメ, 一度も通らないのもダメ ) ハミルトン経路を求める問題は, 計算量的に難しい (NP 困難 ) 欲張りアルゴリズム : それまでに選ばれた経路をそのままにして, ハミルトン経路の性質を乱さないように最大の重みの辺を追加していく 必ずしも最大重みをもつハミルトン経路を見つけるわけではない

欲張りアルゴリズムの例 AATGGC 1 4 3 3 TGGCAAT 2 1 1 1 1 4 GGCC CTTT 5 1 3 1 TAG 欲張りアルゴリズム : 1 2 3 4 5 重み :7 最大重みハミルトン経路 : 2 1 4 5 3 重み :8

ハミルトン経路から算出されるアセンブリ TGGCAAT CTTT AATGGC 4 3 2 1 1 1 5 1 1 3 4 1 1 3 TAG 欲張りアルゴリズム : 1 2 3 4 5 重み :7 GGCC AATGGCAATAGGCCTTT ( 長さ 17) 最大重みハミルトン経路 : 2 1 4 5 3 重み :8 TGGCAATGGCCTTTAG ( 長さ 16)

ハミルトン経路から算出されるアセンブリ 最大重みハミルトン経路によるアセンブリ : TGGCAAT--------- ----AATGGC------ -------GGCC----- ----------CTTT-- -------------TAG ================ TGGCAATGGCCTTTAG コンセンサス配列

アセンブリの演習問題学籍番号 : 名前 : 下記のフラグメント配列から, 1 有向グラフを作成 2 欲張りアルゴリズムによりハミルトン経路を計算 3 最短共通超文字列を求めて, ターゲット配列を決定