バイオインフォマティクス ( 第 2 回 ) 慶 應 義 塾 大 学 生 命 情 報 学 科 榊 原 康 文 ( 朝 日 新 聞 200 年 4 月 5 日 ) ヒトゲノムの 塩 基 配 列 : 28 億 6 千 万 塩 基 99%を 解 読 精 度 は99.99% 以 上
( 朝 日 新 聞 2007 年 4 月 日 ) アカゲザルのゲノム 配 列 : 染 色 体 2 対 (ヒト2 対,チンプ24 対 ) 遺 伝 子 領 域 の 違 い ヒトやチンパンジーと 約 2.5% (ヒトとチンプの 間.2%) などなど 比 較 ゲノム 解 析 ( 朝 日 新 聞 200 年 4 月 日 )
納 豆 菌 (Bacillus subtilis natto )のゲノム ( 朝 日 新 聞 朝 刊 科 学 面 200 年 5 月 4 日 ) A A T 納 豆 菌 ゲノム T G G C C (Nishito et al., BMC Genomics, 200) ゲノムの 大 きさ 大 腸 菌 出 芽 酵 母 ショウジョウバエ ヒト 500 万 塩 基 対,200 万. 億 塩 基 対 塩 基 対 (.8 億 塩 基 対 ) 2 倍 0 倍 < < < 億 塩 基 対 600 倍 Ensembl Genome Browser http://www.ensembl.org/index.html Golden path length (reference assembly length)
ゲノムの 配 列 決 定 物 理 地 図 (DNAマーカーの 位 置 )の 作 成 2 ショットガン 法 シークエンサーによるDNA 断 片 の 配 列 (600~ 700 塩 基 )の 決 定 4 コンピュータによるDNA 断 片 のアセンブル DNAの 配 列
DNAシークエンサー 染 色 体 : ヒトゲノム 配 列 決 定 のショットガン 法 ショットガンにより 断 片 化 : 多 重 な ライブラリー シーケンシングにより 配 列 決 定 アセンブリ: のりしろ 膨 大 な 断 片 の 両 端 を 相 互 に 比 較 して 重 なりを 見 つけて, 元 の 配 列 につなぎ 戻 していく:
ゲノム 配 列 の 決 定 法 大 まかに 分 けて 二 種 類 考 えられる 階 層 的 ショットガン 法 2 ホールゲノムショットガン 法 2 それぞれ 長 所 と 短 所 がある 階 層 的 ショットガン 法 は, 精 度 が 高 いが 時 間 とお 金 と 手 間 がかかる 2 ホールゲノムショットガン 法 は,お 金 や 時 間 が 少 なくてす むが, 精 度 の 問 題 や 長 いゲノムの 配 列 決 定 に 対 しては 問 題 点 も 多 い 階 層 的 ショットガン 法
階 層 的 ショットガン 法 2 階 層 的 ショットガン 法
階 層 的 ショットガン 法 4 2 階 層 的 ショットガン 法 によるゲノムの 配 列 決 定 の 手 順 ゲノムDNAを 染 色 体 ごとに 分 けた 後, 制 限 酵 素 を 用 いて0 万 ~20 万 塩 基 対 の 断 片 に 切 断 断 片 をBAC( 細 菌 人 工 染 色 体 )にクローニング 後,BACクロー ンのBACライブラリを 作 成 物 理 地 図 を 用 いて, 各 BACクローンのゲノム( 染 色 体 ) 上 での 位 置 を 決 定 4 BACクローンの 配 列 を 決 定 するため, 約 2000 塩 基 対 の 長 さの 断 片,ショットガンクローン,に 切 断 ( 超 音 波 などにより 切 断 ) 5 ショットガンクローンの 両 端 約 600 塩 基 の 配 列 を 多 数 決 定 し, それをコンピュータを 用 いてつなぎ 合 わせて,もとのBACク ローンの 配 列 を 決 定 する アセンブリ 6 BACクローンの 配 列 と, 整 列 順 の 情 報 を 使 って 染 色 体 の 配 列 を 決 定 する
階 層 的 ショットガン 法 の 特 徴 精 度 の 高 いゲノム 配 列 が 決 定 できる 2 手 間 と 時 間 とお 金 がかかる 大 きなクローン(BAC)は 作 成 に 時 間 がかかる BACを 並 べ,マップを 作 るのが 大 変 手 作 業 で 並 べなくてはならない 物 理 地 図 作 成 の 方 法 制 限 酵 素 マッピング: 制 限 酵 素 の 切 断 部 位 をDNA 分 子 に 位 置 づける 2 蛍 光 in situ ハイブリダイゼーション: 標 識 したDNA 分 子 をプローブとして, 無 傷 な 染 色 体 にハイブリダイ ゼーションさせることにより,そのマーカーの 位 置 を 決 める (DNAの 標 識 : 蛍 光, 放 射 性,その 他 のマーカーをDNA 分 子 に 付 着 させる) 配 列 タグ 部 位 (STS)マッピング: STSは00~500 塩 基 対 の 短 いDNA 配 列 で,その 塩 基 配 列 がわ かっていて, 対 象 の 染 色 体 やゲノム 上 にただ 度 しか 存 在 しないも の.このように 定 義 されたSTSの 位 置 を, 多 数 のDNA 断 片 の 集 合 とPCRにより 決 定 する
さまざまな 物 理 地 図 ホールゲノムショットガン 法 ( 次 世 代 シークエンサーGA2では,サブクローニング も 行 わない!)
ホールゲノムショットガン 法 2 ドラフト 配 列 カバー 率 :0 万 塩 基 のBACクローンの 配 列 決 定 を0 万 塩 基 分 行 った 場 合,カバー 率 という. シークエンサーの 一 度 の 決 定 塩 基 数 を600とすると,0 万 塩 基 のカバー 率 の 場 合 には, 約 67(00,000/600) 回 のシーク エンスをすることになる 確 率 論 的 に, 正 確 な 配 列 決 定 を 行 うには,0~20のカバー 率 が 必 要 とされる 完 全 配 列 ドラフト 配 列 : 全 ゲノム 配 列 に 対 して,カバー 率 4~5で 配 列 を 決 定 したもの. カバー 率 4~5では 不 完 全 で,7 万 5 千 ヶ 所 もの 穴 があいている, 向 きや 順 番 が 正 しくないものもある 次 世 代 シークエンサー(リード 長 数 十 塩 基 )の 場 合,ドラフト 配 列 でカバー 率 40~50が 必 要.
セレラ 社 によるヒトゲノム 配 列 決 定 セレラ 社 がヒトゲノム 配 列 決 定 を 年 と 見 積 もった 理 由 : ドラフト 配 列 はカバー 率 4~5なので,0 億 の 長 さのヒトゲ ノムの 全 配 列 に 対 して,シークエンサーの 決 定 塩 基 数 600 を 使 って,,000,000,000 4.5 600=22,500,000 回 のシークエンスを 行 うことになる 2 96 穴 シークエンサーは, 約 800 回 / 台 日 シークエンスで きる 22,500,000 800 29,000 台 日 セレラ 社 は,270 台 のシークエンサーを 持 っていた 4 シークエンス 約 0 日,アセンブリに 残 りの 日 数 コンピュータによるDNA 断 片 のアセンブル 2 4 5 6 部 分 文 字 列 をヒントにして, 全 文 字 列 を 決 定 する ( 最 短 共 通 超 文 字 列 (Shortest Common Superstring)) ターゲット: 再 構 築 によって 得 られる 長 い 配 列 フラグメント:2 重 鎖 のどちらかの 鎖 のある 長 さ 分 だけ 5 の 方 向 に 配 列 決 定 したもの 対 象 とする 配 列 の 長 さを0% 程 度 以 内 の 誤 差 で 大 まかに 知 ることができる ショットガン 法 から 得 られた 多 くのフラグメント 間 の 重 なりを もとにターゲット 分 子 の 塩 基 配 列 を 再 構 築 する フラグメントをつなぎ 合 わせる 作 業 を,アセンブルとよぶ
理 想 的 なアセンブルの 例 4つのフラグメント,ターゲットの 長 さ0 塩 基 ACCGT CGTGC TTAC TACCGT 配 列 の 重 複 の 情 報 を 利 用 して,アライメント ACCGT CGTGC TTAC TACCGT ========= TTACCGTGC コンセンサス 配 列 実 際 のアセンブルにおける 問 題 部 分 文 字 列 の 誤 り (ベースコールエラー) 2 部 分 文 字 列 の 向 き 繰 り 返 し 配 列 の 存 在 4 全 体 が 被 覆 されていない 場 合
部 分 文 字 列 の 誤 り ベースコールエラー: 塩 基 の 置 換, 挿 入, 欠 失 00 塩 基 につきから5 塩 基 程 度 の 頻 度 で 起 こる 置 換 エラー ACCGT CGTGC TTAC TGCCGT ACCGT CGTGC TTAC TGCCGT ========= TTACCGTGC 部 分 文 字 列 の 誤 り 挿 入 エラー ACCGT CAGTGC TTAC TACCGT ACC GT CAGTGC TTAC TACC GT ========== TTACC GTGC
部 分 文 字 列 の 誤 り 欠 失 エラー ACCGT CGTGC TTAC TACGT (TACCGT) ACCGT CGTGC TTAC TA CGT ========= TTACCGTGC 部 分 文 字 列 の 向 き フラグメントはDNA2 重 鎖 の 両 方 からくるので, 通 常 はど ちらの 鎖 に 含 まれるかわからない. 相 補 鎖 からの2つの フラグメントは, 向 きが 反 対 でかつ 塩 基 は 相 補 的 となる CACGT ACGT ACTACG GTACT ACTGA CTGA CACGT ACGT CGTAGT AGTAC ACTGA CTGA ============= CACGTAGTACTGA
繰 り 返 し 配 列 の 存 在 繰 り 返 し 配 列 :ターゲット 分 子 内 に,2 回 以 上 現 れる 配 列 Double Barreled ショットガン 法
Mate Pair ( Double Barreled ショットガン 法 ) ゲノムアセンブラ 用 語
アセンブルのアルゴリズム エラーがなく,かつ 向 きが 分 かっていることを 仮 定 2 最 短 共 通 超 文 字 列 (Shortest Common Superstring) ハミルトン 経 路 アルゴリズム (グラフ 問 題 ) 最 短 共 通 超 文 字 列 (SCS): 入 力 : 文 字 列 の 集 合 F 出 力 : 次 の 条 件 を 満 たす 最 短 の 文 字 列 S: S は,すべての w F に 対 して,w の 超 文 字 列 である 例 ) F = {ACCGT,CGTGC,TTAC,TACCGT} S = TTACCGTGC は F の 最 短 共 通 超 文 字 列 有 向 マルチグラフ 集 合 F の 有 向 マルチグラフとは: 各 ノードには, 集 合 F の 要 素 がラベル 付 けされている. 2 ノード a からノード b に 伸 びる 重 み t の 有 向 辺 が 存 在 する: suffix(a, t ) = prefix(b, t ) TGGCAAT 2 CTTT AATGGC 5 4 有 向 マルチグラフ 上 での 最 大 重 みをもつハミルトン 経 路 は, 最 短 共 通 超 文 字 列 を 与 える 4 TAG GGCC
欲 張 りアルゴリズム ハミルトン 経 路 とは: すべてのノードを ただ 一 度 だけ 通 過 する 経 路 ( 二 度 通 過 はダメ, 一 度 も 通 らないのもダメ) ハミルトン 経 路 を 求 める 問 題 は, 計 算 量 的 に 難 しい(NP 困 難 ) 欲 張 りアルゴリズム: それまでに 選 ばれた 経 路 をそのままにして,ハミルトン 経 路 の 性 質 を 乱 さないように 最 大 の 重 みの 辺 を 追 加 していく 必 ずしも 最 大 重 みをもつハミルトン 経 路 を 見 つけるわけではない 欲 張 りアルゴリズムの 例 AATGGC 4 TGGCAAT 2 CTTT 5 4 TAG GGCC 欲 張 りアルゴリズム: 2 4 5 重 み:7 最 大 重 みハミルトン 経 路 : 2 4 5 重 み:8
ハミルトン 経 路 から 算 出 されるアセンブリ TGGCAAT CTTT AATGGC 4 2 5 4 TAG 欲 張 りアルゴリズム: 2 4 5 重 み:7 GGCC AATGGCAATAGGCCTTT ( 長 さ7) 最 大 重 みハミルトン 経 路 : 2 4 5 重 み:8 TGGCAATGGCCTTTAG ( 長 さ6) ハミルトン 経 路 から 算 出 されるアセンブリ 最 大 重 みハミルトン 経 路 によるアセンブリ: TGGCAAT AATGGC GGCC CTTT TAG ================ TGGCAATGGCCTTTAG コンセンサス 配 列
アセンブリの 演 習 問 題 学 籍 番 号 : 名 前 : 下 記 のフラグメント 配 列 から, 有 向 グラフを 作 成 2 欲 張 りアルゴリズムによりハミルトン 経 路 を 計 算 最 短 共 通 超 文 字 列 を 求 めて,ターゲット 配 列 を 決 定