2015.08.04 AJACS 米 子 次 世 代 シークエンサーを 用 いた がん 細 胞 のオミクス 解 析 国 立 がん 研 究 センター 先 端 医 療 開 発 センター トランスレーショナルリサーチ 分 野 鈴 木 絢 子
本 日 の 予 定 Session 1 シークエンスタグのマッピングと 可 視 化 (RNA Seq) Session 2 データベースDBTSSの 紹 介
東 京 大 学 医 科 学 研 究 所 ヒトゲノムセンター スーパーコンピュータ https://supcom.hgc.jp/japanese/ スパコンサポート 係 の 方 に ご 助 力 いただきました ありがとうございます https://supcom.hgc.jp/japanese/sys_const/system main.html
スパコンのアカウント ユーザ 名 : lect 2 ~ lect 50 パスワード: ****** 今 から 一 人 一 人 にアカウントを 割 り 当 てます 自 分 のユーザ 名 をメモしてください パスワードは 講 習 会 当 日 にお 知 らせいたします パスワードは 変 更 しないでください 作 業 は 自 分 のホームで 行 ってください
本 日 用 いるソフトウェアの 準 備 ターミナルソフト TeraTerm Windows PCからLinux 環 境 のマシンへアクセスするのに 必 要 Macはターミナルでリモートアクセスできます Cygwinをインストール 済 みの 方 も 不 要 です インストールは 基 本 的 にデフォルトの 設 定 で 問 題 ありません http://osdn.jp/projects/ttssh2/releases/63335 ファイル 転 送 ソフト WinSCP Windows PC Linux 環 境 のデータのやり 取 りに 必 要 Macはターミナルでデータのアップロード/ダウンロードできます Cygwinインストール 済 みの 方 は 不 要 です http://winscp.net/eng/download.php ゲノムビューワー IGV (Integrative Genomics Viewer) リファレンスゲノム 上 にアライメントされたシークエンスタグを 可 視 化 するツール [ for Win ] http://dbtss.hgc.jp/cgi bin/downloader2.cgi/igv_2.3.32.zip [ for Mac ] http://dbtss.hgc.jp/cgi bin/downloader2.cgi/igv_2.3.32.app.zip すでにインストールされています 起 動 するか 確 認 してください
Windows PCから 解 析 サーバへのログイン1 TeraTermを 開 きます 接 続 先 の 設 定 画 面 にて ホストのボックス にIPアドレスngw.hgc.jpを 入 力 し OKをク リックします
Windows PCから 解 析 サーバへのログイン2 ユーザ 名 とパスワードを 入 力 します ユーザ 名 : lect 2 ~ lect 50 パスワード: ***** 自 分 のユーザ 名 (lect 2 ~ lect 50)を 入 れてください OKを 押 します 正 しくログインできると [lect 1@xxxxx ~]$ と 表 示 されます
ディレクトリ 構 造 / ルートディレクトリ bin etc root home media ls cp lect 1 lect 2 lect 3 bbb aaa.txt xxx.sh ホームディレクトリ ccc.txt ルートディレクトリ: ツリー 構 造 のトップとなるディレクトリ ホームディレクトリ: 各 ユーザがログインしたときの 最 初 のディレクトリ(/home/[user ID]) カレントディレクトリ: 現 在 作 業 しているディレクトリ
ディレクトリ 関 係 の 基 本 コマンド cd: 指 定 のディレクトリに 移 動 する ディレクトリAに 移 動 する 場 合 $ cd A cdのみ 入 力 した 場 合 はホームディレクトリへ 移 動 する cd..と 入 力 した 場 合 は 一 つ 上 のディレクトリに 移 動 する pwd: 現 在 のディレクトリを 表 示 する $ pwd ls: 指 定 のディレクトリ 内 のディレクトリ ファイルを 表 示 する ディレクトリAのファイルを 表 示 する $ ls A lsのみを 入 力 した 場 合 は カレントディレクトリのファイルが 表 示 される lオプションをつけると 詳 細 表 示 になり tオプションをつけると 更 新 日 時 でソートされる 実 習 実 際 にコマンドを 入 力 しましょう $ pwd $ ls $ ls lt $ cd jishu $pwd $ls $ ls lt $ cd $pwd
ファイル 内 容 を 表 示 するコマンド cat: ファイルの 全 内 容 を 表 示 する $ cat a.txt 一 度 に 全 部 表 示 されるため 大 きいサイズのファイルには 不 向 き head, tail: ファイルの 先 頭 末 端 を 表 示 (デフォルトでは10 行 ) $ head a.txt $ tail a.txt 100 行 表 示 したい 場 合 は nオプションを 付 ける $ head n 100 a.txt more, less: ファイルの 内 容 をコマ 送 りで 表 示 する $ more a.txt $ less a.txt Enterもしくはspaceキーで 進 む lessコマンドは キーでファイルを 自 由 に 見 ることができる qと 打 つと more, lessコマンドを 途 中 で 中 断 できる 実 習 実 際 にコマンドを 入 力 しましょう $ cat /home/lect 1/readme.txt $ cat /home/lect 1/news.txt $ head /home/lect 1/news.txt $ tail /home/lect 1/news.txt $ more /home/lect 1/news.txt $ less /home/lect 1/news.txt
ファイル ディレクトリの 作 成 移 動 削 除 コマンド cp: ファイルの 複 製 ファイルa.txtをカレントディレクトリにコピーする 場 合 $ cp a.txt. ファイルa.txtをディレクトリAの 中 にコピーする 場 合 $ cp a.txt A mkdir: 新 規 にディレクトリを 作 成 する ディレクトリAを 作 成 する $ mkdir A mv: ファイルの 移 動 ファイルa.txtをディレクトリAに 移 動 する $ mv a.txt A rm: ファイルを 削 除 する ファイルa.txtを 削 除 する $ rm a.txt ディレクトリを 削 除 するときは rオプションを 付 ける $ rm r A 一 度 データを 削 除 すると 復 元 することはできません 実 習 実 際 にコマンドを 入 力 しましょう $ cd $ cp /home/lect 1/readme.txt. $ ls lt $ mkdir work $ ls lt $ mv readme.txt work $ ls lt $ cd work $pwd $ls lt $ rm readme.txt $ ls lt $ cd.. $ pwd $ ls lt $ rm r work $ ls lt
ディレクトリ/home/lect 1にあるreadme.txtを カレントディレクトリ(ホームディレクトリ)にコピー ディレクトリworkを 作 成 し readme.txtをディレクトリworkに 移 動 ディレクトリworkに 移 動 する ディレクトリworkに 移 動 させた readme.txtを 削 除 一 つ 上 のディレクトリ (ホームディレクトリ)に 戻 る ディレクトリworkを 削 除
解 析 データのWindows PCへのダウンロード WinSCPを 開 き 以 下 の 情 報 を 入 力 します ホスト 名 :ngw.hgc.jp ユーザ 名 : lect 2 ~ lect 50 パスワード: ****
解 析 データのWindows PCへのダウンロード LinuxからWindows PCへのデータコピー 下 図 のようなウィンドウが 表 示 されます 左 側 がWindows PC 右 側 が 解 析 サーバ(Linux)です ファイルあるいはフォルダをクリックし ドラッグ&ドロップを 実 行 すると データコピーが 始 まります 後 で 使 用 します Windows Linux
シークエンス 可 視 化 Integrative Genomics Viewer(IGV) シークエンスデータの 可 視 化 に 使 用 します IGVを 起 動 してみてください Human hg19を 選 択 してください あとで 使 用 しますので うまく 起 動 しない 方 や Human hg19 がない 方 がいましたら お 知 らせください
Session 1 シークエンスタグのマッピングと 可 視 化 (RNA Seq)
課 題 1 ホームディレクトリに 入 り 5Gのメモリが 必 要 なので 要 求 する (サーバによって 異 なる) $ qlogin l s_vmem=5g l mem_req=5 $ pwd $ cd jishu $ ls $ /bin/sh MAPPING.sh MAPPING.shを 実 行 ディレクトリjishuに 移 動 してファイルを 確 認 と 打 ってください 内 容 は あとで 説 明 いたします
次 世 代 シークエンサー Illumina MiSeq / HiSeqシリーズ リード 長 : 短 鎖 主 たる 用 途 :ゲノムシークエンシング, エキソームシークエンシング, トランスクリプトームシークエンシング Ion PGM / Ion Proton デスクトップ 型 シークエンサー リード 長 : 短 鎖 主 たる 用 途 : アンプリコンシークエンシング, エキソームシークエンシング HiSeq2500 ( 東 大 新 領 域 鈴 木 研 ) PacBio RS II 1 分 子 リアルタイムシークエンサー リード 長 : 最 長 >20 kbの 長 鎖 リード 主 たる 用 途 :De novoアセンブル, 細 菌 ゲノムのシークエンシング, 構 造 多 型 の 解 析 ONT MinION / GredION / PromethION ナノポアシークエンサー リード 長 : 短 鎖 ~ 数 kbの 長 鎖 主 たる 用 途 :DNA RNAシークエンシング MinION ( 東 大 新 領 域 鈴 木 研 ) 参 考 次 世 代 シークエンサー 医 学 のあゆみ 医 学 医 療 のいまがわかるキーワード2014, 医 歯 薬 出 版 株 式 会 社
用 途 も 様 々 Whole genome/exome sequencing DNA 配 列 を 解 読 し SNP/SNVs やindel 等 を 同 定 する RNA Seq small RNA Seq mrnaやsmall RNAをシークエンスし 発 現 量 の 計 算 や 新 規 転 写 産 物 の 同 定 を 行 う ChIP Seq ヒストン 修 飾 や 転 写 因 子 の 結 合 部 位 を 同 定 する Bisulfite sequencing DNAのメチル 化 のパターンを 検 出 する TSS Seq 転 写 開 始 点 を 同 定 する など
鋳 型 に 併 せて 解 析 フローも 様 々 BaseCall 画 像 ファイルから fastqファイルへ *.fastq 業 界 標 準 形 式 Mapping Assemble RNA Seqの 場 合 は 発 現 量 解 析 Splice pattern 解 析 Fusion geneの 検 出 ChIP Seqの 場 合 は 抗 体 で 落 ちてきた 領 域 を 検 出 する Whole genome/ exome sequencingの 場 合 はSNPやindelを 検 出 データ 可 視 化 Clustering, Pathway 解 析, GO 解 析 など さらなる 解 析 を 進 める
fastqファイル (シークエンスファイル) Quality 悪 Quality 良 参 照 : http://en.wikipedia.org/wiki/fastq_format
fastqファイル (シークエンスファイル) シークエンスファイルを 見 てみましょう 新 しくTeraTermを 立 ち 上 げて ログインしてください 実 習 実 際 にコマンドを 入 力 しましょう $ less /home/lect 1/sample_1.fq $ less /home/lect 1/sample_2.fq lessコマンドは qで 終 了 します wcコマンドでシークエンスのリード 数 を 数 えてみましょう 実 習 実 際 にコマンドを 入 力 しましょう $ wc /home/lect 1/sample_1.fq 行 数 単 語 数 バイト 数 15095664 行 ありました fastqファイルは4 行 で1リード 分 なので このファイルには3773916リード 入 ってい ることになります
課 題 2 実 際 に 今 回 使 ったシークエンスファイル (fastqファイル)の 中 身 をみてみましょう 実 習 実 際 にコマンドを 入 力 しましょう $ cd jishu $ ls lt $ less LC2ad.fq 課 題 3 fastqファイルは 4 行 で 1リード 分 ということでしたが この LC2ad.fq のファイル 中 には 実 習 実 際 にコマンドを 入 力 しましょう 何 本 のリードがあるか 数 えてみましょう $ wc LC2ad.fq
シークエンスをヒトゲノムにマッピング 見 てもらったfastqデータは 先 ほどの 課 題 1で ヒトの 参 照 ゲノム 配 列 に 対 して マッピングを 実 行 中 です. 実 習 実 際 にコマンドを 入 力 しましょう 投 げたjobの 中 身 を みてみましょう! $ less MAPPING.sh おまじない BWAというソフトウェアでマッピング bwa aln アライメント bwa samse SAMファイル 作 成 SAMtoolsというソフトウェアで SAMファイルをBAMファイルにする
Mapping software も 様 々 ELAND Illumina 社 のソフトウェア BWA indelのマッピングに 強 く ゲノム エキソーム 解 析 に 適 している Bowtie 少 ないメモリで 高 速 にマッピングする(indelに 弱 い) TopHat スプライスを 考 慮 してマッピングする RNA Seqに 適 している など http://lh3lh3.users.sourceforge.net/ngsalign.shtml
参 照 ゲノム 配 列 Human, mouse などの 主 なモデル 生 物 の リファレンスゲノムや 遺 伝 子 モデル 等 のアノテーションデータは UCSCやNCBIより 取 得 できます http://hgdownload.soe.ucsc.edu/downloads.html 今 回 参 照 ゲノム 配 列 として 用 いたUCSC hg19です
先 ほどの 課 題 1の マッピングはおわりましたでしょうか?? 下 記 の 出 力 ファイルが 出 てきているか 確 認 してください 出 力 データ LC2ad.fq LC2ad.sai LC2ad.sam LC2ad.bam LC2ad_sort.bam LC2ad_sort.bam.bai Raw データ(シークエンスタグ) マッピング 結 果 実 習 実 際 にコマンドを 入 力 しましょう $ ls lt
SAM (BAM) 形 式 データ http://samtools.sourceforge.net/samtools.shtml SAMファイルの 中 身 を 眺 めてみましょう 実 習 実 際 にコマンドを 入 力 しましょう $ less LC2ad.sam $ samtools view LC2ad.bam more https://cell innovation.nig.ac.jp/wiki/tiki index.php?page=sam
データ 可 視 化 https://www.broadinstitute.org/igv/home
課 題 4 マッピングしたデータを 可 視 化 ツール(IGV) でみてみましょう WinSCPを 用 いて Windows PCのデスクトップに LC2ad_sort.bam および LC2ad_sort.bam.bai を ダウンロードしてください IGVを 起 動 させて リファレンスゲノムは 左 端 上 より Human hg19 を 選 択 してください IGVのFile Load from File でLC2ad_sorted.bamを 開 いてください
IGV 表 示 内 容 Symbol や 座 標 で 検 索 可 能 Zoom in / out Coverage track Map reads truck Gene track DHCR24 と 検 索 してみましょう
右 クリック show all bases で 全 ての 塩 基 を 表 示 できる 拡 大 すると 塩 基 レベルまで 見 られる リファレンスゲノムと 違 う 部 分 ( 多 型 や 変 異 )が 分 かる
Tools Run igvtools おまけ igvtoolsというツールを 使 うと Window sizeごとにシークエンスを カウントしてバイナライズ 化 した ファイル (.tdf)を 作 成 できる Input FileにBAMファイル(LC2ad.bam)を 選 択 Run TDFファイルをIGVで 開 いてみましょう 色 や 表 示 を 変 えることができます
課 題 5 IGVを 見 ていただきましたが 各 遺 伝 子 ごとにリードを 目 視 でcount するのも 結 構 大 変 です 我 々は Perl プログラムを 書 いて プログラムに 処 理 させてます Tera Termを 開 いて LC2ad.sam ファイルを 使 って chr1: 55,315,300 ~ 55,352,921 (symbol : DHCR24) にマップされる リードをカウントしてみましょう Perlでも Cでも Pythonでも Rubyでも 目 視 でも
ディレクトリjishuの 中 に 入 って LC2ad.samを 使 います chr1にマップされているものだけ 抽 出 : $ perl F" t" ane 'if($f[2] eq 'chr1'){print "$_";}' LC2ad.sam less $ perl F t ane if($f[2] eq chr1 ){print $_ ;} LC2ad.sam wc ( 何 件 あるか 確 認 ) 55,315,300 55,352,921 にあるという 条 件 を 足 す: $ perl F" t" ane 'if($f[2] eq 'chr1' && $F[3]>= 55315300 && $F[3]<=55352921){print "$_";}' LC2ad.sam less $ perl F" t" ane 'if($f[2] eq 'chr1' && $F[3]>= 55315300 && $F[3]<=55352921){print "$_";}' LC2ad.sam wc F t : 読 み 込 むファイルはtab 区 切 り 形 式 ane a: splitしてfに 入 れる n: ファイルを1 行 づつみてくれる e: one linerにしてくれる
発 現 量 (RNA Seqデータ) 発 現 量 の 算 出 : 1. 各 遺 伝 子 領 域 にマップされたシークエンスタグを 数 える タグ 数 2. 全 シークエンスタグ 数 でノーマライズ ppm 3. 遺 伝 子 の 長 さでノーマライズ rpkm ppm: parts per million reads rpkm: reads per kilobase per million reads 13 Japanese 13 non-japanese 0 1 10 100 (RPKM) EGFR KRAS NRAS MYC PIK3CA ERBB2 BRAF MET AKT1 TP53 CDKN2A (p14 ARF,p16 INK4a ) CDKN1A STK11 KEAP1 NF1 BRCA1 APC RB1 PTEN MSH6 SMARCA4 EP300 ARID1A RET ALK ROS1 Oncogene Tumor suppressor genes Chromatin remodeling-related genes Oncogenicfusionrelated genes Suzuki et al. 2014 Nucleic Acids Research
RNA Seqデータの 解 析 TopHat CuffLinksを 用 いた 例 TopHat 参 照 ゲノム 配 列 へマッピング CuffLinks アセンブルによる 転 写 産 物 の 検 出 発 現 量 算 出 Cuffdiff サンプル( 群 ) 間 の 発 現 量 の 比 較 Differentially expressed geneの 検 出 http://cole trapnell lab.github.io/cufflinks/getting_started/ たとえば 正 常 組 織 と 癌 組 織 で 有 意 に 発 現 量 が 異 なる 遺 伝 子 群 を 探 索 する Rでヒートマップを 描 く クラスタリングする DAVID(https://david.ncifcrf.gov/) 等 でどのような 遺 伝 子 群 (GO/KEGGなど)が 濃 縮 されているのか 調 べる などと 進 んでいく
肺 腺 癌 細 胞 株 のRNA Seqデータ 今 回 用 いたRNA Seqデータは 実 習 用 の 小 さいファイルサイズのデータでした 実 際 に 解 析 に 用 いているファイルが 以 下 にあります データベースDBTSSダウンロードページ: ftp://ftp.hgc.jp/pub/hgc/db/dbtss/dbtss_ver9/hg38/rnaseq/original_hg19_tophat2mapped_data/ 26 種 類 の 肺 腺 癌 細 胞 株 のRNA Seqデータです 各 フォルダの 下 に RNA SeqのfastqファイルをTopHat2で マッピングした 結 果 があります rpkms_based_on_hg19_genome.xlsxは 各 遺 伝 子 のタグ 数 ppm rpkmを 算 出 したものになります DBTSSでは TSS Seq, RNA Seqをはじめ ゲノム エピゲノム トランスクリプトームのデータが 見 られます
Session 2 データベースDBTSSの 紹 介
ヒト 応 用 研 究 を 志 向 したオミクス 情 報 の 統 合 転 写 開 始 点 /トランスクリプトーム 情 報 (TSS/RNA Seq) ( 発 現 量 と 転 写 開 始 点 ) クロマチン 情 報 (ChIP Seq) ヒトゲノム 変 異 情 報 の 統 合 DNAメチル 化 情 報 (BS Seq) (ChrHMMパターンで 示 すヒストン 修 飾 ) (BS Seqによる 異 常 メチル 化 検 出 ) (それぞれの 検 体 での 変 異 部 位 ) パスウェイマップ( 文 献 情 報 )からの 検 索 ( 該 当 集 団 中 の 遺 伝 子 変 異 頻 度 を 赤 の 濃 さで 示 す) モデル 系 とのさらなる 統 合
データベースDBTSS DBTSS(http://dbtss.hgc.jp/) Suzuki et al. 2015 Nucleic Acids Res (DB issue)
データコンテンツ Topページ Data Contents TSS Seq, ChIP Seq(ヒストン 修 飾 ), RNA Seq, RIP Seq, BS Seq, SNPs/SNVs data 細 胞 株 を 中 心 に
26 種 類 の 肺 腺 癌 細 胞 株 のオミクスデータ Whole genome sequencing Sequencing: illumina HiSeq2500 Bisulfite sequencing (BS Seq) Capture: Agilent SureSelect Methyl Seq Target Enrichment System (84 Mb) Sequencing: illumina HiSeq2500 ChIP Seq for histone modifications and RNA Polymerase II Sequencing: HiSeq2500 IP: H3K4me3, H3K9/14ac, H3K36me3, H3K27me3, H3K9me3, H3K4me1, H3K27ac, Pol II Control: whole cell extract (WCE) TSS Seq Sequencing: illumina HiSeq2500 RNA Seq Sequencing: illumina HiSeq2500 Small RNA Seq Sequencing: illumina HiSeq2500 赤 文 字 はシークエンスデータもDDBJから 公 開 済 Suzuki et al. 2014 Nucleic Acids Research
ヒトの 多 型 変 異 情 報 も 格 納 (>15000) Cancer genomes ICGC:International Cancer Genome Consortium TCGA:The Cancer Genome Atlas Gastric adenocarcinoma, Urothelial bladder carcinoma, Glioblastoma, Clear cell renal cell carcinoma, Endometrial carcinoma, Acute myeloid leukemia, Breast tumors, Squamous cell lung cancers, Colorectal cancer, Ovarian carcinoma National Cancer Center Hospital East: Lung adenocarcinoma (2013 PLoS ONE), Small cell lung cancer (2014 J Thrac Oncol) Others: Myelodysplasia (2011 Nature), Clear cell renal cell carcinoma (2013 Nat Genet), Lung adenocarcinoma (2012 Cell) Japanese genomes (SNPs) HGVD: The Human Genetic Variation Database ToMMo: Tohoku Medical Megabank Organization JPDSC: The Japan PGx Data Science Consortium
Search Human Variation DB (hg19 へ 座 標 変 換 後 リンク)
TSS viewer EGFR*で 検 索 TSS viewerをクリック
Genome viewer EGFR*で 検 索 Genome viewerをクリック ドラッグ&ドロップで 移 動 表 示 データを 自 由 に 選 択
Genome viewer (BRAF 遺 伝 子 を 例 に) Viewer control Gene model TSS-Seq RNA-Seq BS-Seq ChromHMM ChIP-Seq H3K4me3 H3K27me3 H3K9ac H3K27ac H3K4me H3K9me3 H3K36me3 Pol II SNV
ChromHMMとは ChromHMM: Chromatin state discovery and characterization http://compbio.mit.edu/chromhmm/ 少 し 脱 線 様 々なヒストン 修 飾 のChIP-Seq データなどから クロマチンの 状 態 をパターン 化 して くれるソフトウェア Ernst J and Kellis M. ChromHMM: automating chromatin-state discovery and characterization. Nature Methods, 9:215-216, 2012. ENCODEやRoadmap Epigenomics projectでも ChromHMMデータが 公 開 されて いる $ cd $ cp /home/lect-1/chromhmm/lc2ad_dense.bed. でホームディレクトリにLC2/adのChromHMMの 結 果 がコピーされます WinSCPでPCにダウンロードして IGVで 見 てみてください
Pathway Map DBTSSに 戻 ります CSTやKEGGのpathwayリスト MAPK/Erk in Growth and Differentiationをクリック RNA-Seq (RPKM: 発 現 量 ) ChIP-Seq などを 表 示 できる Pathway Mapの Searchをクリック ぜひDBTSSを 使 ってください
Acknowledgements 東 京 大 学 スパコンサポート 係 の 皆 様 中 井 謙 太 先 生 宮 野 悟 先 生 鈴 木 穣 先 生 東 京 大 学 医 科 学 研 究 所 ヒトゲノム 解 析 センターの スパコンのアカウントを 手 配 してくださいました 鳥 取 大 学 の 皆 様 スパコン 接 続 のためにご 助 力 くださりありがとうございました 本 日 はありがとうございました ご 質 問 コメント 等 がありましたら 遠 慮 なくお 願 いします