2016.09.12 AJACS 東女医大 次世代シーケンスデータを用いたオミクス解析 国立がん研究センター先端医療開発センターゲノムトランスレーショナルリサーチ分野鈴木絢子
本日の予定 Session 1 シークエンスデータのマッピングと可視化 およびツールの紹介 Session 2 データベース 新規技術の紹介
国立遺伝研究所スーパーコンピュータシステム https://sc.ddbj.nig.ac.jp/index.php https://sc.ddbj.nig.ac.jp/index.php/systemconfig 本講習会のために アカウントをご用意いただきました
スパコンのアカウント ユーザ名 : lect01 ~ lect55 パスワード : **** 一人一人にアカウントを割り当てられています ご確認ください パスワードは変更しないでください 作業は 自分のホームディレクトリ以下で行ってください
本日用いるソフトウェアの準備 ターミナルソフト TeraTerm Windows PC から Linux 環境のマシンへアクセスするのに必要 Mac はターミナルでリモートアクセスできます その他ターミナルソフトをお持ちの方はお好きなものをお使いいただいてかまいません インストールは基本的にデフォルトの設定で問題ありません http://osdn.jp/projects/ttssh2/releases/ ファイル転送ソフト WinSCP Windows PC Linux 環境のデータのやり取りに必要 Mac はターミナルでデータのアップロード / ダウンロードできます Cygwin インストール済みの方は不要です https://winscp.net/eng/download.php ゲノムビューワー IGV (Integrative Genomics Viewer) リファレンスゲノム上にアライメントされたシークエンスタグを可視化するツール http://software.broadinstitute.org/software/igv 起動するか確認してください 起動しない方はお知らせください
PC からスパコンへログイン https://sc.ddbj.nig.ac.jp/index.php Windows Tera Term を使う Mac ターミナルを使う Mac PC: アプリケーション ユーティリティ ターミナル
Windows PC から解析サーバへのログイン 1 TeraTerm を開きます 接続先の設定画面にて ホストのボックスに IP アドレス gw.ddbj.nig.ac.jp を入力し OK をクリックします
Windows PC から解析サーバへのログイン 2 ユーザ名とパスワードを入力します ユーザ名 : lect01 ~ lect55 パスワード : ****** 自分のユーザ名 (lect01 ~ lect55) を入れてください OK を押します 正しくログインできると [lect01@gw ~]$ と表示されます Mac の方も Windows の方も次にゲートウェイノードから ログインノードにログインします [lect01@gw ~]$ qlogin Enter キーを押すとパスワードを要求されるのでパスワードを打ってログインします
ディレクトリ構造 / ルートディレクトリ bin etc root home media ls cp readme.txt jishu lect01 news.txt lect02 jishu lect03 ホームディレクトリ MAPPING.sh LC2ad.fq MAPPING.sh LC2ad.fq ルートディレクトリ : ツリー構造のトップとなるディレクトリホームディレクトリ : 各ユーザがログインしたときの最初のディレクトリ (/home/[user ID]) カレントディレクトリ : 現在 作業しているディレクトリ
ディレクトリ関係の基本コマンド cd: 指定のディレクトリに移動する ディレクトリ A に移動する場合 $ cd A cd のみ入力した場合はホームディレクトリへ移動する cd.. と入力した場合は 一つ上のディレクトリに移動する pwd: 現在のディレクトリを表示する $ pwd ls: 指定のディレクトリ内のディレクトリ ファイルを表示する ディレクトリ A のファイルを表示する $ ls A ls のみを入力した場合は カレントディレクトリのファイルが表示される -l オプションをつけると詳細表示になり -t オプションをつけると更新日時でソートされる 実習 実際にコマンドを入力しましょう $ pwd $ ls $ cp -r /home/lect01/jishu. $ ls $ cd jishu $ pwd $ ls $ ls -lt $ cd $ pwd
ファイル内容を表示するコマンド cat: ファイルの全内容を表示する $ cat a.txt 一度に全部表示されるため 大きいサイズのファイルには不向き head, tail: ファイルの先頭 末端を表示 ( デフォルトでは 10 行 ) $ head a.txt $ tail a.txt 100 行表示したい場合は -n オプションを付ける $ head -n 100 a.txt more, less: ファイルの内容をコマ送りで表示する $ more a.txt $ less a.txt Enter もしくは space キーで進む less コマンドは キーでファイルを自由に見ることができる q と打つと more, less コマンドを途中で中断できる 実習 実際にコマンドを入力しましょう $ cat /home/lect01/readme.txt $ cat /home/lect01/news.txt $ head /home/lect01/news.txt $ tail /home/lect01/news.txt $ more /home/lect01/news.txt $ less /home/lect01/news.txt
ファイル ディレクトリの作成 移動 削除コマンド cp: ファイルの複製 ファイル a.txt をカレントディレクトリにコピーする場合 $ cp a.txt. ファイル a.txt をディレクトリ A の中にコピーする場合 $ cp a.txt A mkdir: 新規にディレクトリを作成する ディレクトリ A を作成する $ mkdir A mv: ファイルの移動 ファイル a.txt をディレクトリ A に移動する $ mv a.txt A rm: ファイルを削除する ファイル a.txt を削除する $ rm a.txt ディレクトリを削除するときは -r オプションを付ける $ rm -r A 一度データを削除すると復元することはできません 実習 実際にコマンドを入力しましょう $ cd $ cp /home/lect01/readme.txt. $ ls -lt $ mkdir work $ ls -lt $ mv readme.txt work $ ls -lt $ cd work $ pwd $ ls -lt $ rm readme.txt $ ls -lt $ cd.. $ pwd $ ls -lt $ rm -r work $ ls -lt
ディレクトリ /home/lect-1 にある readme.txt をカレントディレクトリ ( ホームディレクトリ ) にコピー ディレクトリ work を作成し readme.txt をディレクトリ work に移動 ディレクトリ work に移動する ディレクトリ work に移動させた readme.txt を削除 一つ上のディレクトリ ( ホームディレクトリ ) に戻る ディレクトリ work を削除
解析データの Windows PC へのダウンロード WinSCP を開き 以下の情報を入力します ホスト名 :gw.ddbj.nig.ac.jp ユーザ名 : lect01 ~ lect55 パスワード : **** Mac の方は WinSCP は使用しません
解析データの Windows PC へのダウンロード Linux から Windows PC へのデータコピー 下図のようなウィンドウが表示されます 左側が Windows PC 右側が解析サーバ (Linux) です 後で使用します ファイルあるいはフォルダをクリックし ドラッグ & ドロップを実行すると データコピーが始まります Windows スパコン
シークエンス可視化 Integrative Genomics Viewer(IGV) シークエンスデータの可視化に使用します IGV を起動してみてください Human hg19 を選択してください あとで使用しますので うまく起動しない方や Human hg19 がない方がいましたらお知らせください
Session 1 シークエンスデータのマッピングと可視化 およびツールの紹介
課題 1 新しくログインして ホームディレクトリに入り $ qlogin $ pwd $ cd jishu $ ls ログインノードに入る ( サーバによって異なる ) ディレクトリ jishu に移動してファイルを確認 $ qsub -l s_vmem=8g -l mem_req=8g -l short MAPPING.sh short.q を指定 と打ってください MAPPING.sh の中には マッピングのコマンドが記載してあります あとで説明いたします 8G のメモリを要求して MAPPING.sh を計算ノードで実行する
ジョブの確認と削除 状況確認 $ qstat 削除 $ qdel [job-id] 詳しくは遺伝研スパコンの 基本的利用方法 のページへ https://sc.ddbj.nig.ac.jp/index.php/ja-howtouse
次世代シークエンサー Illumina MiSeq / HiSeq シリーズリード長 : 短鎖主たる用途 : ゲノムシークエンシング, エキソームシークエンシング, トランスクリプトームシークエンシング Ion PGM / Ion Proton デスクトップ型シークエンサーリード長 : 短鎖主たる用途 : アンプリコンシークエンシング, エキソームシークエンシング HiSeq2500/3000 ( 東大 新領域 鈴木穣研 ) PacBio RS II/Sequel 1 分子リアルタイムシークエンサーリード長 : 最長 >20 kb の長鎖リード主たる用途 :De novo アセンブル, 細菌ゲノムのシークエンシング, 構造多型の解析 ONT MinION / PromethION ナノポアシークエンサーリード長 : 短鎖 ~ 数 kb の長鎖主たる用途 :DNA RNA シークエンシング MinION ( 国立がん研究センター EPOC) 参考 次世代シークエンサー 医学のあゆみ医学 医療のいまがわかるキーワード 2014, 医歯薬出版株式会社
用途も様々 Whole-genome/exome sequencing DNA 配列を解読し SNP/SNVs や indel 等を同定する RNA-Seq small RNA-Seq mrna や small RNA をシークエンスし 発現量の計算や新規転写産物の同定を行う ChIP-Seq ヒストン修飾や転写因子の結合部位を同定する Bisulfite sequencing DNA のメチル化のパターンを検出する TSS-Seq 転写開始点を同定する ATAC-Seq オープンクロマチン領域を同定する など
fastq ファイル ( シークエンスファイル ) Quality 悪 Quality 良 参照 : http://en.wikipedia.org/wiki/fastq_format
fastq ファイル ( シークエンスファイル ) シークエンスファイルを見てみましょう 新しく TeraTerm を立ち上げて ログインしてください 実習 実際にコマンドを入力しましょう $ cd jishu $ less PC-9_1.fq $ less PC-9_2.fq less コマンドは q で終了します wc コマンドでシークエンスのリード数を数えてみましょう 実習 実際にコマンドを入力しましょう $ wc PC-9_1.fq 行数単語数バイト数 2665356 行ありました fastq ファイルは 4 行で 1 リード分なので このファイルには 666339 リード入っていることになります
課題 2 実際に今回使ったシークエンスファイル (fastq ファイル ) の中身をみてみましょう 実習 実際にコマンドを入力しましょう $ cd jishu $ ls -lt $ less LC2ad.fq 課題 3 fastqファイルは 4 行で 1リード分ということでしたが この LC2ad.fq のファイル中には 何本のリードがあるか数えてみましょう 実習 実際にコマンドを入力しましょう $ wc LC2ad.fq
シークエンスをヒトゲノムにマッピング 見てもらったfastqデータは 先ほどの課題 1で ヒトの参照ゲノム配列に対して マッピングを実行中です. 実習 実際にコマンドを入力しましょう投げたjobの中身を みてみましょう! $ less MAPPING.sh おまじない (https://sc.ddbj.nig.ac.jp/index.php/ja-howtouse) BWA というソフトウェアでマッピング bwa aln アライメント bwa samse SAM ファイル作成 SAMtools というソフトウェアで SAM ファイルを BAM ファイルにする
Mapping software もさまざま ELAND Illumina 社のソフトウェア $ bwa BWA indel のマッピングに強く ゲノム エキソーム解析に適している Bowtie 少ないメモリで高速にマッピングする (indel に弱い ) $ bowtie TopHat スプライスを考慮してマッピングする RNA-Seq に適している など $ tophat
参照ゲノム配列 Human, mouse などの主なモデル生物のリファレンスゲノムや遺伝子モデル等のアノテーションデータは UCSC や NCBI より取得できます 今回 参照ゲノム配列として用いたのは UCSC hg19 です http://hgdownload.soe.ucsc.edu/downloads.html
先ほどの課題 1 のマッピングはおわりましたでしょうか?? 下記の出力ファイルが出てきているか確認してください 実習 実際にコマンドを入力しましょう $ ls -lt 出力データ LC2ad.fq Raw データ ( シークエンスタグ ) LC2ad.sai LC2ad.sam LC2ad.bam LC2ad_sort.bam LC2ad_sort.bam.bai MAPPING.sh.eXXXXXXX MAPPING.sh.oXXXXXXX マッピング結果 job のログファイル
SAM (BAM) 形式データ http://samtools.sourceforge.net/samtools.shtml SAM ファイルの中身を眺めてみましょう 実習 実際にコマンドを入力しましょう $ less LC2ad.sam $ samtools view LC2ad.bam more https://cell-innovation.nig.ac.jp/wiki/tiki-index.php?page=sam
データ可視化 https://www.broadinstitute.org/igv/home
課題 4 マッピングしたデータを可視化ツール (IGV) でみてみましょう WinSCPもしくはターミナルを用いて PCに LC2ad_sort.bam および LC2ad_sort.bam.bai をダウンロードしてください IGVを起動させて リファレンスゲノムは 左端上より Human hg19 を選択してください IGV の File Load from File で LC2ad_sorted.bam を開いてください
ファイル転送 Mac 1. 新たにターミナルを起動 2. scpを利用してスパコン上のファイルをpcのデスクトップに転送 $ scp lect01@gw.ddbj.nig.ac.jp:/home/lect01/lc2ad_sort.bam ~/Desktop/ $ scp lect01@gw.ddbj.nig.ac.jp:/home/lect01/lc2ad_sort.bam.bai ~/Desktop/ scp[ スペース ][ アカウント名 ]@[ サーバ名 ]:[ 転送したいファイルのパス ][ スペース ][ 転送先のパス ] Windows 1. WinSCP を起動してログイン 2. jishu ディレクトリの下にある LC2ad_sort.bam と LC2ad_sort.bam.bai をドラッグ & ドロップで PC のデスクトップにコピー
IGV 表示内容 Symbol や座標で検索可能 Zoom in / out Coverage track Map reads truck Gene track DHCR24 と検索してみましょう
右クリック show all bases で全ての塩基を表示できる 拡大すると 塩基レベルまで見られる リファレンスゲノムと違う部分 ( 多型や変異 ) が分かる
Tools Run igvtools おまけ igvtools というツールを使うと Window size ごとにシークエンスをカウントしてバイナライズ化したファイル (.tdf) を作成できる Input File に BAM ファイル (LC2ad.bam) を選択 Run TDF ファイルを IGV で開いてみましょう 色や表示を変えることができます
課題おまけ ペアエンドのゲノムシークエンスデータ (PC-9_1.fq, PC-9_2.fq) をマッピングしてみましょう 新しくログインして ホームディレクトリに入り $ qlogin ログインノードに入る $ pwd $ cd jishu $ ls $ cat MAPPING_pair.sh ディレクトリ jishu に移動してファイルを確認 MAPPING_pair.sh の中身を確認 $ qsub -l s_vmem=8g -l mem_req=8g -l short MAPPING_pair.sh 8G のメモリを要求して MAPPING_pair.sh を計算ノードで実行する
課題おまけ PC-9_1.fq と PC-9_2.fq をマッピングした結果できた PC-9_sorted.bam と PC-9_sorted.bam.bai を PC に転送して IGV で見てみましょう EGFR と検索してください 拡大すると アライメントが見えます Exon 19 に 15 塩基の欠失が見えるでしょうか? 肺腺癌細胞株 PC-9 の EGFR 遺伝子にある E746_A750del 変異になります
マッピング後の解析例 1 全ゲノム エキソーム ゲノム多型 変異の検出 BWA-GATK の場合 BWA 参照ゲノム配列へマッピング Picard/samtools 配列のソート Duplicate の除去など GATK 多型 変異を検出 https://software.broadinstitute.org/gatk/best-practices/ 検出した変異はすべてが正しいとは限らない! IGV での目視やサンガーシークエンス等での確認は必須 Genomon 東大医科研のヒトゲノム解析センタースパコンにインストール済みのツール http://genomon-project.github.io/genomonpages/
マッピング後の解析例 2 RNA-Seq 遺伝子発現解析 融合遺伝子検出 TopHat-CuffLinks の場合 TopHat 参照ゲノム配列へマッピング CuffLinks アセンブルによる転写産物の検出発現量 (fpkm) 算出 Cuffdiff サンプル ( 群 ) 間の発現量の比較 Differentially expressed gene の検出 tophat-fusion-post の出力例 TopHat-fusion 融合遺伝子を検出 (http://cole-trapnell-lab.github.io/cufflinks/manual/) 実験医学別冊 NGS アプリケーション RNA-Seq 実験ハンドブック 羊土社参考
マッピング後の解析例 3 ChIP-Seq/ATAC-Seq ピーク検出 Bowtie 参照ゲノム配列へマッピング MACS/MACS2 ピークを検出 H3K36me3 H3K27me3 H3K9me3 ChIP-Seq H3K4me3 PolII H3K9/14ac H3K27ac H3K4me1 ATAC-seq $ macs14 (https://github.com/taoliu/macs) 細胞工学別冊 次世代シークエンサー DRY 解析教本 秀潤社参考
ChIP-Seq ChromHMM ChromHMM: Chromatin state discovery and characterization http://compbio.mit.edu/chromhmm/ 様々なヒストン修飾の ChIP-Seq データなどから クロマチンの状態をパターン化してくれるソフトウェア $ cd $ cp /home/lect01/chromhmm/lc2ad_dense.bed. Ernst J and Kellis M. ChromHMM: automating chromatin-state discovery and characterization. Nature Methods, 9:215-216, 2012. ENCODE や Roadmap Epigenomics project でも ChromHMM データが公開されている でホームディレクトリに LC2/ad の ChromHMM の結果がコピーされます WinSCP で PC にダウンロードして IGV で見てみてください 細胞工学別冊 次世代シークエンサー DRY 解析教本 秀潤社参考
Session 2 データベース 新技術の紹介
データベース DBTSS DBTSS(http://dbtss.hgc.jp/) DBTSS Suzuki et al. 2015 Nucleic Acids Res (DB issue)
ヒト応用研究を志向したオミクス情報の統合 DBTSS 転写開始点 / トランスクリプトーム情報 (TSS/RNA Seq) ( 発現量と転写開始点 ) クロマチン情報 (ChIP Seq) ヒトゲノム変異情報の統合 DNA メチル化情報 (BS Seq) (ChrHMM パターンで示すヒストン修飾 ) (BS Seq による異常メチル化検出 ) ( それぞれの検体での変異部位 ) パスウェイマップ ( 文献情報 ) からの検索 ( 該当集団中の遺伝子変異頻度を赤の濃さで示す ) モデル系とのさらなる統合
データコンテンツ DBTSS Top ページ Data Contents TSS-Seq, ChIP-Seq( ヒストン修飾 ), RNA-Seq, RIP-Seq, BS-Seq, SNPs/SNVs data 細胞株を中心に
ヒトの多型 変異情報も格納 (>15000) DBTSS Cancer genomes ICGC:International Cancer Genome Consortium TCGA:The Cancer Genome Atlas Gastric adenocarcinoma, Urothelial bladder carcinoma, Glioblastoma, Clear cell renal cell carcinoma, Endometrial carcinoma, Acute myeloid leukemia, Breast tumors, Squamous cell lung cancers, Colorectal cancer, Ovarian carcinoma National Cancer Center Hospital East: Lung adenocarcinoma (2013 PLoS ONE) NBDC ヒトデータベース : JGA00000000001 Small cell lung cancer (2014 J Thrac Oncol) Others: Myelodysplasia (2011 Nature), Clear-cell renal cell carcinoma (2013 Nat Genet), Lung adenocarcinoma (2012 Cell) Japanese genomes (SNPs) HGVD: The Human Genetic Variation Database ToMMo: Tohoku Medical Megabank Organization JPDSC: The Japan PGx Data Science Consortium
DBTSS Search Human Variation DB (hg19 へ座標変換後リンク )
TSS viewer DBTSS EGFR* で検索 TSS viewer をクリック
Genome viewer DBTSS EGFR* で検索 Genome viewer をクリック ドラッグ & ドロップで移動 表示データを自由に選択
Genome viewer (BRAF 遺伝子を例に ) DBTSS Viewer control Gene model TSS-Seq RNA-Seq BS-Seq ChromHMM H3K4me3 H3K4me H3K27me3 H3K9me3 H3K9ac H3K36me3 H3K27ac Pol II SNV ChIP-Seq
ぜひ DBTSS を使ってください Pathway Map DBTSS CST や KEGG の pathway リスト MAPK/Erk in Growth and Differentiation をクリック RNA-Seq (RPKM: 発現量 ) ChIP-Seq などを表示できる Pathway Map の Search をクリック
ポータブル & ロングリードシークエンス MinION (Oxford Nanopore Technologies) ナノポアシークエンサー 安価な初期投資 ($1,000スターターキット) ポータブル (103g: flow cell 込 ) ロングリード 10,000-100,000リード 新技術 https://www.nanoporetech.com/
ナノポアシークエンサーを用いた研究 Rapid draft sequencing and real-time nanopore sequencing in a hospital outbreak of Salmonella Joshua Quick et al. 2015 Genome Biology Rapid metagenomic identification of viral pathogens in clinical samples by real-time nanopore sequencing analysis Alexander L. Greninger et al. 2015 Genome Medicine Figure 6, Quick et al. 2015Genome Biology Figure 1, Quick et al. 2015Genome Biology Salmonella Pathogen detection/typing Real-time, portable genome sequencing for Ebola surveillance Joshua Quick et al. 2016 Nature Ebola MinION nanopore sequencing identifies the position and structure of a bacterial antibiotic resistance island Philip M Ashton et al. 2015 Nature Biotechnology Figure 3, Norris et al. 2016 Cancer Biology & Therapy Figure 2, Ashton et al. 2015 Nature Biotechnology Nanopore sequencing detects structural variants in cancer Alexis L Norris et al. 2016 Cancer Biology & Therapy Figure 1, Quick et al. 2016 Nature Figure 3, Quick et al. 2016 Nature Splicing patterns Determining exon connectivity in complex mrnas by nanopore sequencing Mohan T. Bolisetty and Gopinath Rajadinakaran et al. 2015 Genome Biology Structural variants in cancer Figure 8, Bolisetty and Rajadinakaran et al. 2015 Genome Biology Figure 1, Greninger et al. 2015 Genome Medicine
合成ロングリードシークエンス GemCode (10x Genomics) Linked read @ GemCode 技術分子バーコーディング + ショートリードシークエンシング 750,000 beads Long genomic DNA fragments (~100 kb) 新技術 Chromium@10X Genomics http://www.10xgenomics.com/instrument/ (Kitzman. 2016 Nature Biotechnology)
GemCode@10x Genomics http://software.10xgenomics.com/genome-exome/visualization/latest/what-is-loupe より抜粋 新技術 Haplotype Browser Summary View Linked-Reads Structural Variants
シングルセルシークエンス さまざまなプラットフォームが開発されている C1 system@fluidigm 新技術 C1 (Fluidigm 社 ) RNA-Seq ATAC-Seq Whole-exome sequencing Single-cell ATAC-Seq Nx1-Seq RNA-seq Drop-seq RNA-Seq Chromium Single Cell 3' Solution (10x Genomics 社 ) RNA-Seq など Macosko et al. 2015 Cell Buenrostro et al. 2015 Nature Chromium@10x Genomics 実験医学別冊 NGS アプリケーション RNA-Seq 実験ハンドブック 羊土社参考 http://www.10xgenomics.com/instrument/
謝辞 国立遺伝学研究所遺伝研スーパーコンピュータシステムのご担当者様講習会用のアカウントをご用意いただきました 東京女子医科大学のご担当者様スパコン接続のためにご助力くださりありがとうございました ありがとうございましたご質問 コメント等がありましたら遠慮なくお願いします