肺腺癌細胞株を用いた癌細胞変異・遺伝子発現および転写制御パターンの統合解析

Similar documents
2011_ILMN_RNA-Seq_Session2

疾患ヒトゲノム変異の生物学的機能注釈を目指した多階層オミクスデータの統合

第 10 回シーケンス講習会 RNA-seq library 調製法の特徴と選び方 理化学研究所 (RIKEN) ライフサイエンス技術基盤研究センター (CLST) 機能性ゲノム解析部門 (DGT) ゲノムネットワーク解析支援施設 (GeNAS) 野間将平

シーケンサー利用技術講習会 第10回 サンプルQC、RNAseqライブラリー作製/データ解析実習講習会

IonTorrentPGM_appnote_0319.indd

Agilent Microarray Total Solution 5 5 RNA-Seq 60 mer DNA in situ DNA 5 2 QC 4200 TapeStation 2100 / mirna CGHCGH+SNP ChIP-on-chip 2 mirna QC

第18回抗悪性腫瘍薬開発フォーラム 次世代テクノロジーは抗がん剤開発に何をもたらすか? ~分子生物学的臨床開発基盤構築に向けて~

Slide 1

nagasaki_GMT2015_key09

論文題目  腸管分化に関わるmiRNAの探索とその発現制御解析

111031_Sure Selectカタログ_改訂_最終.indd

CpG (Whole genome bisulfite sequencing; WGBS) MeDip-Seq 1 DNA CpG-rich 1. SureSelect Reduced representation bisulfite sequencing (RRBS) DNA CpG PCR DN

GWB

日本消化器外科学会雑誌第29巻第9号

計算機生命科学の基礎II_

Infinium BeadChip COGS BeadChip 4 * iselect 3 SNP 25 1 SNP NGS Sequencing by Synthesis SBS HiSeq MiSeq WGS 1 RNA-Seq ChIP-Seq 1 1 * icogs BCAC OCAC PR

NGS_KAPA RNA HyperPrep Kit

AJACS18_ ppt

プレゼンテーション2.ppt

NGSデータ解析入門Webセミナー

GWB_RNA-Seq_

PowerPoint Presentation

アノテーション・フィルタリング用パイプラインとクリニカルレポートの作成

プロジェクト概要 ー ヒト全遺伝子 データベース(H-InvDB)の概要と進展

PowerPoint プレゼンテーション

Microsoft PowerPoint - 平成22年度第一回_武田.pptx

mRNA-Seq_SamplePrep.book

IonTorrent RNA-Seq 解析概要 サーモフィッシャーサイエンティフィックライフテクノロジーズジャパンテクニカルサポート The world leader in serving science

RNA-seq

KEGG.ppt

ChIP-seq

機能ゲノム学(第6回)

A b a B AaBb Ab ab 1 1 AB ab A-b a-b 2.Meiosis recombination Meiosis mitosis crossover recombination bivalent DNA 2

untitled

Maser RNA-seq Genome Resequencing De novo Genome Sequencing Metagenome ChIP-seq CAGE BS-seq

Untitled

Microsoft PowerPoint _yonago_suzuki.pptx

CLC Genomics Workbench ウェブトレーニングセミナー: 変異解析編

GWB

PowerPoint プレゼンテーション

Presentation Title Arial 28pt Bold Agilent Blue

課題 ips 細胞治療による悪性腫瘍発生のリスクを genetic な点から評価し 現時点のベストサイエンスの知識の中で リスクを最小限にするには? 1. ips 細胞作製 維持の過程で発生する de novo somatic changes の評価 2. ips 細胞を樹立するソースにおける pr

AJACS_komachi.key

プレゼンテーション3

141025mishima

3 1 2

A Nutritional Study of Anemia in Pregnancy Hematologic Characteristics in Pregnancy (Part 1) Keizo Shiraki, Fumiko Hisaoka Department of Nutrition, Sc

RT-PCR プロトコール.PDF

■リアルタイムPCR実践編

section2

肺癌第50巻第4号

Genome-Wide Genetic Analysis More flexibility. More content. CGH CGH CGH CGH Comparative Genomic Hybridization CGH2 DNA KaryotypingFISH CGH BACBacteri

GWB

機能ゲノム学(第6回)

PowerPoint Presentation


VENTANA ALK D5F3 Rabbit Monoclonal Antibody OptiView ALK D5F3

機能ゲノム学(第6回)

Microsoft PowerPoint - SNGS_Ana講習会5月29日.pptx

IPSJ SIG Technical Report Vol.2009-BIO-17 No /5/26 DNA 1 1 DNA DNA DNA DNA Correcting read errors on DNA sequences determined by Pyrosequencing

Microsoft PowerPoint - プレゼンテーション1

S _次世代冊子All_非アウトライン

Microsoft PowerPoint _webinar_RNAExpress.erikibukawa_配布用.pptx

熊本大学学術リポジトリ Kumamoto University Repositor Title 炎症性腸疾患に対する HSF1 及び HSP70 の保護的役割 Author(s) 田中, 健一郎 Citation Issue date Type URL Thesis or Di

Untitled

Microsoft PowerPoint - 社外資料_TruSeq Synthetic Long-Read DNA Library Prep.pptx

PrimerArray® Analysis Tool Ver.2.2

Study on Application of the cos a Method to Neutron Stress Measurement Toshihiko SASAKI*3 and Yukio HIROSE Department of Materials Science and Enginee

機能ゲノム学(第6回)

Slide 1

PowerPoint Presentation

Untitled

手順 ) 1) プライマーの設計 発注変異導入部位がプライマーのほぼ中央になるようにする 可能であれば 制限酵素サイトができるようにすると確認が容易になる プライマーは 25-45mer で TM 値が 78 以上になるようにする Tm= (%GC)-675/N-%mismatch

Design 1 – Title Slide

塗装深み感の要因解析

JAMSTEC Rep. Res. Dev., Volume 12, March 2011, 27 _ 35 1,2* Pb 210 Pb 214 Pb MCA 210 Pb MCA MCA 210 Pb 214 Pb * 2

センシンレンのエタノール抽出液による白血病細胞株での抗腫瘍効果の検討

Slide 1

Agilent GeneSpring Mass Profiler Professional X Y X Y 2 Chen, P; Popovich, P. Correlation:Parametric and Nonparametric Measures Sage Publications, 200

bioinfo pptx

総括研究成果報告書

_統合化推進プログラム_金久チーム_サイトビジット資料

untitled

H27_大和証券_研究業績_C本文_p indd

リード・ゲノム・アノテーションインポート

スライド 1



A Feasibility Study of Direct-Mapping-Type Parallel Processing Method to Solve Linear Equations in Load Flow Calculations Hiroaki Inayoshi, Non-member

T05_Nd-Fe-B磁石.indd

NEBNext Direct Target Enrichment Technology 次世代シーケンサー用遺伝子パネル be INSPIRED drive DISCOVERY stay GENUINE

2

Peroxisome Proliferator-Activated Receptor a (PPARa)アゴニストの薬理作用メカニズムの解明

Microsoft PowerPoint - talk pptx

1 Fig. 1 Extraction of motion,.,,, 4,,, 3., 1, 2. 2.,. CHLAC,. 2.1,. (256 ).,., CHLAC. CHLAC, HLAC. 2.3 (HLAC ) r,.,. HLAC. N. 2 HLAC Fig. 2

次世代シークエンサーを用いたがんクリニカルシークエンス解析

Sequence Read Archive 2013 年年 10 月 25 日 第 10 回シーケンサー利利 用技術講習会 ( 理理研横浜 ) 1

steponeplus_bro_f-0912.indd

研究成果報告書

(2) (2) (3) (3) (4) ABI PRISM 7700 TaqMan (4) Roche LightCycler TM (5) BioFlux LineGene TaqMan (6) 1 RT-PCR (7) (9) (10) F. Hoffmann-La Roche Ltd. Roc

Transcription:

進化する RNA-Seq: 臨床検体からシングルセル解析まで ~ ウェット ドライ解析の実験ノート 東京大学新領域創成科学研究科 鈴木穣

東大 柏キャンパス Hiseq2500 x 3 Operation: Technicians 4 Programmers 3 ysuzuki@hgc.jp 2

ゲノム支援 Providing NGS platform for researchers in various research field http://www.genome-sci.jp/ 西中村隆一 熊本大学 胎児型腎臓幹細胞の成体腎での再活性化 河野友宏 東京農業大学 次世代シークエンサーを用いた生殖系列のエピゲノム修飾とトランスクリプトーム解析 柴博史 奈良先端科学技術 5 種内雑種を利用した対立遺伝子間の優劣に関わるDNAメチル化機構の解析 藤田知道 北海道大学 メリステム制御の基盤を支える植物幹細胞の不等分裂の分子機構の解明 北野潤 東北大学 トゲウオ科魚類における種分化の遺伝機構 藤堂剛 大阪大学 メダカ逆遺伝学的手法を基盤とした個体 組織レベルでの損傷応答解析系の確立 太田邦史 東京大学 8 長鎖非翻訳 RNAを介したクロマチン / 染色体機能の制御 武田洋幸 ( 森下 BS) 東京大学 組織が創るマクロでロバストなコンパートメントの成立 維持のロジック 深田吉孝 東京大学 脳時計ニューロンにおける光シグナリングと概日リズム制御の分子解析 多羽田哲也 東京大学 ショウジョウバエの記憶形成回路の構造および機能発現の分子基盤 三谷啓志 東京大学 個体内における電離放射線誘発突然変異成立過程の解明 平良眞規 東京大学 転写制御ネットワークから見る原口形成と原腸胚オーガナイザーの進化のメカニズム 國枝武和 東京大学 極限環境耐性動物クマムシが獲得した耐性メカニズムの解明 稲田利文 名古屋大学理学研究科 新生ポリペプチド鎖依存の翻訳アレストにおけるRACK1 の機能解明 高浜洋介 徳島大学 胸腺における自己形成と自己認識 嶋田透 東京大学 カイコとその近縁種における寄主植物選択機構の進化 田中知明 千葉大学 p53 転写因子複合体によるクロマチン機能調節とiPSリプログラム制御機構の解明 後藤由季子 東京大学 胎生期大脳新皮質神経幹細胞による多様な細胞の産生機構の解析 坂山英俊 神戸大学 陸上植物の2 倍体多細胞体制の起源をシャジクモ藻類の遺伝子から探る 三室仁美 東京大学 ヘリコバクターピロリの胃粘膜感染機構と炎症惹起メカニズムの研究 國府力 大阪大学 初期発生におけるクロマチン制御のリアルタイム解析 田中知明 千葉大学 転写因子 p53による新たな代謝調節機能と代謝環境応答のエピジェネティクス制御 福澤秀哉 京都大学 デジタル遺伝子発現解析による微細藻類のCO2 濃縮 水素発生関連遺伝子の同定と利 3

RNA Seq の分類 タグ数をカウントするもの (36bp Single End Read) 発現量を計測するもの (mrna) RNA Seq small RNA Seq タンパク質との相互作用を計測するもの RIP Seq/CLIP Seq 配列を決定するもの (>100 bp Paired End Read) 遺伝子アノテーションするもの 選択的スプライシングを解析するもの de novo アセンブリ mrna Seq 4

Template Prep. for RNA Seq Total RNA mrna rrna mtrna AAAAA Estimated 0.3-1 million copies per 20,000 species in humans PolyA selection 90% of the cellular RNA are polya (-); rrna, trn RNA fragmentation AAAAA AAAAA 1 st strand syn. using random primer NNNN NNNN NNNN AAAAA NNNN NNNN 2 nd strand syn. NNNN NNNN Sequence Adaptor ligation to both ends NNNN NNNN PCR amplification 5 mrna Seq Template

BioAnalyzer is essential for sample preparation BioAnalyzer (Agilent): Electrophoresis on microchip 28S rrna 18S rrna RIN= 10 Dissection 6

Advantages in using BioAnalyzer (I) effective material (250-450 bp) effective material (250-450 bp) non-effective material Primer dimer To measure effective template amount 7

Examples of NGS data (RNA Seq on Genome Studio Viewer) 8 RNA Seq ( DLD-1; the ACAT1 gene region )

Increasing number of templates Such as time-course RNA Seq analysis 9

For fair comparison of multiple data points Uniform sample prep is essential 10

Occasionally, irregular samples should be also handled Total RNA from operation material irregular template RIN N/A; but this is still RNA! 11

試料調整とシークエンス トマトのトランスクリプトーム解析 ( 成熟葉 老化葉 ) 組織からの RNA の抽出 (1 µg total RNA) シークエンスライブラリーの作成 (450ng library) シークエンスと配列解析 (0.2ng library) GAIIx;36-base single-end read: 1 lane microtom ゲノムへのマッピング microtom 完全長 cdna へのマッピング De novo assemble (AbySS) Sequence Summary Tissue # reads (36bp) # Assembled contigs 500bp< / 1k < / 1.5k< %Matched with cdna 500bp< / 1k < / 1.5k< %Matched with tblastx < 1e-50 500bp< / 1k < / 1.5k< mature leaves old leaves 29,923,071 7,165/ 2,304/834 4,648/1,456/467 6,866/ 2,280/828 12 28,711,676 6,118/1,890/653 4,001/1,199/361 5,869/1,871/649

完全長 cdna への発現情報の付加 Expression level 35 rpkm 12 rpkm 完全長 cdna RNA Seq assembled contig 新規転写産物の発見 Expression level (rpkm: read per million tags per kb mrna) 169 rpkm 127 rpkm 新規転写産物 13 完全長 cdna RNA Seq assembled contig

De novo assembly of microtom transcripts and their annotations 14

ある魚類の denovo data process Solexa Read 76PE (Pass Filtered, remove the read including N) AbySS (version 1.2.6) > 500bp contig 抽出 assemble result Sample # Reads (76bp) # Assembled contigs 500bp< Average contig length JDPBLs-1 46,771,912 23,045 (Average 1,141bp) #Matched with tblastx < 1e-50 500bp< 11,549 tblastx (Query:contig, DB: NT) ELAND (Ref:contig ) 15 近藤研との共同研究

ある魚類の denovo tblastx assembled contig to NT Example: xxx Assembled contig : Query length 588bp >contig_102559 588 97855 CAATGAGCCAACTGCTGCTGCCATTGCTTATGGTCTGGACAAGAGAGATGGCGAGAAGAACATTCTTGT GTTCGATCTGGGTGGCGGCACCTTCGATGTCTCCCTCTTGACCATCGACAATGGTGTGTTTGAAGTGGTG GCCACCAACGGTGACACTCACCTGGGAGGTGAGGACTTCGACCAGCGCGTCATGGAGCACTTCATCAAG CTGTACAAGAAGAAAACTGGCAAAGATGTGCGCAAAGACAACCGTGCTGTGCAGAAGCTGCGTCGTGA GGTTGAGAAGGCAAAGAGGGGGCTGTCCGCCCAGCACCAGGCCCGCATTGAGATCGAGTCCTTCTTTGA GGGAGAAGACTTCTCTGAGACTCTGACCCGTGCCAAGTTTGAAGAGCTGAACATGGACCTGTTCCGTTCC ACCATGAAGCCTGTGCAGAAGGTGCTGGAAGATTCCGACCTGAAGAAATCTGACATCGATGAGATTGTC CTGGTTGGAGGCTCCACCCGTATCCCCAAAATTCAGCAGCTGGTGAAGGAGTTCTTCAATGGCAAGGAGC CATCTAGGGGCATCAACCCTGATGAGGCTGTGGC Query 2 586 Expect = 1e-124 Identities = 100% DB gb DQxxxx.1 16

鋳型調整 出発材料量 >200ng Illumina/Agilent RNA Seq >10ng QIAGEN RepliG 100-1000 細胞 1 細胞 Clontech Smarter

情報解析 鈴木絢子 鈴木穣実験医学増刊印刷中 用途ソフトウェア URL 概要 マッピング BWA http://bio-bwa.sourceforge.net/ Bowtie2 TopHat2 http://bowtiebio.sourceforge.net/bowtie2/index.shtml http://tophat.cbcb.umd.edu/ 遺伝子発現解析 Cufflinks http://cufflinks.cbcb.umd.edu/ Cuffdiff DEseq 同上 http://bioconductor.org/packages/release/bioc/ht ml/deseq.html 融合遺伝子探索 TopHat-fusion http://tophat.cbcb.umd.edu/fusion_index.html アセンブル 可視化ツール defuse SOAPfuse Trans-Abyss Trinity UCSC Genome Browser IGV http://compbio.bccrc.ca/software/defuse/ http://soap.genomics.org.cn/soapfuse.html http://www.bcgsc.ca/platform/bioinfo/software/tra ns-abyss http://trinityrnaseq.sourceforge.net/ http://genome.ucsc.edu/cgi-bin/hggateway https://www.broadinstitute.org/igv/home ショートリードをゲノムにマッピングする (Li H. and Durbin R. 2009 Bioinformatics) ショートリードを少ないメモリで参照配列に高速にアライメントする (Langmead and Steven L Salzberg. 2012 Nat Methods) スプライスジャンクションを考慮したマッピングをおこなう (Kim et al. 2013 Genome Biol) 異なるスプライスバリアントごとの発現量の計算や新規転写産物のアセンブルを行う (Trapnell et al. 2010 Nat Biotechnol) Cufflinksのコマンドの一つ 群間の発現量やスプライスパターンの差異を検出する (Trapnell et al. 2013 Nat Biotechnol) 群間のRNA Seqタグ数や発現量の差を統計的に抽出する (Anders and Huber. 2010 Genome Biol) TopHat2ベースで シングルまたはペアエンドリードから融合遺伝子を抽出する (Kim and Salzberg. 2011 Genome Biol) ペアエンドのRNA Seqリードから 融合部位を抽出する (McPherson et al. 2011 PLoS Comput Biol) ペアエンドのRNA Seqリードから 融合部位を抽出する (Jia et al. 2013 Genome Biol) トランスクリプトームde novoアセンブラ (Robertson et al. 2010 Nat Methods) ショートリード向けのトランスクリプトームアセンブラ 必要なメモリ量は大きい (Grabherr et al. 2011 Nat Biotechnol) データをアップロードして表示することができる (Kent et al. 2002 Genome Res) BAM BEDファイルなどを簡単に可視化でき 操作性が高い (Robinson et al. 2011 Nat Biotechnol)

Yamagishi et al Genome Res (2014) Concept of Interactive Transcriptome analysis Peripheral blood AAAA AAAA Human mrna AAAA AAAA Parasite mrna Human Nucleus Human Genomic DNA Parasite Nucleus Parasite Genomic DNA Blood samples Mixed with Parasites and host Human cells mrna RNA extraction (after shipping to Japan) AAAA Human mrna AAAA Parasite mrna RNA Seq To avoid delicate material handling in fields To monitor human gene expressions simultaneously After generating sequence tags, species were separated by mapping tags to the respective genomes

Read Statistics (malaria patients) Human P. falciparum Number of samples Total number of mapped reads Number of mapped reads Average frequency of parasite reads 116 (24 from Manado, 92 from Bitung) 3,016,323,916 (25M reads on average) 2,794,371,292 244,767,495 10.2% 20

新技術 : 方法論の多様化

22

2 本鎖目の cdna 合成時に dutp を使用することでこの鎖が増幅されず ストランド情報を維持 鋳型 RNA 2 本鎖目の cdna 合成 dutp を使用 F 1 st Strand cdna の合成 1 st Strand cdna アダプター付加 DNA の増幅 2 nd Strand cdna 1 st Strand cdna が選択的に増幅される 3 ストランド特異的な RNA 解析が可能に ポイント デオキシウラシル (dutp) を鋳型に使えないDNAポリメラーゼで PCR dutp を使った 2 nd Strand cdna は増幅されず 1 st Strand cdna のみが増幅される 23 FOR RESEARCH USE ONLY

Agilent Illumina D0 D0 D4 D4 D8 D8 N9 N9 rpkm

Tani et al Genome Res (2012) BRIC Analysis for determining mrna half-life (Akimitsu lab) B %RNA tags; Tx/T0 50% BRIC can monitor the T1/2 for each RNA

RNAs related to regulations are enriched in short-lived RNAs BRIC revealed Half-lives of mrnas in a genome-wide manner #mrnas GO term analysis

mrnas of short half-lives are enriched in the population of ChIP+/RNA- Maekawa et al submitted

half-lives of mrnas are controlled independently from transcriptional initiation ChIP+/RNA-

RefSeq: NM_001206957.1 Description: Homo sapiens Ras association (RalGDS/AF-6) domain family member 1 (RASSF1), transcript variant H, mrna. Position: chr3:50367217-50378367 Strand: - Gene Symbol: RASSF1 Pol II ChIP-seq K4m3 Ac input Total RNA sicontrol : 79.41 ppm siupf : 314.02ppm TSS-seq sicontrol : 16.3 ppm siupf : 26.8 ppm BRIC-seq sicont t1/2 : 0.68h BRIC-seq siupf t1/2 : 7.51h

Matsumoto et al NAR in press BAP treatment TSS Gppp p HO PAS AAAA AAAA AAAA mrna with CAP mrna without CAP mrna without CAP Oligo-capping (cap-replacement) TAP treatment RNA ligation Gppp p HO HO HO HO AAAA AAAA AAAA AAAA AAAA AAAA HO HO AAAA AAAA AAAA Reverse transcription AAAA TTTT NNNNNN (*1) PCR amplification using biotinylated primers (size fractionation) (*2) Mate-pair library construction B B FW TSS tag PAS tag Circularization Fragmentation (*3) and purification Template preparation RV

Mate Pair library can detect TSS/TTS simultaneously PCCB TSS PAS (tag count) 500 DLD1 0

C12orf75 TSS (tag count) skeletal muscle 100 0 Alternative TSS/TTS and their relations AP1 AP2 PAS AT1 CLN5 TSS PAS (tag count) 60 DLD1 0 AP1 AT1 AT2 Number of NM genes Number of NR genes 10000 8000 6000 4000 2000 0 600 500 400 300 200 100 0 1 2 3 4 5 Number of TSCs 1 2 3 4 5 Number of TSCs Number of NM genes Number of NR genes 10000 8000 6000 4000 2000 0 600 500 400 300 200 100 0 1 2 3 4 5 Number of PACs 1 2 3 4 5 Number of PACs

A simplified workflow Semi-Automated Single-cell RNA Seq analysis C1 System of Fluidigm Enrich Load & Capture Wash & Stain Isolate Lyse, RT & Amplify Prepare Library Sequence Analyze C 1 Single-Cell Auto Prep System Any Illumina System

成功率 : 80% (Fluidigm)-> 60-70% ( デモでの経験 ) 35

A B C (rpkm; log10) (library) 30 r = 0.94 Tag counts 4 3 2 1 Frequency 12 8 4 Ct (bulk of 200 cells) 20 10 0 (copy; log10) 1.8 2.9 4.0 Spike-in 1 Spike-in 2 Spike-in 3 0 1.0 1.5 2.0 2.5 3.0 Average no. of tags per genomic position 0 10 20 30 Ct (average of single cells) D Average expression level: LC2/ad 2nd 4 2 0-2 r = 0.99 (rpkm; log10) -2 0 2 4 Average expression level: LC2/ad Average expression level: LC2/ad replicate 4 2 0-2 r = 0.91 (rpkm; log10) -2 0 2 4 Average expression level: LC2/ad Average expression level: LC2/ad bulk (200) 4 2 0-2 r = 0.84 (rpkm; log10) -2 0 2 4 Average expression level: LC2/ad Average expression level: LC2/ad bulk (10^8) r = 0.80 4 2 0-2 (rpkm; log10) -2 0 2 4 Average expression level: LC2/ad Suzuki et al submitted

Distinct splice patterns in different single-cells GAPDH U2AF1 Number of cells Number of cells 1 1 10 7 10 7

相関係数 1 回目 (C1_LC2AD : 131025_HISEQ1A) VS 2 回目 (LC2AD_2ND : 131025_HISEQ1B) log10(rpkm) y = 0.95409x + -0.03752 R = 0.9140295 LC2ad vs LC2ad_2nd y = 0.97418x + -0.02766 R = 0.8898153

Figure 6 D LC2/ad Cancer Gene Census LC2/ad-R un-treated E +vandetanib LC2/ad PC-9 VMRC-LCD LC2/ad +van LC2/ad PC-9 VMRC-LCD LC2/ad+van LC2/ad-R PC-9 VMRC-LCD LC2/ad-R+van LC2/ad-R PC-9 VMRC-LCD LC2/ad-R +van

次世代 型トランスクリプトーム解析 プロテオームへ RNA Seq ( ポリソーム画分 ) RNA Seq ( 細胞質画分 ) ribosome AAAA 翻訳制御 RNA Seq ( スプライスパターン解析 ) RIP Seq (RNA タンパク質相互作用 ) バイサルファイト Seq ( メチル化シトシン ) MNase Seq ( ヒストンリンカー ) DNaseI Seq ( オープンクロマチン ) nucleosome TF RNA Seq ( 核画分 ) トランスクリプトーム mrna polii mrna 分解速度 (BRIC 法 ) TSS Seq ( 転写開始点 ) AAAA Smal RNA Seq 核 転写後制御 細胞質 転写制御 ChIP Seq ( 転写因子結合部位 ) ChIP Seq ( 基本転写因子結合部位 ) ゲノム ChIP Seq (Histon 修飾 ) 3C/HiC Seq ( クロマチン高次構造 ) 共通検出器としての次世代シークエンサー

Schematic diagram of RIP(RNA immunoprecipitation) -Seq IP RNA A RNA B RNA C RNA D RIP- RNA seq (Target RNA) RNA pool RNA binding protein Target RNA

Identification of RNA binding protein target mrnas eta-actin Total RNA αrbpx IP :Elution Total RNA ID1 ID1 RBPX αrbpx IP :Elution ID1 mrna 夏目研 @ お台場

mrna AAAAA Total RNA rrna mtrna Small RNA (mirna/pirna 等 ) 図は small RNA のみについて記すが 最後のステップでサイズ分画するまでは すべての RNA について同様の反応が起こる BAP treatment Adapter ligation to 3 end of RNA OH Takara Protocol Total RNA input 100ug 1ug Illumina protocol (v1.5) Size selection Needed Not needed OH P P 約 18 nt~30 nt 分画の Small RNA を単離 5 アダプターの RNA ライゲーション P 第 1 鎖 cdna 合成 PCR による増幅 Small RNA Seq 用鋳型 Kanematsu et al Gene 43 2012

small RNA Seq (DLD-1; the MIMAT0004584 gene region) 44

Schematic diagram of biogenesis of micrornas and post-transcriptional silencing of target mrna Cytosols Dicer Nucleus Exportin 5 processing Small RNA-seq Drosha Trascribed by polⅡ mrna cleavage RIP-Small RNA-seq Argonaute 2 mrna-seq RIP-RNA-seq mrna degradation

IP (Basal) IP (Stimulated) 6.0- fold Total RNA (Basal) 16.2- fold Total RNA (stimulated)

次世代シークエンスデータの統合的解析 DLD-1 cell (colon caner) Annotated mrna 転写制御の網羅的理解へ Chr2: 47,443,347-47,477,133 (NM_002354) DLD-1_H3K4me3 (IP) DLD-1_H3K4me3 (background) DLD-1_H3Ac (IP) DLD-1_H3Ac (background) DLD-1_pol II (IP) DLD-1_pol II (background) DLD-1_TSSseq DLD-1_RNAseq DLD-1_Polysome mrna 動態の網羅的理解へ

B The MIR17HG_gene region (DLD-1 cells) Annotated mrna RNAseq (total RNA) small RNA Seq RIP Seq (ago1: IP) RIP Seq (ago2: IP ) ChIP Seq (H3K4Me3: IP) 転写産物の機能推定へ ChIP Seq (H3K4Me3: WCE) ChIP Seq (H3Ac: IP) ChIP Seq (H3Ac: WCE) ChIP Seq (pol II: IP) ChIP Seq (pol II: WCE)

肺腺がん細胞株のカタログ化 ( と多階層オミクス解析のモデル )

Suzuki et al PLoS ONE 2013 Mutataion patterns of lung adenocarcinoma in 97 Japanese patients 5000 4000 #case #genes 3000 2000 #genes mutated in >=10 cases 1000 TP53 EGFR 0 1 3 5 7 9 1113 19 33 56 #case 50

Materials 26 lung adenocarcinoma cell lines Suzuki et al submitted name PC-3 PC-7 PC-9 PC-14 RERF-LC-Ad1 RERF-LC-Ad2 RERF-LC-KJ RERF-LC-MS RERF-LC-OK VMRC-LCD ABC-1 LC2/ad II-18 A427 A549 H322 H2228 H1299 H1437 H1648 H1650 H1703 H1819 H1975 H2126 H2347 origin Japanese Japanese Japanese Japanese Japanese Japanese Japanese Japanese Japanese Japanese Japanese Japanese Japanese Caucasian Caucasian Caucasian Unknown Caucasian Caucasian Black Caucasian Caucasian Caucasian Unknown Caucasian Caucasian All cell lines were provided from Dr. Tsuchihara and Dr. Kohno in National Cancer Center.

Genome Genome Whole-genome sequencing: Single nucleotide variants (SNVs), Insertion/deletions (indels) Copy number aberrations (CNAs) Chromosome rearrangements

Summary of SNVs/indels Genome Total number of positions (Avg. of 26 cell lines) SNVs Short indels Total 12,732,271 1,916,622 (3,302,407) (453,821) Germline 10,010,429 1,597,810 (3,177,173) (429,846) Somatic candidates 2,721,842 318,812 (125,234) (23,975) Genic * 892,941 118,268 (39,695) (8,516) Upstream (-500 from TSS) 11,796 2,049 (551) (159) UTRs 24,902 13 (1,086) (0.8) CDS 16,354 573 (687) (37) Synonymous 4,505 (188) *** Non-synonymous 11,849 (499) *** Splice sites 346 39 (14) (3) Intronic and others 839,543 115,594 (37,357) (8,315) Intergenic 1,828,901 200,544 (85,539) (15,459)

Genomic mutation status in 26 cancer-related genes Genome 13 Japanese 13 non-japanese EGFR KRAS NRAS MYC PIK3CA Oncogene ERBB2 BRAF MET AKT1 TP53 CDKN2A CDKN1A STK11 KEAP1 Tumor NF1 suppressor BRCA1 genes APC RB1 PTEN MSH6 SMARCA4 Chromatin EP300 remodelingrelated genes ARID1A RET Oncogenic ALK fusion-related ROS1 genes Non-synonymous SNVs/short indels on CDS SNVs/short indels on splice sites Highly copy number gains Copy number gains Homo losses /large deletions (>1 Kb) Copy number losses Ding et al. Nature 2008; Blanco et al. Hum Mutat 2009; Imielinski et al. Cell 2012

Sequencing data Whole-genome sequencing Sequencing: illumina HiSeq2000/2500; 101PE mrna-seq Sequencing: illumina HiSeq2000/2500; 101PE Bisulfite sequencing Capture: Agilent SureSelect Methyl-Seq Target Enrichment System (84 Mb) Sequencing: illumina HiSeq2000/2500; 101PE ChIP-Seq for histone modifications and RNA Polymerase II Sequencing: HiSeq2000/2500; 36SE IP H3K4me3 H3K4/9ac Pol II H3K36me3 H3K9me3 H3K27me3 H3K4me1 H3K27ac Marker Active Active Active Active (elongation) Silent, Heterochromatin Silent Active, Enhancer Active, Enhancer Comprehensive catalogues of genome, transcriptome and epigenome in 26 lung adenocarcinoma cell lines

Small-molecule inhibitors to chromatin-associated factors Helin & Dhanak. 2013 Nature Chromatin proteins and modifications as drug targets

JQ1: a small-molecule bromodomain inhibitor Fig. 4 Bromodomain proteins and their inhibitors. Helin & Dhanak. 2013 Nature Chromatin proteins and modifications as drug targets Filippakopoulos et al. 2010 Nature Selective inhibition of BET bromodomains Fig. 3a The acetyl-lysine binding pocket of BRD4(1) is shown as a semitransparent surface with contact residues labelled and depicted in stick representation. Carbon atoms in (+)-JQ1 are coloured yellow to distinguish them from protein residues. Distinguishing surface residues are shown in red; the family conserved asparagine is shown in blue.

Genomic aberrations in chromatin remodeling-related genes SMARCA4 (BRG1) SWI/SNF related, matrix associated, actin dependent regulator of chromatin, subfamily a, member 4 183 lung adenocarcinoma (Imielinski et al. 2012 Cell, Figure S3c) 26 lung adenocaricnoma cell lines 1,647 AA 170 206 460 532 750 942 1,084 1,246 1,427 1,577 + large deletions (>1 kb) in five cell lines

Genomic aberrations in chromatin remodeling-related genes ARID1A (BAF250) AT rich interactive domain 1A (SWI-like) 183 lung adenocarcinoma (Imielinski et al. 2012 Cell, Figure 3c) 26 lung adenocaricnoma cell lines 2,285 AA 1,000 1,122 + large deletions (>1 kb) in one cell line

Epigenomic aberrations in chromatin remodeling-related genes SMARCA2 SWI/SNF related, matrix associated, actin dependent regulator of chromatin, subfamily a, member 2 ChIP-Seq H3K27me3 (transcriptional repressive mark) Gene expression levels (RPKM) 20 15 10 5 0 RNA-Seq 9.70 6.80 8.18 5.00 5.10 13.70 9.35 0.11 6.85 11.24 9.48 1.79 7.52 9.24 13.98 15.47 0.07 5.25 6.26 1.15 6.16 7.27 6.18 2.08 9.96 0.18

Transcriptome Transcriptome RNA-seq: Gene expression profiles Fusion transcripts

Gene expression profiles from RNA-seq Transcriptome AAAAAAAAA AAAAAAAAA AAAAAAAAA RNA-seq Removing sequences with adapters/low qualities Mapping on human reference genome UCSC hg19 using ELAND Estimating expression abundances in each gene (20,598 genes) Used sequences (Read1) Num of genes >1 RPKM >5 RPKM PC-3 49,914,547 12,205 9,240 PC-7 50,925,975 12,129 9,009 PC-9 34,167,521 12,817 9,532 PC-14 53,977,381 12,169 9,037 RERF-LC-Ad1 56,406,046 12,298 9,206 RERF-LC-Ad2 45,580,359 12,392 8,804 RERF-LC-KJ 60,803,665 12,054 8,938 RERF-LC-MS 52,715,099 13,045 9,090 RERF-LC-OK 33,086,988 12,309 8,954 VMRC-LCD 45,944,953 12,502 8,711 ABC-1 37,993,504 11,715 8,384 LC2/ad 43,665,988 12,366 9,206 II-18 63,869,445 11,955 9,038 A549 20,440,396 12,155 8,998 A427 41,895,881 11,866 9,011 H322 54,487,583 12,457 9,351 H2228 56,465,940 12,409 9,106 H1299 51,120,991 11,735 8,958 H1437 49,890,034 12,275 8,921 H1648 38,908,100 12,604 9,317 H1650 26,635,691 12,716 9,595 H1703 87,705,180 11,736 8,695 H1819 75,262,673 12,494 9,185 H1975 36,195,247 12,715 9,634 H2126 46,862,796 12,143 9,016 H2347 50,325,156 12,278 9,030

Genomic mutations on CDS and gene expression Genome Transcriptome 700 Non-synonymous SNVs Indels >1 RPKM 1 RPKM >1 RPKM 1 RPKM 600 Number of mutations 500 400 300 200 100 0 A half of mutations exist in the expressed genes.

Genome Transcriptome Aberrant splicing patterns in tumor-suppressor genes Cell line Symbol Mutation splice site SNVs 3 th intron, acceptor, AG>AT splice site indels 6 th intron, acceptor, AG>A PC-7 NF1 Intron 19, donor, GT>TT VMRC-LCD STK11 Intron 3, acceptor, AG>AT H2228 RB1 Intron 6, acceptor, AG>A H1650 TP53 Intron 6, acceptor, AG>GG H1703 TP53 Intron 8, donor, GT>TT VMRC-LCD Whole-genome VMRC-LCD RNA-Seq PC-9 RNA-Seq A549 RNA-Seq H2228 Whole-genome H2228 RNA-Seq PC-9 RNA-Seq A549 RNA-Seq splice site SNVs 19 th intron, donor, GT>TT H322 RNA-Seq H322 RNA-Seq splice site SNVs 6 th intron, acceptor, AG>GG splice site SNVs 8 th intron, donor, GT>TT PC-7 Whole-genome PC-7 RNA-Seq H1650 Whole-genome H1703 Whole-genome PC-9 RNA-Seq A549 RNA-Seq H1650 RNA-Seq PC-9 RNA-Seq A549 RNA-Seq H1703 RNA-Seq PC-9 RNA-Seq A549 RNA-Seq H322 RNA-Seq H322 RNA-Seq H322 RNA-Seq 19 th exon of NF1

Examples of aberrant splicing patterns RBM10 RNA binding motif protein 10 Genome Transcriptome UPF1 UPF1 regulator of nonsense transcripts homolog (yeast) H2347 WGS H2347 RNA RBM10 was reported as a frequently mutated gene in lung adenocarcinoma (Imielinski et al. 2012 Cell). VMRC-LCD WGS VMRC-LCD RNA hetero hetero PC-9 RNA PC-9 RNA H2347; Intron 20, donor, GT>TT; Intron read-through (p.v785_splice) KDM5A lysine (K)-specific demethylase 5A VMRC-LCD; Intron 21, donor, GT>TT; Exon skipping PTPRJ protein tyrosine phosphatase, receptor type, J ABC-1 WGS ABC-1 RNA PC-9 RNA ABC-1; Intron 3, acceptor, AG>TG; Exon skipping hetero hetero PTPRJ-C11orf54 fusion was detected in H322 cell line. H2347 WGS H2347 RNA PC-9 RNA H2347; Intron 22, acceptor, AG>AT; Deletion (p.i1187_q1188del) hetero hetero

Transcriptome Known oncogenic fusion transcripts CCDC6-RET fusion in LC2/ad Cell line Fusion Chrom Strand On the left Coordinates On the right Spanning reads Spanning pairs Spanning pairs where one end spans a fusion LC2/ad CCDC6-RET chr10-chr10 rf 61,665,879 43,612,031 184 27 98 CCDC6 CCDC6 DUF2046 CCDC6-RET Kinase RET Cad Kinase RET L H LC2/ad PC-9 A549 H2228 RTase - - + - + - + - + - 1.5 kbp L: Ladder, H: H 2 O From the RNA-seq data, known driver fusion transcripts such as CCDC6-RET in LC2/ad were identified (Matsubara et al. 2012; Takeuchi et al. 2012; Suzuki et al. 2013).

ALK-related fusions (ALK-PTPN3, EML4-ALK) in H2228 Transcriptome PTPN3 PTPN3 FERM PDZ Phosphatase ALK-PTPN3 PDZ Phosphatase ALK MAM x 2 Kinase ALK EML4 HELP WD40/Y VTN EML4-ALK WD40/Y VTN Kinase L H LC2/ad PC-9 A549 H2228 RTase - - + - + - + - + - 300 bp ALK-PTPN3 EML4 L H LC2/ad PC-9 A549 H2228 RTase - - + - + - + - + - 2 kbp EML4-ALK L: Ladder, H: H 2 O From the RNA-seq analysis, ALK-PTPN3 fusion was detected in H2228 cell line as reported in the previous study (Jung et al. Genes Chromosomes Cancer 2012). EML4-ALK was also previously reported and detected by RT-PCR but not detected by the computational analysis.

Novel fusion transcripts ERGIC2-CHRNA6 in H1437 WGS ERGIC2 ERGIC and golgi 2 CHRNA6 cholinergic receptor, nicotinic, alpha 6 (neuronal) L H H1437 PC-9 A549 H322 RTase - - + - + - + - + - 1.5 kbp L: Ladder, H: H 2 O Transcriptome PC-3 PC-7 PC-9 PC-14 RERF-LC-Ad1 RERF-LC-Ad2 RERF-LC-KJ RERF-LC-MS RERF-LC-OK VMRC-LCD ABC-1 LC2/ad II-18 A549 A427 H322 H2228 H1299 H1437 H1648 H1650 H1703 H1819 H1975 H2126 H2347 EFHD1-UBR3 in PC-9 WGS EFHD1 EF-hand domain family, member D1 UBR3 ubiquitin protein ligase E3 component n-recognin 3 (putative) L H LC2/ad PC-9 A549 H322 RTase - - + - + - + - + - 1 kbp L: Ladder, H: H 2 O 実際に functional かどうかはわからない

Differentially expressed genes in 26 cell lines Num of genes * High expression (>4 fold of avg.) Low expression (<1/16 fold of avg.) PC-3 554 2,323 PC-7 731 2,700 PC-9 277 1,504 PC-14 264 2,019 RERF-LC-Ad1 240 1,661 RERF-LC-Ad2 477 1,583 RERF-LC-KJ 293 2,178 RERF-LC-MS 403 918 RERF-LC-OK 573 2,109 VMRC-LCD 871 1,818 ABC-1 346 2,636 LC2/ad 160 1,527 II-18 203 2,478 A549 242 1,968 A427 304 2,869 H322 241 1,828 H2228 304 1,663 H1299 279 2,775 H1437 341 2,007 H1648 226 1,389 H1650 328 1,511 H1703 170 2,697 H1819 512 1,626 H1975 248 1,587 H2126 315 2,033 H2347 251 1,739 *Total 16,573 genes were used in this analysis: Avg. RPKM > 0, 1 cell lines with >1 RPKM RPKM 160 140 120 100 RPKM RPKM 80 60 40 20 0 90 80 70 60 50 40 30 20 10 0 12 10 8 6 4 2 0 EGFR MYCL1 TP53 Transcriptome Avg. RPKM 4 Avg. RPKM 1/16 Avg. RPKM 4 Avg. RPKM 1/16 Avg. RPKM 4 Avg. RPKM 1/16

Differentially expressed genes in 26 cell lines Number of genes 1000 Differentially expressed genes ( 4-fold of avg.) 900 800 700 600 500 400 300 200 100 0 Fold of average 8 7 6 5 4 Transcriptome 3500 Differentially expressed genes ( 1/16-fold of avg.) 3000 Number of genes 2500 2000 1500 1000 500 Fold of average 1/32 1/28 1/24 1/20 1/16 0 細胞株によって differentially expressed gene の数に差がある

Gene expression status of 26 cancer-related genes Fold of avg. RPKM in each gene Transcriptome Fusion transcript 13 Japanese 13 non-japanese 0 1 2 3 EGFR KRAS NRAS MYC PIK3CA ERBB2 BRAF MET AKT1 TP53 CDKN2A (p14 ARF, p16 INK4a ) CDKN1A STK11 KEAP1 NF1 BRCA1 APC RB1 PTEN MSH6 SMARCA4 EP300 ARID1A RET ALK ROS Oncogene Tumor suppressor genes Chromatin remodeling-related genes Oncogenic fusionrelated genes 細胞株によって発現量に差がある遺伝子がどのような制御を受けているか? エピゲノム解析へ

Epigenome Epigenome1 Target captured-bisulfite sequencing: DNA methylation profiles in regulatory regions

Coverage of target regions (84 Mb) Target captured-bisulfite sequencing Approximately 100 million mapped reads (50 million pairs) were obtained in each cell line. Average depth: 109.7 x10 coverage: 91% (Total length of the bait regions: 84Mb) 1 0.9 0.8 0.7 0.6 0.5 0.4 0.3 0.2 0.1 0 Average of 26 cell lines 1 10 100 1000 Depth Mapped sequences (R1+R2) Depth (avg) Coverage (x10) Conversion rate (x5) Epigenome CpG sites (>x5) PC-3 157,902,653 161.4 0.93 0.99 3,673,159 PC-7 109,919,011 110.9 0.93 0.99 3,418,929 PC-9 87,012,056 89.6 0.90 0.99 3,231,320 PC-14 204,216,479 210.3 0.96 0.99 4,064,068 RERF-LC-Ad1 87,043,746 89.1 0.90 0.99 3,264,395 RERF-LC-Ad2 78,300,691 83.0 0.92 0.99 3,448,211 RERF-LC-KJ 72,844,738 74.9 0.88 0.99 3,068,971 RERF-LC-MS 102,938,936 109.0 0.94 0.99 3,598,662 RERF-LC-OK 161,552,507 165.0 0.95 0.99 3,758,532 VMRC-LCD 84,681,570 89.5 0.91 0.99 3,136,774 LC2/ad 112,097,386 116.0 0.93 0.99 3,548,548 ABC-1 93,158,547 93.1 0.93 0.99 3,493,903 II-18 99,682,438 165.0 0.91 0.99 3,327,001 A549 87,966,180 91.0 0.91 0.99 3,324,364 A427 53,499,542 54.3 0.81 0.99 2,614,641 H322 153,896,186 165.8 0.95 0.99 4,161,775 H2228 122,705,759 81.6 0.90 0.99 4,815,543 H1299 118,923,875 82.2 0.91 0.99 4,533,930 H1437 98,311,209 63.1 0.88 0.99 4,382,225 H1648 102,033,841 104.4 0.91 0.99 3,357,747 H1650 105,694,196 109.4 0.93 0.99 3,460,378 H1703 127,897,486 81.6 0.91 0.99 5,513,896 H1819 220,008,485 223.4 0.95 0.99 4,085,231 H1975 79,688,628 81.7 0.91 0.99 3,274,116 H2126 124,651,437 80.2 0.90 0.99 4,991,289 H2347 115,973,241 76.1 0.89 0.99 4,661,415 Depths and coverage were calculated using BEDTools (Quinlan AR and Hall IM. 2010 Bioinformatics). Conversion rate: (TA+TT+TC) / (CA+CT+CC+TA+TT+TC).

Epigenome Average methylation rates in each cell line Average methylation rates CpG sites Total CpG islands Other regions Regions CpG islands CpG shores C-DMR T-DMR CpG islands (+) Promoters CpG islands (-) 0 50 100 (%) CpG islands は 低メチル化 CpG islands 以外の CpG site のメチル化率は cell line によって異なり variation がある

Histone modification & RNA Polymerase II binding status PC-9 Epigenome Active Elongation Enhancer Silent

Epigenome ChIP-seq Mapped sequences (avg. of 26 cell lines) WCE H3K4me3 H3K9/14ac Pol II H3K36me3 H3K4me1 H3K27ac H3K27me3 H3K9me3 19,100,553 26,140,455 19,596,187 26,056,772 24,264,604 25,900,257 25,690,276 21,584,812 21,155,573 MACS2 peaks (avg. of 26 cell lines) H3K4me3 H3K9/14ac Pol II H3K36me3 H3K4me1 H3K27ac H3K27me3 H3K9me3 narrow peaks 21,209 34,374 15,715 107,708 108,882 61,061 53,587 39,559 narrow & broad peaks 16,208 23,753 13,997 47,710 75,854 38,297 42,163 51,760

Replicates H1975 H3K4me3 rep#1: 130705_Hiseq3A rep#2: 130625_Hiseq3A control (WCE): 130625_Hiseq3A Epigenome Number of genes overlapping * with MACS2 peaks rep#1 rep#2 H1975 H3K4me3 12,104 11,708 11,703 (96.6%) Signal intensities (intensity) = (IP PPM * )/(WCE PPM * ) 2.5 2.0 rep#2 1.5 1.0 r = 0.997 H1975 H3K4me3 rep#1 rep#2 0.5 0 0 0.5 1.0 1.5 2.0 2.5 rep#1 log10(intensity + 1) * ±1.5 Kb from TSS r: Pearson correlation coefficient

Comparison with ENCODE data A549 H3K4me3 Our dataset: 120531_SangiB Our dataset control (WCE): 120626_SangiA ENCODE rep#1, rep#2: wgencodeeh001905 (DCC Acc) ENCODE control (standard control): wgencodeeh001904 Epigenome ENCODE DCC (Data Coordination Center) Number of genes overlapping * with narrow peaks * ±1.5 Kb from TSS Our dataset ENCODE rep#1 A549 H3K4me3 ENCODE rep#2 A549 H3K4me3 11,898 13,424 13,375 11,820 (87.5%) 11,807 (87.7%) 13,262 (98.0%) Our dataset ENCODE rep#1 ENCODE rep#2 ENCODE rep#1 Signal intensities (intensity) = (IP PPM * ) Our dataset vs. ENCODE rep#1 3.0 2.5 2.0 1.5 1.0 0.5 0 r=0.927 ENCODE rep#2 log10(intensity + 1) 0 0.5 1.0 1.5 2.0 2.5 3.0 Our dataset ENCODE rep#1 vs. rep#2 3.0 2.5 r=0.997 2.0 1.5 1.0 0.5 log10(intensity + 1) 0 0 0.5 1.0 1.5 2.0 2.5 3.0 ENCODE rep#1 Our dataset vs. ENCODE rep#2 ENCODE rep#2 3.0 2.5 2.0 1.5 1.0 0.5 0 r=0.928 log10(intensity + 1) 0 0.5 1.0 1.5 2.0 2.5 3.0 Our dataset

Epigenome ChromHMM Using ChromHMM, chromatin states were detected and characterized from ChIP-Seq data of the eight chromatin marks. BED files of ChIP-Seq Converting bed files to binarized files (BinarizeBed) Learning chromatin state models (LearnModel) Chromatin states Active promoter Weak/poised promoter Strong enhancer Weak enhancer Transcriptional elongation Inactive region Inactive region/heterochromatin Low/no signal Chromatin state model for our data We learned and analyzed eight chromatin states. H3K4me1 H3K27ac H3K9/14ac Pol II H3K4me3 H3K27me3 H3K9me3 H3K36me3 Chromatin marks ChromHMM: a program for the learning chromatin states using a multivariate Hidden Markov model Ernst et al. 2011 Nature Ernst and Kellis. 2012 Nat methods

ChromHMM on IGV (EGFR) Epigenome Candidate state annotation 1 Active promoter 2 Weak/poised promoter 3 Strong enhancer 4 Weak enhancer 5 Transcriptional elongation 6 Inactive region 7 Inactive region/heterochromatin 8 Low/no signal Chromatin states around TSS of EGFR Active chromatin marks H3K4me3 Pol II H3K36me3

Epigenome Differentially methylated genes in 26 cell lines (example) IGF1R insulin-like growth factor 1 receptor Methylation rates 1 0.9 0.8 0.7 0.6 0.5 0.4 0.3 0.2 0.1 0 Methylation rates of IGF1R Avg. MR 1/16 Avg. MR 4 Methylation rates 1 0.9 0.8 0.7 0.6 0.5 0.4 0.3 0.2 0.1 0 RPKM (RNA-Seq) vs. Methylation rates (BS-Seq) BS (Methylation rate) RNA (RPKM) r s = -0.551 70 60 50 40 30 20 10 0 RPKM IGF1R gene was detected as one of the differentially methylated genes in the 26 cell lines. In IGF1R promoters, three cell lines are highly methylated and five cell lines show lower DNA methylation.

EGFR epidermal growth factor receptor Integrated analyses PC-7: Non-adherent cell RNA-Seq ChIP-Seq H3K4me3 ChIP-Seq Pol II ChIP-Seq H3K36me3 G403V E746_A750del L62R, L858R E746_A750del L858R, T790M 0.65 RPKM 0.01 RPKM 65.1 RPKM 49.8 RPKM 53.0 RPKM 114.1 RPKM 32.4 RPKM 24.3 RPKM 35.0 RPKM 0.59 RPKM 73.1 RPKM 14.7 RPKM 20.4 RPKM 68.3 RPKM 19.8 RPKM 80.5 RPKM 42.6 RPKM 35.8 RPKM 49.0 RPKM 37.3 RPKM 73.1 RPKM 35.4 RPKM 48.6 RPKM 47.8 RPKM 41.3 RPKM 37.7 RPKM Cell line H3K4me3 Pol II H3K36me3 PC-7 VMRC-LCD PC-3

STK11 遺伝子についての遺伝子発現異常パターン Whole-genome RNA-Seq ChIP-Seq H3K4me3 ChIP-Seq Pol II ChIP-Seq H3K36me3 E223V T250P Q37* 38.4 RPKM 30.0 RPKM 15.5 RPKM 24.0 RPKM 33.7 RPKM 15.8 RPKM 2.8 RPKM 0.01 RPKM 25.3 RPKM 28.8 RPKM 25.3 RPKM 27.1 RPKM 0.26 RPKM 12.6 RPKM 0.78 RPKM 27.6 RPKM 35.4 RPKM 28.5 RPKM 16.9 RPKM 36.0 RPKM 13.6 RPKM 40.5 RPKM 19.4 RPKM 35.9 RPKM 8.6 RPKM 28.8 RPKM ゲノム異常遺伝子発現異常エピゲノム異常

CDKN1A cyclin-dependent kinase inhibitor 1A (p21, Cip1) tumor suppressor gene controlled by p53 RERF-LC-Ad2 Integrated analyses Expression levels of CDKN1A PC-14 PC-7 VMRC-LCD RNA DNA methyl H3K4me3 H3K9/14ac Pol II H3K36me3 H3K4me1 H3K27ac H3K27me3 H3K9me3 ゲノム変異はないが DNA メチル化やヒストンの repressive mark で発現が制御されている

CDKN2A cyclin-dependent kinase inhibitor 2A DNA methylation rates Integrated analyses 0.0 0.4 0.6 1.0 G67V (p16 INK4a ) 62-base deletion (p16 INK4a /p14 ARF ) D84V (p16 INK4a ) E69* (p16 INK4a ) Genomic deletion Genomic deletion Genomic deletion Genomic deletion Genomic deletion Genomic deletion Genomic deletion Genomic deletion Genomic deletion Genomic deletion Genomic deletion Genomic deletion Genomic deletion p16 INK4a の異常 Genomic deletion: 13 cell lines SNVs/indels: 4 cell lines DNA methylation: 6 cell lines ゲノム変異と DNA メチル化が発現量に大きく寄与している p16 INK4a p14 ARF

Negative correlation between DNA methylation rates and expression levels CDKN2A (p16 INK4a ) Integrated analyses 1 45 0.9 DNA methylation rate 40 0.8 Expression level 35 DNA methylation rates 0.7 0.6 0.5 0.4 0.3 0.2 Genomic deletion High methylation Low methylation 30 25 20 15 10 Expression levels (FPKM) 0.1 5 0 0 Promoter of p16 INK4a was deleted in 13 cell lines and highly methylated in 6 cell lines. Expression levels of p16 INK4a were down-regulated by genomic deletions or DNA methylation of the promoter. *FPKMs of p16 and p14 were calculated using TopHat2-Cufflinks.

Expression levels of p14 ARF and p16 INK4a 45 Integrated analyses 120 Expression levels of p16ink4a (FPKM) 40 35 30 25 20 15 10 5 Genomic deletion p16ink4a p14arf 100 80 60 40 20 Expression levels of p14arf (FPKM) 0 0 DNA methylation of the promoter p16 INK4a のプロモーターが DNA メチル化をうけていない細胞については p16 INK4a の発現量は p14 ARF の発現量と相関があるように見える ただし H1975 と II-18 の p16 INK4a 発現量は 低めである それぞれ nonsense SNVs と 62-base deletion をもっている 分解されている? ( ちなみに H3K4me3 の intensity は高い )

ERBB2 v-erb-b2 avian erythroblastic leukemia viral oncogene homolog 2 DNA methylation H3K4me3 RNA Integrated analyses Cell line FPKM NM_004448 NM_001005862 PC-3 67.2 7.1 PC-7 0.00025 33.9 PC-9 56.0 3.0 PC-14 40.0 5.5 RERF-LC-Ad1 85.3 6.1 RERF-LC-Ad2 205.1 10.4 RERF-LC-KJ 273.1 4.1 RERF-LC-MS 52.2 4.9 RERF-LC-OK 57.7 1.5 VMRC-LCD 2.0e-5 4.7 LC2/ad 102.9 1.5 ABC-1 271.3 1.9 II-18 112.3 4.5 A549 22.5 1.1 A427 60.8 2.1 H322 265.3 6.9 H2228 19.9 1.8 H1299 28.1 2.1 H1437 94.2 5.3 H1648 141.9 6.2 H1650 207.8 4.4 H1703 73.8 2.0 H1819 1476.2 11.0 H1975 98.0 3.9 H2126 227.1 5.6 H2347 118.5 4.7 NM_001005862 NM_004448 PC-7とVMRC-LCDでは NM_04448の転写開始点付近がDNAメチル化を受けている NM_04448が発現していない PC-7はNM_001005862の発現量が高め *FPKMs were calculated using TopHat2-Cufflinks.

Gene Expression of Alternative Promoters of the ERBB2 gene 1000 Promoter 1:highly methylated Alternative Promoter 2 (fpkm) 100 10 1 0.00001 0.0001 0.001 0.01 0.1 1 10 100 1000 10000 Alternative Promoter 1 (fpkm)

データベースへの統合 DBTSS の拡張 : DB-KERO

ヒトオミクスデータ推定蓄積量 全国に展開するヒトゲノム解析 ゲノム多型 がんゲノム エピゲノム トランスクリプトーム 北海道 DCC(iPS ハイウェイ ) ゲノム多型 (WGS/WES): >2000 人がんゲノム (WGS/WES/Target Seq):>1000 症例トランスクリプトーム (RNA Seq):>1000 例エピゲノム (BS/ChIP Seq):<100 例 ゲノムデータは急速に蓄積している 九大医学部 ( 佐々木グループ : CREST-IHEC) CIRA(iPS ハイウェイ ) 長浜コホート 阪大病院 ( 大腸がん ) 東大ゲノム多型センター厚労省難病センター癌研究所 ( 次世代がん ) がんセンター (ICGC; 肝臓がん ) 東北メガバンク OIST( 琉球コホート ) + 培養細胞 +PDX+モデル系 :>5000 例 + マウス等モデル生物 :??? 例 + 個別研究者の蓄積するオミクス情報 :??? 例 京大医学部 ( システムがん ) 九大病院 ( 食道がん ) 東大医科研 (BBJ) データ統合が目指すヒトゲノム臨床応用研究 WGS/WES 解析 Coding SNVsの解析例 Gene A がんセンター東病院 (LC-SCRUM; 肺がん ) がんセンター ( 金井グループ : CREST-IHEC) 東大 ( 白髭グループ : CREST-IHEC) Regulatory SNVsの解析 創薬スクリーニング 創薬スクリーニングの系に用いられるが オミクス情報の統合が不十分 変異陽性の症例は有意に生存期間が短い. 日本人肺腺がんでの変異遺伝子頻度. 症例間で変異遺伝子が重複することは例外的な遺伝子を除いて まれ Passenger 変異 <->Driver 変異の区分が困難 創薬ゲノミクス 臨床応用へ直結しない Regulatory SNP についての情報が圧倒的に不足 肺腺がんのドライバー変異

ヒト応用研究を志向したオミクス情報の統合 (EGFR 遺伝子を例に ) 転写開始点 / トランスクリプトーム情報 (TSS/RNA Seq) ( 発現量と転写開始点 ) クロマチン情報 (ChIP Seq) ヒトゲノム変異情報の統合 DNA メチル化情報 (BS Seq) (ChrHMM パターンで示すヒストン修飾 ) (BS Seq による異常メチル化検出 ) ( それぞれの検体での変異部位 ) パスウェイマップ ( 文献情報 ) からの検索 ( 該当集団中の遺伝子変異頻度を赤の濃さで示す ) モデル系とのさらなる統合

資料 2-1 SNV on promoter of BRAF chr7:140625001, G>A Frequency: 1/26 cell lines = 疾患ゲノムのその座標で 何が起きているのか を網羅的に検索 このゲノム変異はエピゲノム トランスクリプトームに変化を与えない 中立変異の可能性が高い? PC-9 PC-9 DNA methyl PC-9 H3K4me3 PC-9 H3K9/14ac PC-9 H3K27ac PC-9 Pol II LC2/ad DNA methyl LC2/ad H3K4me3 LC2/ad H3K9/14ac LC2/ad H3K27ac LC2/ad Pol II PC-9 LC2/ad ChIP-Seq H3K4me3 ChIP-Seq H3K27ac Genome WGS ChIP-Seq H3K4me3 ChIP-Seq H3K27ac

検索 ( テキスト検索 ) ( 公開 DB) 検索 ( クリッカブルマップ ) ( 非公開 DB) ( 該当集団中の遺伝子変異頻度を赤の濃さで示す ) キーワード検索 非喫煙者に変異の多い遺伝子 ( 青 ) 遺伝子変異からの検索 喫煙者に変異の多い遺伝子 ( 赤 ) 変異濃縮のみられるパスウェイ検索 KEGGからの自動生成文献 ( ウェブ ) からのマニュアル描画 結果表示 ( 変異情報 ) 結果表示 ( ゲノムブラウザ ) 結果表示 ( 比較ゲノム ) 変異パターン / 頻度 変異パターン / 症例別 変異アノテーション (COSMIC/polyphen) 遺伝子モデルトランスクリプトーム DNAメチル化変異パターン / 頻度ヒストン修飾変異パターン / 症例別 ヒトデータ マウスデータ

90 80 70 60 50 40 30 20 10 0 Expression levels of p21 (CDKN1A; rpkm) p21 遺伝子についての遺伝子発現異常パターン p21 の発現レベル ( 肺腺癌培養細胞 26 種類 ) PC-14 種々のヒストン修飾の影響が大きい細胞 PC-7 DNA メチル化の影響が大きい細胞 VMRC-LCD RNA DNA methyl H3K4me3 H3K9/14ac Pol II H3K36me3 H3K4me1 H3K27ac H3K27me3 H3K9me3

ヒト疾患ゲノム統合 DB (DBMGS): KERO(Kashiwa Encyclopedia of Regulatory Omics) ヒトゲノム エピゲノム トランスクリプトームデータの統合 ヒト疾患ゲノム変異への機能的注釈 パターン検索システムの開発と実装 http://dbtss.hgc.jp/ 病院 ゲノムセンター DB-KERO 大規模プロジェクト 提案者自身 個別研究者 オミクスデータ統合が加速するヒトゲノム臨床応用研究 = 疾患ゲノムのその座標で 何が起きているのか を網羅的に検索

Summary 情報提供新機器 新技術 => 止まらない技術革新新しいプロトコール (Stranded, MatePair, BRIC ) シングルセル解析 : フリューダイムC1システム 統合解析のモデルケース => 遺伝子に固有のサイレンシング機構肺腺がん培養細胞をモデルとして -> 機能解析 / スクリーニングの場としての培養細胞情報の整備情報の統合 => 情報の統合化による知識発見多階層オミクスデータベースの構築 : -> 疾患ヒトゲノム変異の生物学的機能注釈を目指して

ACKNOWLEDGEMENTS イルミナの運用とデータ基礎解析 : 菅野研 ( 東大 ) DBTSSの作成と解析 : 中井研 ( 東大 ) がんリシークエンス 統合解析 : 土原研 ( がんセンター東病院 ) がん細胞解析 : 河野研 ( がんセンター ) イルミナ解析技術の開発 : 秋光研 ( 東大 ) * イルミナ : 菊田寛鈴木健介 マラリア原虫の解析 : 杉本研 ( 北大 ) * アジレント : 箕浦加穂田谷敏貴