DOI: 10.7875/leading.author.4.e008 2015 年 5 月 18 日 公 開 次 世 代 シークエンサーにより 得 られたデータの 解 析 Sequence data analysis in life science utilizing next generation sequencers 坊 農 秀 雅 Hidemasa Bono ライフサイエンス 統 合 データベースセンター 要 約 生 命 科 学 の 研 究 において 次 世 代 シークエンサーが 普 通 に 使 われるようになってきた.これまで,さまざまな 応 用 が 提 案 されてきたが, 最 近 では,ゲノムの 再 解 読 による 多 型 の 解 析 やゲノムの 新 規 な 解 読,トランスクリプトームの 解 読 による RNA 転 写 量 の 測 定,DNA 結 合 タンパク 質 の 結 合 配 列 の 解 析, 細 菌 叢 のメタゲノムの 解 析 がおもなもの になった. 対 応 するデータ 解 析 の 手 法 もほぼ 固 まってきた ようにみえる.そこで,このレビューでは, 次 世 代 シーク エンサーにより 得 られたデータの 解 析 手 法 を, 公 共 データ ベースのデータを 解 析 してきた 立 場 から 紹 介 する. はじめに 次 世 代 シークエンサー(next generation sequencer: NGS)により 解 読 された 塩 基 配 列 の 情 報 は,どのような 実 験 を 行 ったかというメタデータとともに,SRA (Sequence Read Archive)とよばれる 公 共 データベース に 登 録 されている 1). 次 世 代 シークエンサーにより 得 られ たデータの 登 録 は 2007 年 からはじまり,2015 年 4 月 現 在, 総 塩 基 数 で 約 3.6 ペタ 塩 基 (ペタは 10 の 15 乗 ), デ ータ 量 は 約 2.3 ペタバイトと, 保 持 するだけでもたいへんな 量 になっている(http://www.ncbi.nlm.nih.gov/Traces/sra/). その 研 究 分 野 による 内 訳 をみると,ゲノムが 3/4 近 くをし め,その 残 りの 半 分 がトランスクリプトーム,ついでメタ ゲノムなっている( 図 1). このレビューでは, 次 世 代 シ ークエンサーにより 得 られたデータの 解 析 手 法 を 解 説 する. 1. マッピングとアセンブル 次 世 代 シークエンサーにより 得 られたデータの 解 析 に 用 いられるソフトウェアの 多 くはオープンソースで 無 償 で 使 えるものであり, 多 くのユーザーがそれをテストし 各 種 のメーリングリストや twitter などのソーシャルメディ アでその 評 判 が 流 布 している.それらをまとめた SEQanswers の Wiki には,2014 年 4 月 15 日 現 在,690 も の ソ フ ト ウ ェ ア が 登 録 さ れ て い る (http://seqanswers.com/wiki/software). 数 多 くのソフ トウェアが 存 在 するものの,やっていること 自 体 はほぼ 同 じというものが 多 く,ソフトウェアの 種 類 自 体 はほぼ 出 尽 くした 感 がある.それらのうち 代 表 的 なものを 紹 介 する. これら 次 世 代 シークエンサーに 関 連 する 配 列 データのフ ォーマットをまとめた( 表 1). 次 世 代 シークエンサーから 直 接 に 得 るにしても,SRA などの 公 共 データベースからダウンロードするにしても, データ 解 析 のハブは FASTQ 形 式 の 配 列 ファイルである 図 1 公 共 データベース SRA へのエントリー 数 を 研 究 分 野 ごとに 分 類 したもの 分 類 は 登 録 の 際 につけられる Study Type ではなく, DBCLS SRA(http://sra.dbcls.jp/search/)により 独 自 に 再 分 類 したもの. 1
( 図 2). そ の FASTQ ファイルをもとに,データを 解 析 する 前 処 理 としてアダプター 配 列 やタグ 配 列 を 除 去 し 品 質 管 理 を 行 うが,その 目 的 には FASTQC というソフトウ ェ ア が よ く 用 い ら れ る (http://www.bioinformatics.babraham.ac.uk/projects/fastqc/). そののち,データ 解 析 はリファレンスとなるゲノムにマッ ピングするか,アセンブルするかに 分 かれる. リファレンス 配 列 がすでにあるヒトや,ゲノム 配 列 がす でに 解 読 されているマウス,ショウジョウバエ, 線 虫 など の 多 くの 古 典 的 なモデル 生 物 においては, 次 世 代 シークエ ンサーにより 得 られたリード 配 列 をリファレンスとなる ゲノム 配 列 に 対 して 貼 りつけ (マッピング)をするこ とからデータ 解 析 がはじまる.このマッピングのためのソ フトウェアとしては,Bowtie 2) あるいは BWA 3) が 使 わ れることがほとんどである.マッピングには 大 きな 計 算 コ ストがかかり, 多 くの 計 算 時 間 およびメモリを 要 する.そ の 出 力 結 果 はゲノムに 対 する BAM 形 式 のアラインメント ファイルとして 得 られる.Bowtie の 出 力 結 果 は BAM 形 式 のテキスト 版 である SAM 形 式 により 得 られるが,その のちのデータ 処 理 の 入 力 がソートされた BMA 形 式 である ことが 多 いので,samtools というソフトウェアを 用 いて BAM 形 式 に 変 換 しソートすることが 多 い 4). 最 新 版 の samtools(version1.2)ではこのソートの 並 列 化 が 実 装 さ れ 変 換 の 高 速 化 が 図 られている. リファレンスとなるゲノム 配 列 のない 生 物 種 ではマッ ピングはできないなので, 次 世 代 シークエンサーにより 得 られたリード 配 列 の つなぎあわせ (アセンブル)をす る 必 要 がある.アセンブルにより 得 られるのは,BLAST など 配 列 類 似 性 の 検 索 でおなじみの FASTA 形 式 の 配 列 デ ータである. 2. ゲノムの 解 析 次 世 代 シークエンサーがもっとも 使 われているのは, 個 体 のあいだのゲノムの 解 析,とくに,ヒト 個 人 のゲノム 解 読 である.ヒトゲノム 全 体 の 1%ほどの mrna に 転 写 さ れるエキソン 領 域 のみを 再 解 読 の 対 象 とするエキソーム 解 析 では,マッピングのためのソフトウェアとして BWA を 使 う 解 析 フローが 紹 介 されることが 多 い.その 一 例 を 簡 単 に 述 べると,マッピングにより 得 られた BAM ファイル から,samtools や Picard(http://picard.sourceforge.net/) を 使 い 重 複 のあるリード 配 列 を 除 き,Bedtools を 用 いて エキソン 領 域 のみを 抽 出 する 5).そして,samtools により 多 型 (とくに 1 塩 基 置 換,single nucleotide variant:snv) のある 場 所 を 抽 出 し, 非 同 義 置 換,ミスセンス 変 異,フレ ームシフト 変 異 というアノテーションをつけ,VCF 形 式 のファイルとして 結 果 を 得 る. また,エピゲノムを 解 析 する 場 合 には,バイサルファイ ト 処 理 によりメチル 化 されなかったシトシンがウラシル に 置 換 され DNA 配 列 を 解 読 する 際 にチミンとして 読 まれ ることを 利 用 してメチル 化 された 部 位 を 見 い 出 す WGBS (whole genome bisulfite sequencing) 法 により 解 析 する. メチル 化 された 部 位 に 塩 基 置 換 が 起 こるのでそれを 1 塩 基 置 換 として 見 い 出 す 戦 略 をとり, 基 本 的 なデータ 解 析 の 手 法 はゲノムの 再 解 読 のときと 同 じである. 最 終 的 には, ゲノムブラウザとしてよく 使 われる IGV 6) を 用 いて, 候 補 となる 領 域 を 研 究 者 が 自 分 の 目 で 確 認 する. また,ゲノムを 新 規 に 解 読 する 場 合 にはアセンブルの 必 要 があるが,そのためのソフトウェア(アセンブラー)は 多 く 開 発 されており,たとえば,nucleotid.es という Web サイト(http://nucleotid.es/)にカタログ 化 されている. なかでも, 米 国 Broad Institute において 開 発 された ALLPATH-LG 7) や, 日 本 発 の Platanus 8) などがよく 使 われている.これらは 無 償 で 利 用 できるが,アセンブルの ためのソフトウェアは 一 般 に 大 きなメモリが 必 要 となる ので 個 人 や 研 究 室 の 所 有 するマシンでは 動 かせないこと が 多 い.そこで,スーパーコンピューター(スパコン)を 表 1 次 世 代 シークエンサーに 関 連 する 配 列 データのフォーマット BAM 形 式 および BCF 形 式 のほかはすべてテキスト 形 式 であり,そのままではファイルサイズ が 大 きくなるため,ふだんは 圧 縮 されていることが 多 い 2
利 用 することになるが, 研 究 目 的 なら 国 立 遺 伝 学 研 究 所 の スパコンにおいてさまざまなソフトウェアが 試 用 できる ので 利 用 するとよい.また, 有 償 のソフトウェアとしては, デンマークの CLC bio 社 が 開 発 している CLC assembly cell(http://www.clcbio.com/products/clc-assembly-cell/) はスパコンにしかない 大 きなメモリを 必 要 とせず MacOSX でも 実 行 が 可 能 で,さまざまな 理 由 から 外 部 に 出 せない 配 列 データのアセンブルに 適 している.アセンブ ルによりコンティグが 得 られたら,それらの 順 序 および 向 きをそろえてより 長 い 配 列 を 得 る 必 要 がある.それをやっ てくれるのが Opera というソフトウェアである 9).ま ず, FASTA 形 式 のコンティグのファイルとそれを 生 成 するの に 使 ったリード 配 列 の FASTQ 形 式 のファイル,マッピン グに 使 うソフトウェア(BWA あるいは Bowtie)を 引 数 に あたえて 実 行 し,map 形 式 の 結 果 ファイルを 得 る.その のち,Opera を 起 動 して FASTA 形 式 の 配 列 ファイルを 得 ることにより,より 少 なく,かつ, 平 均 的 により 長 くなっ たコンティグが 得 られる. 得 らえたゲノム 配 列 は, 近 縁 種 の cdna やアミノ 酸 配 列 に 対 する 配 列 類 似 性 検 索 により アノテーションし, 最 終 的 には GTF 形 式 (GFF 形 式 )の ファイルを 得 る. 3. トランスクリプトームの 解 析 マイクロアレイを 用 いたハイブリダイゼーション 法 を ベースにした 手 法 が 主 流 であった RNA 転 写 量 の 測 定 も, 次 世 代 シークエンサーを 用 いた RNA-seq 法 がとって 代 わ ろうとしている.これは, 転 写 された RNA の 配 列 をすべ て 解 読 し,それぞれの 個 数 をそれが 由 来 する 転 写 単 位 ( 遺 伝 子 )の 発 現 強 度 とする 手 法 である.かつて,Bodymap 法 とよばれる 手 法 では,EST(expressed sequence tag) 図 2 データ 解 析 のハブとなる FASTQ 形 式 FASTQ 形 式 は 次 世 代 シークエンサーのメーカーや 機 種 によ らない 配 列 データの 標 準 的 な 形 式 になっている. 現 在, 公 共 データベース SRA においては SRA 形 式 が 用 いられており, sratoolkit の fastq-dump というソフトウェアにより FASTQ 形 式 に 変 換 する 必 要 がある. 今 後 は,BAM 形 式 での 登 録 が 増 えることも 予 想 され,その 場 合 は bedtools のサブコマンド bamtofastq などを 使 い FASTQ 形 式 に 変 換 する 必 要 がある. とよばれる mrna の 配 列 断 片 をクラスタリングし, 転 写 単 位 ごとにその 数 を 数 えあげることにより 遺 伝 子 発 現 量 を 解 析 していた 10).RNA-seq 法 は,まさに 次 世 代 シーク エンサーを 使 うことによりこの Bodymap 法 をなしとげる ものである.RNA-seq 法 により 得 られる RNA 転 写 量 の 単 位 として,RPKM(reads per kilobase per million mapped reads)がよく 用 いられる.これは 正 規 化 された 遺 伝 子 発 現 量 で,100 万 個 のリード 配 列 をマッピングし 転 写 産 物 の 長 さを 1000 塩 基 としたときのマッピングされたリード 配 列 の 数 である 11).また,RPKM の 代 わりに 使 われること の 多 い FPKM(fragments per kilobase of exon per million mapped)もほぼ 同 じで, 断 片 ごとの 正 規 化 され た 遺 伝 子 発 現 量 である.RNA-seq 法 に 関 しても,リファ レンスとなるゲノムにマッピングするかアセンブルする かに 分 かれる. マッピングによる 方 法 では,エキソーム 解 析 と 同 じく Bowtie や BWA というマッピングのためのソフトウェア が 使 われる.しかし,RNA に 特 有 のスプライシングに 対 するアラインメントが 必 要 になる.それを 行 うのが TopHat というソフトウェアで,TopHat が 内 部 で Bowtie を 起 動 するため,RNA-seq 法 ではマッピングに Bowtie が 使 われることが 多 い 12).そののち,ゲノムのどの 位 置 に 遺 伝 子 があるかなどを 記 述 したゲノムアノテーション のファイル( 多 くの 場 合,GTF 形 式 )を 使 い,Cufflinks というソフトウェアにより 選 択 的 スプライシングによる スプライスバリアントをリストアップする 13).Cufflinks により 出 力 される 遺 伝 子 発 現 量 は FPKM である. Cufflinks は 複 数 のソフトウェアからなり,いくつかの 計 算 ステップが 必 要 ではあるが,Cuffdiff により 指 定 した 2 つの 状 態 の 遺 伝 子 発 現 量 の 差 を 同 定 することができる.さ らに,Cufflinks の 結 果 を 読 み 込 んで R/Bioconductor にお いて 便 利 に 使 えるようにする cummerbundというパッケ ージもある.トランスクリプトーム 解 析 のための 多 くのソ フトウェアが R/Bioconductor で 開 発 されていることもあ り,さらなるデータ 解 析 が 進 めやすく 便 利 である 14).た だし,TopHat(Bowtie)を 実 行 したのちに Cufflinks を 実 行 するという 一 連 の 過 程 は 必 要 なメモリの 量 が 多 く, 多 くの CPU が 搭 載 されているマシンであっても 1 つの CPU で 実 行 される 部 分 もあるなど, 計 算 には 数 時 間 のオーダー がかかる.そこで,より 高 速 なソフトウェアの 開 発 が 進 め られ, 最 近 では,アラインメントをせずに k-mer をカウ ントすることにより 遺 伝 子 発 現 を 定 量 する 方 法 が 注 目 さ れている.その 代 表 的 なソフトウェアに Sailfish がある 15). このソフトウェアはトランスクリプトームが 既 知 でない と 利 用 できないが,いちどインデックスを 作 成 さえしてお けば,あとは FASTQ ファイルごとにかなり 高 速 に 遺 伝 子 発 現 が 定 量 できる. アセンブルによる 方 法 では,Trinity というソフトウェ アがよく 使 われる 16). 必 要 なメモリの 量 が 多 く 計 算 時 間 3
も 長 くかかるのが 難 点 であるが, 国 立 遺 伝 学 研 究 所 のスパ コンでも 試 用 できる. ここまでの 手 順 により 遺 伝 子 単 位 で 発 現 量 を 定 量 して しまえば,マイクロアレイ 解 析 での 手 順 がほぼそのまま 利 用 できる. 抽 出 した 遺 伝 子 セットが 遺 伝 子 全 体 からみてど ういう 特 徴 をもつのかみるのによく 用 いられるのが GSEA(gene set enrichment analysis) 法 である 17).も ちろん,エキソーム 解 析 やのちに 述 べる ChIP-seq 法 など においてもこの GSEA 法 は 有 効 である.なかでも,DAVID とよばれるウェブツールはインターフェースもよくでき ており 便 利 である 18).OMIM,Gene Ontology,Pathway という 機 能 情 報 への 遺 伝 子 アノテーションを 利 用 したデ ータの 解 釈 は,マイクロアレイにおけるデータ 解 析 と 同 様 に, 次 世 代 シークエンサーにより 得 られた 大 量 のデータを 解 釈 する 手 段 として 有 効 である( 図 3).さらに 最 近, 論 文 データベースである PubMed においておのおのの 論 文 に 付 与 されている MeSH(medical subject headings)を 使 い GSEA 法 により 解 析 する 手 法 を 実 装 した R/Bioconductor のパッケージ meshr が 公 開 され,データ 解 析 のバリエーションがさらに 広 がった 19). 4. DNA 結 合 タンパク 質 の 結 合 配 列 の 解 析 以 前 より,DNA 結 合 タンパク 質 の 結 合 した DNA 配 列 を 解 析 する 手 法 としてクロマチン 免 疫 沈 降 (chromatin immunoprecipitation:chip) 法 があり,2000 年 代 前 半 から 2000 年 代 中 ごろにかけては,DNA の 配 列 断 片 をマ イクロアレイにより 検 出 する ChIP-on-chip 法 が 用 いられ ていた.そして,マイクロアレイの 代 わりに 次 世 代 シーク エンサーを 用 いて DNA の 配 列 断 片 を 解 読 する 方 法 が 開 発 され ChIP-seq 法 とよばれるようになった 20).ChIP-seq 法 では,DNA 結 合 タンパク 質 を 認 識 する 抗 体 を 用 いてこ れが 結 合 した DNA の 配 列 断 片 を 回 収 し 解 析 する.ターゲ ットとなるタンパク 質 としてヒストンと 転 写 因 子 がある. ともに 結 合 した DNA 配 列 を 解 読 することによりゲノムの どの 領 域 に 結 合 していたかを 知 ることができ,ゲノムのど の 位 置 に 遺 伝 子 があるかというゲノムアノテーション 情 報 とつきあわせることにより 直 接 的 な 転 写 制 御 の 関 係 が 推 定 できる. ChIP-seq 法 においては,クロマチン 免 疫 沈 降 法 により DNA 結 合 タンパク 質 に 結 合 した DNA の 配 列 断 片 をリフ ァレンスとなるゲノムにマッピングし, 得 られた BAM 形 式 のアラインメントファイルを 入 力 として,MACS とい うソフトウェアを 使 い 結 合 部 位 を 推 定 する 21). 得 られる 結 果 は, 染 色 体 の 番 号,その 場 所 (start と end)とその 場 所 でのピークの 値 がかかれた BED 形 式 のファイルであ る.この 情 報 からゲノムのどこにピークがあるかがわかる. そのゲノムにおける 位 置 がどこか,ゲノムアノテーション 情 報 をもとに R/Bioconductor などを 使 い 解 析 する. ChIP-seq 法 におけるデータ 解 析 にあたりむずかしいのは, 結 合 がある とするかどうかの 閾 値 の 線 引 きで,これば かりは 実 際 のデータをみて 個 々に 決 めていく 必 要 がある. また, 得 られた 結 合 配 列 の 特 徴 ( 転 写 因 子 の 場 合 には, 転 図 3 DAVID による GSEA 法 の 解 析 の 例 遺 伝 子 発 現 のリファレンスデータセットである RefEx(http://refex.dbcls.jp/)にある, 組 織 に 特 異 的 な 発 現 パターンを 示 す 遺 伝 子 の DAVID による GSEA 法 の 解 析 の 例. 肝 臓 に 特 異 的 に 発 現 する 遺 伝 子 の 特 徴 を Gene Ontology の Biological Process のアノテーショ ンを 使 い 解 析 した. 肝 臓 の 機 能 として 知 られる 代 謝 などの 特 徴 が 遺 伝 子 レベルで 抽 出 されている. 4
写 因 子 結 合 配 列 モチーフ)を 知 りたい 場 合 には,それらの 配 列 を 抽 出 しアラインメントしたのち,その 配 列 の 特 徴 を WebLogo を 用 いて 頻 出 する 塩 基 が 大 きく 表 示 されるよう 可 視 化 するなどの 手 段 がある 22). 5. メタゲノムの 解 析 次 世 代 シークエンサーにより 細 菌 叢 の 全 体 がもつ DNA の 配 列 をいちどに 解 読 できるようになり,ショットガン 法 により 細 菌 叢 の 全 ゲノムを 解 析 する 方 法 や,16S rrna の みを 解 読 し 細 菌 叢 に 存 在 する 各 種 の 細 菌 の 割 合 を 解 析 す る 方 法 が 開 発 されている.その 結 果,ヒト 腸 内 細 菌 叢 のメ タゲノムは,ヒト,マウスについで 公 共 データベース SRA に 多 く 登 録 されている.16S rrna を 解 析 する 方 法 は, 解 読 されたリード 配 列 に 含 まれる 16S rrna の 配 列 がデー タベース 化 された 既 知 の 16S rrna の 配 列 のどれにマッ チするかを 探 索 するものである. 全 ゲノムの 解 析 について は, 微 生 物 における 全 ゲノム 配 列 の 解 読 と 同 じステップを ふむ.まず, 解 読 されたリード 配 列 を 既 知 のデータベース にたよることなくアセンブルする.その 配 列 からタンパク 質 の 配 列 をコードする ORF を 見 い 出 し, 得 られたアミノ 酸 配 列 を 質 問 配 列 として,これまでに 知 られているアミノ 酸 配 列 のデータベースに 対 し BLAST などを 使 い 配 列 類 似 性 を 検 索 する.その 結 果 から, 配 列 類 似 性 にもとづき 機 能 アノテーションし, 最 終 的 に,KEGG や COG という 分 類 のためのデータベースを 用 いて 機 能 分 類 をする. 6. データの 再 利 用 次 世 代 シークエンサーにより 得 られたデータは 基 本 的 には 公 共 データベースである SRA に 登 録 される.それは, 解 析 結 果 の 再 現 性 の 担 保 のため,そして, 科 学 の 進 展 のた めであり, 現 在,われわれが 思 いもよらないような 使 い 方 がされそこから 大 発 見 があるかもしれないからである. 例 をあげるなら,かつて 理 化 学 研 究 所 の FANTOM プロジェ クトにおいて 作 製 された EST データベースは,iPS 細 胞 の 分 化 を 誘 導 する 4 つの 因 子 を 絞 り 込 むことに 使 われた (http://www.osc.riken.jp/contents/fantom/). 今 後 も 同 じ ようなことが 起 こるよう, 次 世 代 シークエンサーにより 得 られたデータは 公 共 データベースへ 登 録 していくべきな のである.わが 国 の DDBJ(DNA Data Bank of Japan) は 米 国 の NCBI や 欧 州 の EBI とデータを 交 換 しているの で,DDBJ の DRA(DDBJ Sequence Read Archive)に 登 録 しても SRA に 登 録 するのと 同 じであり, 大 容 量 のデ ータの 転 送 も 速 くスムーズに 登 録 が 進 む. また,ヒト 個 人 を 特 定 する 可 能 性 のある 遺 伝 学 的 なデー タおよび 表 現 型 の 情 報 に 関 しては,DDBJ の JGA (Japanese Genotype-phenotype Archive)に 登 録 される. これには, 科 学 技 術 振 興 機 構 バイオサイエンスデータベー スセンター(National Bioscience Database Center: NBDC)において 認 可 された 利 用 制 限 ポリシーをもつ 匿 名 化 されたデータのみが 登 録 できる.NBDC ではヒトに 関 するさまざまなデータを 共 有 するためのプラットフォー ム NBDC ヒトデータベース を 運 用 しており (http://humandbs.biosciencedbc.jp/), 次 世 代 シークエン サーにより 得 られたデータに 関 しては JGA に 登 録 される しくみになっている. 現 時 点 ではデータを 蓄 積 するほうに 重 点 がおかれてい るように 思 うかもしれないが, 今 後, 公 共 データベースに 蓄 積 されたデータを 再 利 用 した 研 究 が 増 えていくに 違 い ない 23).そのため,きたるべき 利 用 に 備 えて,どういっ た 実 験 をしたか,そのデータを 発 表 した 論 文 はどれかなど, 配 列 データそのものだけでなく, 実 験 に 関 するデータ(メ タデータ)もきちんと 登 録 し 今 後 の 科 学 の 発 展 に 貢 献 でき るよう 心 がけてほしい. おわりに 公 共 データベース SRA には,すでに 次 々 世 代 シー クエンサーから 得 られたデータも 登 録 されている.しかし ながら, 現 状 ではシークエンサーの 種 類 が 変 わってもデー タ 解 析 の 手 順 が 大 きく 変 わることは 考 えられない.すなわ ち,データ 解 析 の 手 法 としてはある 程 度 が 固 まってきた 感 がある. 今 後 は,インターフェースの 改 良 などによりデー タ 解 析 におけるハードルを 下 げる 努 力 がなされ, 生 物 学 者 自 身 が 次 世 代 シークエンサーにより 得 られたデータを 解 析 する 時 代 になっていくことだろう. 文 献 1) Kodama, Y., Shumway, M. & Leinonen, R.: The Sequence Read Archive: explosive growth of sequencing data. Nucleic Acids Res., 40, D54-D56 (2012) 2) Langmead, B. & Salzberg, S. L.: Fast gapped-read alignment with Bowtie 2. Nat. Methods, 9, 357-359 (2012) 3) Li, H. & Durbin, R.: Fast and accurate short read alignment with Burrows-Wheeler transform. Bioinformatics, 25, 1754-1760 (2009) 4) Li, H., Handsaker, B., Wysoker, A. et al.: The Sequence Alignment/Map format and SAMtools. Bioinformatics, 25, 2078-2079 (2009) 5) Quinlan, A. R. & Hall, I. M.: BEDTools: a flexible suite of utilities for comparing genomic features. Bioinformatics, 26, 841-842 (2010) 6) Robinson, J. T., Thorvaldsdottir, H., Winckler, W. et al.: Integrative genomics viewer. Nat. Biotechnol., 29, 24-26 (2011) 7) Gnerre, S., Maccallum, I., Przybylski, D. et al.: High-quality draft assemblies of mammalian genomes 5
from massively parallel sequence data. Proc. Natl. Acad. Sci. USA, 108, 1513-1518 (2011) 8) Kajitani, R., Toshimoto, K., Noguchi, H. et al.: Efficient de novo assembly of highly heterozygous genomes from whole-genome shotgun short reads. Genome Res., 24, 1384-1395 (2014) 9) Gao, S., Sung, W. K. & Nagarajan, N.: Opera: reconstructing optimal genomic scaffolds with high-throughput pair-end sequences. J. Comput. Biol., 18, 1681-1691 (2011) 10) Okubo, K., Hori, N., Matoba, R. et al.: Large scale cdna sequencing for analysis of quantitative and qualitative aspects of gene expression. Nat. Genet., 3, 173-179 (1992) 11) Mortazavi, A., Williams, B. A., McCue, K. et al.: Mapping and quantifying mammalian transcriptomes by RNA-Seq. Nat. Methods, 7, 621-628 (2008) 12) Kim, D., Pertea, G., Trapnell, C. et al.: TopHat2: accurate alignment of transcriptomes in the presence of insertions, deletions and gene fusions. Genome Biol., 14, R36 (2013) 13) Trapnell, C., Hendrickson, D. G., Sauvageau, M. et al.: Differential analysis of gene regulation at transcript resolution with RNA-seq. Nat. Biotechnol., 31, 46-53 (2013) 14) 門 田 幸 二 : トランスクリプトーム 解 析. 共 立 出 版 (2014) 15) Patro, R., Mount, S. M. & Kingford, C.: Sailfish enables alignment-free isoform quantification from RNA-seq reads using lightweight algorithms. Nat. Biotechnol., 32, 462-464 (2014) 16) Grabherr, M. G., Haas, B. J., Yassour, M. et al.: Full-length transcriptome assembly from RNA-Seq data without a reference genome. Nat. Biotechnol., 29, 644-652 (2011) 17) Subramanian, A., Tamayo, P., Mootha, V. K. et al.: Gene set enrichment analysis: a knowledge-based approach for interpreting genome-wide expression profiles. Proc. Natl. Acad. Sci. USA, 102, 15545-15550 (2005) 18) Huang, D. W., Sherman, B. T. & Lempicki, R. A.: Systematic and integrative analysis of large gene lists using DAVID bioinformatics resources. Nat. Protoc., 4, 44-57 (2009) 19) Tsuyuzaki, K., Morota, G., Ishii, M. et al.: MeSH ORA framework: R/Bioconductor packages to support MeSH over-representation analysis. BMC Bioinformatics, 16, 45 (2015) 20) Kharchenko, P. V., Tolstorukov, M. Y. & Park, P. J.: Design and analysis of ChIP-seq experiments for DNA-binding proteins. Nat. Biotechnol., 26, 1351-1359 (2008) 21) Zhang, Y., Liu, T., Meyer, C. A. et al.: Model-based analysis of ChIP-Seq (MACS). Genome Biol., 9, R137 (2008) 22) Crooks, G. E., Hon, G., Chandonia, J. M. et al.: WebLogo: a sequence logo generator. Genome Res., 14, 1188-1190 (2004) 23) Second call for pan-cancer analysis. Nat. Genet., 46, 1251 (2014) 著 者 プロフィール 坊 農 秀 雅 (Hidemasa Bono) 略 歴 :2003 年 京 都 大 学 大 学 院 理 学 研 究 科 にて 博 士 号 取 得, 理 化 学 研 究 所 ゲノム 科 学 総 合 研 究 センター 基 礎 科 学 特 別 研 究 員, 埼 玉 医 科 大 学 ゲノム 医 学 研 究 センター 助 手, 同 講 師, 同 助 教 授 を 経 て,2007 年 よりライフサイエンス 統 合 データベースセンター 特 任 准 教 授. 2015 坊 農 秀 雅 Licensed under a Creative Commons 表 示 2.1 日 本 License 6