特論I

Similar documents
NGSデータ解析入門Webセミナー

機能ゲノム学(第6回)

基本的な利用法

Rインストール手順

機能ゲノム学

NGS速習コース

機能ゲノム学(第6回)

GWB

シーケンサー利用技術講習会 第10回 サンプルQC、RNAseqライブラリー作製/データ解析実習講習会

リード・ゲノム・アノテーションインポート

GWB

PowerPoint プレゼンテーション

NGSハンズオン講習会

ゲノム情報解析基礎 ~ Rで塩基配列解析 ~

1. はじめに 1. はじめに 1-1. KaPPA-Average とは KaPPA-Average は KaPPA-View( でマイクロアレイデータを解析する際に便利なデータ変換ソフトウェアです 一般のマイクロアレイでは 一つのプロー

農学生命情報科学特論I

機能ゲノム学(第6回)

基本的な利用法

機能ゲノム学(第6回)

機能ゲノム学(第6回)

GWB

特論I

PowerPoint Presentation

PrimerArray® Analysis Tool Ver.2.2

Rインストール手順

ChIP-seq

基本的な利用法

特論I

AJACS18_ ppt

次世代シークエンサーを用いたがんクリニカルシークエンス解析

Rでゲノム・トランスクリプトーム解析

nagasaki_GMT2015_key09

Slide 1

Sequence Read Archive 2013 年年 10 月 25 日 第 10 回シーケンサー利利 用技術講習会 ( 理理研横浜 ) 1

PowerPoint プレゼンテーション

Microsoft PowerPoint - ソフトウェア更新手順書_DAN-W62_mac_ _1.ppt

ゲノム情報解析基礎

インストールマニュアル

Microsoft PowerPoint _SINET_cloud


機能ゲノム学(第6回)

Maser - User Operation Manual

Microsoft PowerPoint - install_NGSsokushu_windows(ver2.1).pptx

Slide 1

Microsoft Word - CATNewsVol2No7Text.doc

PowerPoint プレゼンテーション

1.TKU メールの移行方法 以下の作業は Google Chrome を利用してください ( Internet Explorer は非推奨 ) 2 つの方法を紹介します メール通数を確認の上 自分に合った方法を選んでください 方法その 1. メールを転送する ( メールが少ない人用 ) 手順 1.

スライド 1

ゲノム情報解析基礎 ~ Rで塩基配列解析 ~

我々のビッグデータ処理の新しい産業応用 広告やゲーム レコメンだけではない 個別化医療 ( ライフサイエンス ): 精神神経系疾患 ( うつ病 総合失調症 ) の網羅的ゲノム診断法の開発 全人類のゲノム解析と個別化医療実現を目標 ゲノム育種 ( グリーンサイエンス ): ブルーベリー オオムギ イネ

Rでゲノム・トランスクリプトーム解析

DBMSリポジトリへの移行マニュアル

V1 ゲノム R e s e q 変異解析 Copyright Amelieff Corporation All Rights Reserved.

1 開発ツールのインストール 最初に JDK をインストールし 次に IDE をインストールする という手順になります 1. JDK のインストール JDK のダウンロードとインストール JDK は次の URL でオラクル社のウェブページからダウンロードします

IMC_31.ja.indd

intra-mart Accel Platform — IM-共通マスタ スマートフォン拡張プログラミングガイド   初版  

国際塩基配列データベース n DNA のデータベース GenBank ( アメリカ :Na,onal Center for Biotechnology Informa,on, NCBI が運営 ) EMBL ( ヨーロッパ : 欧州生命情報学研究所が運営 ) DDBJ ( 日本 : 国立遺伝研内の日

RNA-seq

NGS速習コース

IMC_31.ja.indd

IonTorrent RNA-Seq 解析概要 サーモフィッシャーサイエンティフィックライフテクノロジーズジャパンテクニカルサポート The world leader in serving science

SimLabプラグインは各機能を15回分評価版として試用できます


譲渡人複数証明データコンバータ操作説明書 平成 26 年 6 月

ファイルのアップロード. 上メニューから [ アップロード ] を選択します. [ アップロード ] 画面に移行しますので, 以下の手順で操作を行います アップロードするファイルを選択し, 指定場所へ [ ドラッグ & ドロップ ] します ドラッグ & ドロップ ファイルがリストアップされたことを

内容 1 はじめに インストールの手順 起動の手順 Enterprise Architect のプロジェクトファイルを開く 内容を参照する プロジェクトブラウザを利用する ダイアグラムを開く 便利な機能.

SimLab Plugins for SketchUp 評価版インストールおよびアクティベート方法 注意事項 評価版をお使い頂くには 評価用ライセンスでのアクティベートが必要です 評価用ライセンスファイルの取得を行い 手動でアクティベートする必要があります 各 SimLab プラグインは 評価用とし

コンピュータグラフィックス基礎              No

ゲノム情報解析基礎

Microsoft Word - 参照データ使用方法.docx

スライド 1

Linkexpress トラブル初期調査資料 採取コマンド使用手引書

Qlucore_seminar_slide_180604

Ontrack EasyRecovery 11 基本的な使い方

Works Mobile セットアップガイド 目次 管理者画面へのログイン... 1 ドメイン所有権の確認... 2 操作手順... 2 組織の登録 / 編集 / 削除... 6 組織を個別に追加 ( マニュアル操作による登録 )... 6 組織を一括追加 (XLS ファイルによる一括登録 )...

農業・農村基盤図の大字小字コードXML作成 説明書

PowerPoint Presentation

ランタイム版 Pro 版共通 症例登録システム 2018/12/11 Q & A 目次 1. 起動時のエラー... 2 Q11. " ファイル jsgoe_data3.fmp12 を開くことができません" と表示されます (Windows) 2 Q12. ショートカットから起動できません (Wind

GWB_RNA-Seq_

GeneSpringGX9  インストールガイド

目次 1. はじめに 本書対象者 PALRO のアプリケーションについて Ubuntu 8.04LTS の入手について Linux 上での開発環境の構築 事前準備 Ubuntu のインストール..

銘柄ペアファイル ( サポートファイル ) のダウンロード 銘柄ペアは 既に作成したファイルをご用意しています 以下の手順に沿って 銘柄ペアファイル のダウンロードしてください 1. 下記サイトよりダウンロードしたいファイルをクリックしてください

Microsoft PowerPoint - SNGS_Ana講習会5月29日.pptx

はじめに 面的評価支援システム操作マニュアル ( 別冊 ) 国土地理院数値地図 25000( 空間データ基盤 ) 変換編 は 国土地理院の HP よりダウンロードした数値地図 25000( 空間データ基盤 ) の地図データを 面的評価支援システム 用に変換するツールの使用方法についてまとめたものです

( 目次 ) 1. XOOPSインストールガイド はじめに 制限事項 サイト初期設定 XOOPSのインストール はじめに データベースの作成 XOOPSのインストール

環境影響物質含有量集計ツール操作ガイド

GHS混合物分類判定システムインストールマニュアル

<4D F736F F F696E74202D20352D335F8D5C90AC CF909482CC90B690AC82C695D28F572E707074>

Microsoft Word - 1 color Normalization Document _Agilent version_ .doc

ユーザーズマニュアル 有線ネットワークシステム 発行日 2016 年 3 月 30 日

Agilent 1色法 2条件比較 繰り返し実験なし

フォルダ構成例 (BIB-J) は必須ファイル は任意ファイル ( 電子付録等をアップロードする際に作成する ) 資料コード巻号記事識別子 XML ファイル { 記事識別子 }.xml { 記事識別子 }_{ 連番 }.{ 拡張子 } { 記事識別子 }.txt { 記事識別子 }_{ 連番 ].{

ソフトウェア基礎 Ⅰ Report#2 提出日 : 2009 年 8 月 11 日 所属 : 工学部情報工学科 学籍番号 : K 氏名 : 當銘孔太

Microsoft PowerPoint - KanriManual.ppt

「MT-3_2-ja

目次 3 14P Wordpressテンプレートの設定方法 15P 17P livedoorテンプレートの設定方法 18P 21P FC2テンプレートの設定方法

Microsoft PowerPoint - Borland C++ Compilerの使用方法(v1.1).ppt [互換モード]

ダウンロードページアップデートマニュアル.ppt

目次 1. 銘柄ペアファイル ( サポートファイル ) のダウンロード 2. 仕掛け中のペアを新しい銘柄ペアファイルに追加 ( 結合 ) する場合 3. 実行時エラー 11 :0 で除算しましたの対処法 4. 株式分割と株式併合について 5. 他のPCとのデータ共有 6. 取引履歴の CSV 保存

SQL Server Integration Services 連携機能編

Transcription:

講義室後ろにある USB メモリ中の hoge フォルダをデスクトップにコピーしておいてください 農学生命情報科学特論 I 第 2 回 東京大学大学院農学生命科学研究科アグリバイオインフォマティクス教育研究ユニット門田幸二 kadota@iu.a.u-tokyo.ac.jp 1

講義予定 第 1 回 (2014 年 6 月 11 日 ) 西 :NSG 概論 現状や展望など 講義のみ 第 2 回 (2014 年 6 月 18 日 ) 門田 : データベース データ取得 ファイル形式および変換 前処理 教科書の 1.3 節周辺 第 3 回 (2014 年 6 月 25 日 ) 門田 : アセンブル マッピング カウント情報取得 教科書の 2.3 節周辺 第 4 回 (2014 年 7 月 2 日 ) 門田 : クラスタリング データ正規化 実験デザイン 分布 ( モデル ) 発現変動解析 教科書の 3.3 節周辺 授業の目標 概要次世代シーケンサ (NGS) の普及により 以前は主にゲノム解析系で必要とされていた配列解析のためのスキルがトランスクリプトーム解析においても要求される時代になっています 本科目では 様々な局面で応用可能な配列解析系のスキルアップを目指し RNA シークエンス (RNA-Seq) に基づく ( 非モデル生物の ) トランスクリプトーム解析を題材とした実習を含む講義を行います 教科書 2

Contents( 第 2 回 ) イントロダクション (Introduction) NGS データ概観 (PacBio と Illumina) NGS データベース (DB) データ形式 (FASTQ 形式 ) SRAdb パッケージを用いたデータ取得 エラーへの対処 前処理 (Pre-processing) qrqc パッケージを用いた Quality Control (QC) アダプター配列除去 基本戦略 (girafe パッケージ ) 昔は正常に動作していたのに という例 (QuasR パッケージ ) アダプター除去を含む様々なフィルタリングの組合せ (ShortRead パッケージ ) 課題 3

トランスクリプトームとは ある特定の状態の組織や細胞中に存在する全 RNA( 転写物 transcripts) の総体 様々なトランスクリプトーム解析技術 マイクロアレイ DNA マイクロアレイ Affymetrix GeneChip タイリングアレイなど 配列決定に基づく方法 EST SAGE CAGE 次世代シーケンサ (RNA-seq) など 電気泳動に基づく方法 Differential Display AFLP HiCEP など 調べたい組織でどの遺伝子がどの程度発現しているのかを一度に観察 4

トランスクリプトームとは ある状態のあるサンプル ( 例 : 目 ) のあるゲノムの領域 ヒト 遺伝子 1 遺伝子 2 遺伝子 3 遺伝子 4 遺伝子全体 ( ゲノム ) どの染色体上のどの領域にどの遺伝子があるかは調べる個体 ( 例 : ヒト ) が同じなら不変 ( 目だろうが心臓だろうが ) AAAAAAA AAAAAAA AAAAAAA AAAAAAA AAAAAAA AAAAAAA AAAAAAA AAAAAAA AAAAAAA AAAAAAA AAAAAAA AAAAAAA AAAAAAA AAAAAAA AAAAAAA AAAAAAA AAAAAAA 転写物全体 ( トランスクリプトーム ) 遺伝子 1 は沢山転写されている ( 発現している ) 遺伝子 4 はごくわずかしか転写されてない 5

トランスクリプトームとは ある状態のあるサンプル ( 例 : 目 ) のあるゲノムの領域 光刺激 ヒト 遺伝子 1 遺伝子 2 遺伝子 3 遺伝子 4 遺伝子全体 ( ゲノム ) どの染色体上のどの領域にどの遺伝子があるかは調べる個体 ( 例 : ヒト ) が同じなら不変 ( 目だろうが心臓だろうが ) AAAAAAA AAAAAAA AAAAAAA AAAAAAA AAAAAAA AAAAAAA AAAAAAA AAAAAAA AAAAAAA AAAAAAA AAAAAAA AAAAAAA AAAAAAA AAAAAAA AAAAAAA AAAAAAA AAAAAAA AAAAAAA AAAAAAA AAAAAAA AAAAAAA AAAAAAA AAAAAAA AAAAAAA AAAAAAA AAAAAAA AAAAAAA AAAAAAA AAAAAAA AAAAAAA AAAAAAA AAAAAAA AAAAAAA AAAAAAA 転写物全体 ( トランスクリプトーム ) 遺伝子 2 は光刺激に応答して発現亢進 遺伝子 4 も光刺激に応答して発現亢進 6

トランスクリプトーム情報を得る手段 教科書 p9 光刺激前 (T1) の目のトランスクリプトーム 遺伝子 1 遺伝子 2 遺伝子 3 遺伝子 4 これがいわゆる 遺伝子発現行列 光刺激後 (T2) の目のトランスクリプトーム 遺伝子 1 遺伝子 2 遺伝子 3 遺伝子 4 教科書 p9 の図 1-8 に示してあるように 実際には 遺伝子 = 転写物 ではない点に注意! マイクロアレイ RNA-seq 7

トランスクリプトーム取得 (NGS) 次世代シーケンサー (Illumina 社の場合 ) 光刺激前 (T1) の目のトランスクリプトーム 配列決定 教科書 p9 ペアードエンド法断片配列の両末端が数百塩基以内の対の 2 種類の配列が得られる 数百塩基程度に断片化 シングルエンド法 約 50-250 塩基 アダプター配列を両末端に付加 シングルエンド法の場合 アダプター 1 アダプター 2 数百塩基程度 8

様々な NGS プラットフォーム Roche:GS FLX+ System Illumina:HiSeq System Life Technologies:SOLiD System Pacific Biosciences:PacBio RS II System 9

実際のデータ PacBio のロングリードデータも出始めています 10

11

実際のデータ 比較的新しい論文のリードごとの塩基配列情報は見られるものの FASTQ ファイルがまだ生成されてなくてダウンロードができないこともある 12

実際のデータ DDBJ SRA (DRA) がだめな場合は NCBI SRA にトライ 13

実際のデータ リードごとの塩基配列情報を見る場合はここ 14

実際のデータ 最初のリードの塩基配列が表示されます 15

実際のデータ 2 番目のリードを表示 リードによって長さが異なる 16

実際のデータ チェックを入れるとクオリティスコアも表示される 17

実際のデータ Illumina 社の Genome Analyzer SRA061145:Marioni et al., Genome Res., 18: 1509-1517, 2008 PacBio データの長さがよく分かります サンプルデータ 1, 36 bp Applied Biosystems 社の SOLiD4 System SRA000306:Cloonan et al., Nat. Methods, 5: 613-619, 2008 サンプルデータ 5, 25-35 bp Illumina 社の HiSeq 2000 SRA062939:Chan et al., Hum. Mol. Genet., 22: 2662-2675, 2013 サンプルデータ 25, 100 bp 18

教科書 p12-16 Contents( 第 2 回 ) イントロダクション (Introduction) NGS データ概観 (PacBio と Illumina) NGS データベース (DB) データ形式 (FASTQ 形式 ) SRAdb パッケージを用いたデータ取得 エラーへの対処 前処理 (Pre-processing) qrqc パッケージを用いた Quality Control (QC) アダプター配列除去 基本戦略 (girafe パッケージ ) 昔は正常に動作していたのに という例 (QuasR パッケージ ) アダプター除去を含む様々なフィルタリングの組合せ (ShortRead パッケージ ) 課題 19

NGS 用データベース SRA, DRA, ENA が公式?! な NGS data repository 2 次 DB の DBCLS SRA も面白いサイトです 20

DBCLS SRA Nakazato et al., PLoS One, 2013 全体をざっくりと知りたい場合によく利用しています 21

教科書 p14 NGS データ取得は全体像の理解が大事 Chan et al., Hum. Mol. Genet., 22: 2662-2675, 2013 論文中に NGS データは Gene Expression Omnibus (GEO) 中に GSE42960 で登録したという記載あり NCBI SRA 内で GSE42960 で検索 22

NGS データ取得は全体像の理解が大事 原著論文を読むことで Illumina HiSeq 2000 を使っていること 2 群間比較用データであることは既知 ニコチンアミド処理群 (Nico) 対未処理群 (Untreated; UT) 生データをダウンロードすると 9GB 程度になる 23

NGS データ取得は全体像の理解が大事 GSM1054024, SRX210739, SRR649760, ID だらけです 24

NGS データ取得は全体像の理解が大事 ある論文のデータ全体を指し示す ID の大元が GSE42960 で それに付随する実験 ID の SRX210739 ラン ID の SRR649760 などの全体をまとめたデータをメタデータという Illumina の場合はフローセルと呼ばれるスライドグラス程度の大きさのものを用いて 一度に 8 サンプル分の sequencing が可能 この実験をラン (RUN) という 25

NGS データ取得は全体像の理解が大事 リードごとの塩基配列情報を見る場合はここ 26

NGS データ取得は全体像の理解が大事 ダウンロードはここだが... FASTQ 形式ではなく SRA 形式ファイルなので非推奨 27

http://rgm22.nig.ac.jp/mediawiki-ogareport/index.php/raw_data_archiving/sharing_at_ddbj 様々なファイル形式 情報量 :SRA-full > SRA-lite > FASTQ > FASTA SRA-full: 塩基配列 クオリティ情報 Intensity 情報など画像以外の全て SRA-lite:SRA-fullからIntensity 情報を除いて軽量化したもの FASTQ: 塩基配列とクオリティ情報のみからなるもの FASTA: 塩基配列のみからなるもの ファイルサイズ (SRA-full : SRA-lite : FASTQ : FASTA) 6 : 3 : 2 : 1 例 :SRA-fullはFASTQの約 3 倍 FASTQ 形式ファイルの利用が基本 28

FASTA 形式と FASTQ 形式 FASTA 形式 1 行目 : > ではじまる一行の description 行 2 行目 : 配列情報 教科書 p11-13 >SEQ_ID GATTTGGGGTTCAAAGCAGTATCGATCAAATAGTAAATCCATTTGTTCAACTCACAGTTT FASTQ 形式 1 行目 : @ ではじまる 1 行の description 行 2 行目 : 配列情報 3 行目 : + からはじまる 1 行 ( の description 行 ) 4 行目 : クオリティ情報 @SEQ_ID GATTTGGGGTTCAAAGCAGTATCGATCAAATAGTAAATCCATTTGTTCAACTCACAGTTT +!''*((((***+))%%%++)(%%%%).1***-+*''))**55CCF>>>>>>CCCCCCC65 http://en.wikipedia.org/wiki/fastq_format 29

公共 DB からデータを取得する場合 ENA Sequence Read Archive (ERA; 欧 ) FASTQ 形式でダウンロード可能 NCBI Sequence Read Archive (SRA; 米 ) SRA 形式でダウンロード可能 DDBJ Sequence Read Archive (DRA; 日 ) FASTQ 形式と SRA-Lite 形式でダウンロード可能 ENA を概観しながら サンプル数と得られるファイル数の違いなどを認識 論文中の情報を頼りに SRA または SRP ID を入手する手続き メタデータ ( 全体像 ) 情報を把握 30

NGS データ取得は全体像の理解が大事 Chan et al., Hum. Mol. Genet., 22: 2662-2675, 2013 論文中に NGS データは Gene Expression Omnibus (GEO) 中に GSE42960 で登録したという記載あり ENA で GSE42960 で検索 31

NGS データ取得は全体像の理解が大事 Chan et al., Hum. Mol. Genet., 22: 2662-2675, 2013 論文中に NGS データは Gene Expression Omnibus (GEO) 中に GSE42960 で登録したという記載あり 実質的にどちらでもよい 32

NGS データ取得は全体像の理解が大事 Chan et al., Hum. Mol. Genet., 22: 2662-2675, 2013 ENA は全体像をつかみやすい 計 6 個の FASTQ 形式ファイルになるようだ 33

NGS データ取得は全体像の理解が大事 Chan et al., Hum. Mol. Genet., 22: 2662-2675, 2013 SRA, DRA, ENA どれでもよいが 論文から得られる GSE ID を頼りに SRA ID または SRP ID 情報を入手 (SRA062939 または SRP017580) するとともに メタデータ情報を把握すべし ダウンロードして得られるのは Run ID から始まる SRR という名前のファイル 34

Contents( 第 2 回 ) イントロダクション (Introduction) NGS データ概観 (PacBio と Illumina) NGS データベース (DB) データ形式 (FASTQ 形式 ) SRAdb パッケージを用いたデータ取得 エラーへの対処 前処理 (Pre-processing) qrqc パッケージを用いた Quality Control (QC) アダプター配列除去 基本戦略 (girafe パッケージ ) 昔は正常に動作していたのに という例 (QuasR パッケージ ) アダプター除去を含む様々なフィルタリングの組合せ (ShortRead パッケージ ) 課題 35

R で NGS データ取得 教科書 p71-73 SRAdb (Zhu et al., BMC Bioinformatics, 14: 19, 2013) SRAdb パッケージを利用して R 経由で NCBI SRA から FASTQ ファイル群をダウンロード可能 数時間かかるのでやらないで! 36

R で NGS データ取得 SRA または SRP ID を与えることでコピペで FASTQ ファイルをダウンロード可能です 37

ここまでのコマンドで NCBI SRA 中の全てのメタデータ情報を含んだ SRAmetadb.sqlite の gzip 圧縮ファイルがダウンロードされる 東大有線 LAN で 20 分程度 38

ダウンロード後は自動で解凍 解凍後のファイルは 6GB 程度 39

SRAmetadb.sqlite ファイルのダウンロードは結構大変だが 一度ダウンロードしておけば格納されている SRA メタデータ情報は利用可能 40

ENA でみられるメタデータ情報が R Console 画面上でも見られます 41

ENA でみられるメタデータ情報が R Console 画面上でも見られます 42

1 ライブラリ名 2 総リード数 3 ファイル名 4 ファイルサイズ 1 2 3 4 1 2 3 4 43

k オブジェクトは 6 行 19 列からなる 1 ライブラリ名 2 総リード数 3 ファイル名 4 ファイルサイズ 44

計 6 個の gzip 圧縮 FASTQ ファイルが得られます 45

教科書 p11 FASTQ ファイル実例 gzip 圧縮ファイル解凍後の SRR633902_1.fastq をテキストエディタで表示 4 行で 1 つのリード情報を表すのが FASTQ 形式です 46

教科書 p11 FASTQ ファイル実例 gzip 圧縮ファイル解凍後の SRR633902_1.fastq をテキストエディタで表示 解凍時に ファイルが壊れています などというメッセージが出たら ダウンロードに失敗していると解釈すべし 47

教科書 p11 FASTQ ファイル実例 gzip 圧縮ファイル解凍後のSRR633902_1.fastq をテキストエディタで表示 MD5 チェックサムが王道ですが 私はペアエンドリードの場合は もう片方のファイルサイズと比較して判断します 基本思考停止して再ダウンロード 48

Contents( 第 2 回 ) イントロダクション (Introduction) NGS データ概観 (PacBio と Illumina) NGS データベース (DB) データ形式 (FASTQ 形式 ) SRAdb パッケージを用いたデータ取得 エラーへの対処 前処理 (Pre-processing) qrqc パッケージを用いた Quality Control (QC) アダプター配列除去 基本戦略 (girafe パッケージ ) 昔は正常に動作していたのに という例 (QuasR パッケージ ) アダプター除去を含む様々なフィルタリングの組合せ (ShortRead パッケージ ) 課題 49

Quality Control FASTQ 形式ファイルを入力として全体像を眺める作業 FastQC が有名だが R パッケージもいくつかある 50

qrqc パッケージで全体像を眺める qrqc はシンプルだが 若干動作が不安定な印象 使われた実績はあり 51

hoge フォルダ中にあり 通常利用時は (Windows のヒトは ) 右クリックでファイルの保存 52

R colsole 画面上でペーストすると エラーは出るが SRR633902_1_sub-report というフォルダは作成される 53

縦軸 :Phred quality score 横軸 : 塩基のポジション 50 bp あたりから 100 bp にかけてクオリティ値が下がってますが これが一般的な傾向です 54

SRR633902_1_sub.fastq 入力の FASTQ 形式ファイル中の ASCII コードで 1 文字表記にされた Phred スコア ( 赤矢印部分 ) を変換して表示している 教科書 p10-13 に対応表などの記載あり 55

Quality Control 作業内容 フィルタリング (filtering) クオリティ値の低い塩基やリードの除去 rrna や trna の除去 トリミング (trimming) 最初の 35 塩基のみ利用など 重複除去 (de-duplication) コンタミ (contamination) バーコード配列 (barcoding) アダプター配列除去 (adapter removal) 実験デザインや使用する機器にもよるが様々な前処理が行われます 56

Kraken Davis et al., Methods, 63: 41-49, 2013 Linux と Mac 用のみ Table 1 Table 1 を見るといろいろできるように見えるが 57

Review 論文だと Paszkiewicz et al., Front Genet., 5: 157, 2014 Table 1 評価項目によって印象は変わりますね 58

Quality Control 作業内容 フィルタリング (filtering) クオリティ値の低い塩基やリードの除去 rrna や trna の除去 トリミング (trimming) 最初の 35 塩基のみ利用など 重複除去 (de-duplication) コンタミ (contamination) バーコード配列 (barcoding) アダプター配列除去 (adapter removal) Davis et al., Methods, 63: 41-49, 2013 特にアダプター配列除去 (adapter removal) は small RNA sequencing (srna-seq) の場合に マップ率に多大な影響を及ぼします Fig. 2 59

アダプター配列除去 girafe パッケージのデフォルト設定はイマイチですが 感覚をつかむ上では便利なのでそれを利用して説明します 60

アダプター配列除去のイメージ アダプター配列 :CATCGATCCTGCAGGCTAGAGACAGAT FASTQ 形式ファイル :SRR037439.fastq 3 側の 2 塩基が除去される 3 側の 5 塩基が除去される 3 側の 0 塩基が除去される 3 側の 4 塩基が除去される アラインメント時に指定するパラメータ ( 一致に何点 不一致に ) 次第で結果が変わる 3 側の 2 塩基が除去される 61

アダプター配列除去のイメージ アダプター配列 :CATCGATCCTGCAGGCTAGAGACAGAT FASTQ 形式ファイル :SRR037439.fastq 3 側の 2 塩基が除去される 3 側の 5 塩基が除去される 3 側の 0 塩基が除去される 3 側の 4 塩基が除去される この結果は一致に +1 点 不一致に -1 点を与えた場合です 具体的にどういう計算をしているのだろう? 3 側の 2 塩基が除去される 62

アダプター配列除去のイメージ 一塩基づつずらしたアラインメントの overlap の範囲で一致 (+1), 不一致 (-1) の総和を計算し 最も得点の高かったものを採用している NNNNNNNNNNNNNNNAGACAGTTGATTTAGCATAG score(case1): -1 CATCGATCCTGCAGGCTAGAGACAGAT score(case2): -2 CATCGATCCTGCAGGCTAGAGACAGAT score(case3): -1 CATCGATCCTGCAGGCTAGAGACAGAT score(case4): -4 CATCGATCCTGCAGGCTAGAGACAGAT score(case5): +3 CATCGATCCTGCAGGCTAGAGACAGAT score(case6): -6 CATCGATCCTGCAGGCTAGAGACAGAT score(case7): -5 CATCGATCCTGCAGGCTAGAGACAGAT score(case8): -4 CATCGATCCTGCAGGCTAGAGACAGAT score(case9): -5 CATCGATCCTGCAGGCTAGAGACAGAT Case5(3 側の 5 塩基を除去 ) のスコアが最大 63

アダプター配列除去 girafe パッケージのデフォルト設定はイマイチですが 感覚をつかむ上では便利なのでそれを利用して説明します 64

FASTQ ファイル読み込み後のリード塩基配列情報は sread 関数で抽出可能 table 関数を用いて配列長分布を調べている この場合 35 bp のものが 500 個あったということ 65

入力ファイルをちゃんと読み込めていることがわかります 66

アダプター配列除去後のリード塩基配列情報は sread 関数で抽出可能 table 関数を用いて配列長分布を調べている この場合 19 bp のものが 3 個など 67

table 関数を用いて配列長分布を調べている トリム前は 500 リードの配列長はすべて 35bp だったが トリム後に 19bp 長になっているものが 3 つ存在する それを調べる 68

特定の条件を満たすリードを調べる 配列長が 19 bp のものの位置情報を取得し その数を確認 obj が TRUE となる要素のみに対して 塩基配列と description 情報を表示 最も多くアダプター配列を含むリード ID を特定できた アダプター配列除去アルゴリズムの詳細を知ることで girafe のデフォルトパラメータがイマイチであることを知る 69

アダプター配列除去のイメージ 一塩基づつずらしたアラインメントのoverlapの範囲で一致 (+1), 不一致 (-1) の総和を計算し 最も得点の高かったものを採用している CNNNNNNNNNNNNNTGTGTCCTTGCCGTTGCAGGT score(case1): -1 CATCGATCCTGCAGGCTAGAGACAGAT score(case2): -2 CATCGATCCTGCAGGCTAGAGACAGAT score(case3): -1 CATCGATCCTGCAGGCTAGAGACAGAT score(case4): -4 CATCGATCCTGCAGGCTAGAGACAGAT score(case5): -1 CATCGATCCTGCAGGCTAGAGACAGAT score(case6): -4 CATCGATCCTGCAGGCTAGAGACAGAT score(case7): -3 CATCGATCCTGCAGGCTAGAGACAGAT score(case8): -6 CATCGATCCTGCAGGCTAGAGACAGAT score(case9): -5 CATCGATCCTGCAGGCTAGAGACAGAT score(case10): -2 score(case11): -9 score(case12): -8 score(case13): -3 score(case14): -10 CATCGATCCTGCAGGCTAGAGACAGAT CATCGATCCTGCAGGCTAGAGACAGAT CATCGATCCTGCAGGCTAGAGACAGAT CATCGATCCTGCAGGCTAGAGACAGAT CATCGATCCTGCAGGCTAGAGACAGAT CATCGATCCTGCAGGCTAGAGACAGAT score(case15): -9 score(case16): +2 CATCGATCCTGCAGGCTAGAGACAGAT ミスマッチ数が7 個! ( 黒矢印の数 ) 70

? 関数名 で詳細な使用法を学ぶ 一致に +1 不一致に -1 を与えているところ 一致に +1 不一致に -1 を与えて 2 塩基以上のオーバーラップがないとトリムしない設定にしているのがデフォルト 71

Contents( 第 2 回 ) イントロダクション (Introduction) NGS データ概観 (PacBio と Illumina) NGS データベース (DB) データ形式 (FASTQ 形式 ) SRAdb パッケージを用いたデータ取得 エラーへの対処 前処理 (Pre-processing) qrqc パッケージを用いた Quality Control (QC) アダプター配列除去 基本戦略 (girafe パッケージ ) 昔は正常に動作していたのに という例 (QuasR パッケージ ) アダプター除去を含む様々なフィルタリングの組合せ (ShortRead パッケージ ) 課題 72

2013 年 11 月ごろはうまくいっていましたが 2014 年 6 月に試すとエラーが出ていました という例 73

エラーの具体例 (2014 年 6 月 13 日 ) 2013 年 11 月 1 日のセミナーで見せた結果 エラーの原因はメモリ不足だそうです by 孫堅強氏 (2014 年 6 月 19 日 ) 74

アダプター配列除去 ( 推奨のやり方 ) hoge フォルダ中のファイルを解凍すれば実行できますが見るだけにして 75

全部で 11,928,428 リード 配列長は 49 bp 76

総リード数は不変だが アダプター配列除去によって配列長にバリエーションができたことがわかる 最短の 18 bp のものが 55,342 リード 最長の 47 bp のものが 63,998 リード 77

N を含むリードがちゃんと消えていることがわかる 最短の 18 bp のものが 55,264 リード 最長の 47 bp のものが 63,763 リード 78

配列長の範囲を 20-30 bp に限定すると 2,619,892 リードに減ることがわかる 最短の 20 bp のものが 517,002 リード 最長の 30 bp のものが 58,713 リード 79

出力は FASTA 形式にしている アダプター配列や各種前処理後は クオリティスコア情報はいらないだろう という思想 主なメリットはファイルサイズ 80

アダプター配列除去 ( 推奨のやり方 ) readdnastringset 関数は gzip 圧縮ファイルも読み込み可能 gzip 圧縮ファイルとして保存することも可能 81

Tips rcode_adapter.txt N を一つでも含むリードの除去を行うステップを省く場合 (# を左端に入れれば そのコマンドは実行されない ) 82

課題 1 と 2 原著論文中のアダプター配列除去後の配列長分布は右表のとおりであった rcode_adapter.txt( の一部 ) Nie et al., BMC Genomics, 14: 661, 2013 1. 右表と同じように 18-44 塩基の範囲内にある small RNA リードのみを抽出するためにはどこをどう変更すればよいか示せ 2. 指定した範囲に含まれる総リード数を示せ 83

課題 3 右表に示されているように 原著論文中のアダプター配列除去を含むフィルタリング後の総リード数は 11,691,441 個であった 以下に様々な条件で得られた総リード数を示す 条件 1-1( 許容するミスマッチ数 =1; N を含んでもよい ):11,619,415 個 Nie et al., BMC Genomics, 14: 661, 2013 条件 1-2( 許容するミスマッチ数 =1; N を全く含まない ):11,599,894 個 条件 2-1( 許容するミスマッチ数 =0; N を含んでもよい ):11,357,039 個 条件 2-2( 許容するミスマッチ数 =0; N を全く含まない ):11,338,479 個 自分でもいくつか試し 結果を簡単に考察せよ 原著論文も明確に条件を記述しているわけではないので細かな違いは気にしなくてよい 84

課題遂行時に何人か遭遇したエラーの解説 Mac だとメモリ云々の問題に関わらず gz ファイルのままでは読み込めないようです by 受講生 何人かの方が 作業ディレクトリの変更も正しく行い SRR609266.fastq.gzファイルもhogeフォルダ中に存在するにも関わらず 入力ファイル読み込み時にエラーに遭遇しました この理由は2つ考えられます 1つめは USBメモリにコピーする際に正しくコピーできていなかった可能性 そして2つめは USBメモリ中のSRR609266.fastq.gzファイル段階では正しいものであったが 各自のPCにコピーする際に正しくコピーできなかった可能性です 講義中に述べたMD5チェックサム (MD5 check sum) でファイルの同一性を確認するのは重要 ですね 85