講義内容 ファイル形式 データの可視化 データのクオリティチェック マッピング アセンブル 資料の見方 $ pwd 実際に入力するコマンドを黄色い四角の中に示します 2

Similar documents
PowerPoint プレゼンテーション

V1 ゲノム R e s e q 変異解析 Copyright Amelieff Corporation All Rights Reserved.

PowerPoint プレゼンテーション

PowerPoint プレゼンテーション

PowerPoint プレゼンテーション

GWB

PowerPoint プレゼンテーション

シーケンサー利用技術講習会 第10回 サンプルQC、RNAseqライブラリー作製/データ解析実習講習会

リード・ゲノム・アノテーションインポート

NGSデータ解析入門Webセミナー

GWB

2016_RNAseq解析_修正版

GWB

141025mishima

ChIP-seq

nagasaki_GMT2015_key09

1. はじめに 1. はじめに 1-1. KaPPA-Average とは KaPPA-Average は KaPPA-View( でマイクロアレイデータを解析する際に便利なデータ変換ソフトウェアです 一般のマイクロアレイでは 一つのプロー

IonTorrent RNA-Seq 解析概要 サーモフィッシャーサイエンティフィックライフテクノロジーズジャパンテクニカルサポート The world leader in serving science

PowerPoint Presentation

基本的な利用法

<4D F736F F F696E74202D D D E C815B836A F B83582E >

次世代シークエンサーを用いたがんクリニカルシークエンス解析

Maser - User Operation Manual

Microsoft PowerPoint - Ion Reporter?ソフトウェアを用いた変異解析4.6.pptx

Maeda140303

自己紹介 : プロフィール 石井一夫 ( 東京農工大学特任教授 ) 専門分野 : ゲノム科学 バイオインフォマティクス データマイニング 計算機統計学 経歴 : 徳島大学大学院医学研究科博士課程修了後 東京大学医科学研究所ヒトゲノム解析センターリサーチアソシエート 理化学研究所ゲノム科学総合研究セン

_unix_text_command.pptx

計算機概論

3.1. Velvet は velveth velvetg の 2 つのプログラムから 構 成 されており 設 定 画 面 でそれぞれのパラメーターを 設 定 可 能 です 3.2. Velvetg については より 詳 細 なパラメーターを 設 定 可 能 です 3.3. Multiplex 解

自己紹介 : プロフィール 石井一夫 ( 東京農工大学特任教授 ) 専門分野 : ゲノム科学 バイオインフォマティクス データマイニング 計算機統計学 経歴 : 徳島大学大学院医学研究科博士課程修了後 東京大学医科学研究所ヒトゲノム解析センターリサーチアソシエート 理化学研究所ゲノム科学総合研究セン


k_seminar_hands_on_for_linux_beginner.pptx

NGS速習コース

我々のビッグデータ処理の新しい産業応用 広告やゲーム レコメンだけではない 個別化医療 ( ライフサイエンス ): 精神神経系疾患 ( うつ病 総合失調症 ) の網羅的ゲノム診断法の開発 全人類のゲノム解析と個別化医療実現を目標 ゲノム育種 ( グリーンサイエンス ): ブルーベリー オオムギ イネ

スライド 1

Windows メール設定 - 迷惑メールの振り分け フォルダの作成 迷惑メールの振り分け方 振り分け先のフォルダを作成します 受信トレイで右クリックをし フォルダの作成 をクリックします 名前に任意の名前を入力し OK ボタンをクリックします 件名に挿入設定がある場合 件名に挿入設定がある場合 W

GenomeJack Browser Appendix

目次 ページ 1. 本マニュアルについて 3 2. 動作環境 4 3. ( 前準備 ) ライブラリの解凍と保存 5 4. モデルのインポート 6 5. インポートしたモデルのインピーダンス計算例 8 6. 補足 単シリーズ 単モデルのインポート お問い合わせ先 21 2

情報処理概論(第二日目)

Chromeleon 6 for Chromeleon 6.8 SR15 Build: --- 新しいシーケンスの作成に使用できるワークリストファイル (.wle) Doc. Nr: CM6_68150_0020 Doc. Ver.: Doc. Type: Guide

Easy Sep

RNA-seq

MiSeqのランのセットアップ時・開始時 に起こるトラブルの対処方法

GWB_RNA-Seq_

3rd-jikken-ngs

. 起動 目次 P.. ログイン 画面 P.. メニュー 画面 P.. POS 開示 _ 指定店舗 アイテム別 期間合計 画面 ( レポート A) P. 5. POS 開示 _ 店舗別 指定アイテム 期間合計 画面 ( レポート B) ----

AJACS18_ ppt

農学生命情報科学特論I

Microsoft PowerPoint - SNGS_Ana講習会5月29日.pptx

AmpliSeqDataAnalysis

A Constructive Approach to Gene Expression Dynamics

コンピュータグラフィックス基礎              No

Microsoft PowerPoint - Borland C++ Compilerの使用方法(v1.1).ppt [互換モード]

クイックマニュアル(利用者編)

2015 年 5 月 15 日イルミナサポートウェビナー Nextera Rapid Capture Exome キットを用いたエクソームシーケンス - ドライ編 BaseSpace で行うかんたん NGS データ解析 < Enrichment アプリ > イルミナ株式会社バイオインフォマティクスサ

PowerPoint Presentation

RNA-seq

Maser RNA-seq Genome Resequencing De novo Genome Sequencing Metagenome ChIP-seq CAGE BS-seq

2 Grac のデータを全学メールへ移行する環境 2.1 後楽園キャンパス 3 号館 4 階の実習室 A-E Grac のメールバックアップとデータの取得とデータの変換を行います データの取得を行う事で MUA( メールソフト ) へ取り込む事が可能になります データの移行は 全

分子系統解析における様々な問題について 田辺晶史

( )( ) ( )( ) ( )( ) ( )( ) ( )( ) ( )( ) ( )( ) ( )( ) ( )( ) ( )( ) ( )( ) ( )( ) ( )( ) ( )( ) ( )( ) ( )( ) ( )( ) ( )( ) ( )( ) ( )( ) ( )( )

PowerPoint プレゼンテーション - 物理学情報処理演習

<< 目次 >> 1 PDF コンバータのインストール ライセンスコードの入力 PDF にフォントを埋め込みたい場合の設定 PDF オートコンバータ EX で使用しない場合 PDF コンバータ単体で使用する場合の説明 PDF コンバータのアン

NGSハンズオン講習会

Qlucore_seminar_slide_180604

1. ログイン 1-1 管理画面へのログイン 施設の作成 編集 削除や承認 公開には その操作権限を持つアカウントでログイン します アカウントについての詳細は 管理者にお問い合わせください (1) [ ユーザー ID またはメールアドレス ] と [ パスワード ] を入力後 [ ログイン ] を

Partek 社の NGS データ解析ソリューションは次世代シーケンサーから出力されたファイルを読み込んで 参 照ゲノム配列へのアラインメント データの品質管理 統計解析 ゲノム統合解析 生物学的解釈 各種グラフ やゲノムビューアーでの表示など NGS のデータ解析をすべてサポートします ファイルの

PowerPoint Presentation

IMC_31.ja.indd


1 ログインとログアウト 1.1 ログイン ログイン画面で [ password ] 欄にパスワードを入力します (図 1) 図 1 ログイン画面 正しくログインができると Ubuntu のデスクトップ画面 図2 が表示されます 図2 Ubuntu デスクトップ画面 2

プレポスト【解説】

スライド 1

Microsoft Word - CBSNet-It連携ガイドver8.2.doc


情報処理概論(第二日目)

<4D F736F F D AA8E5291E58A778FEE95F B835E B CC91808DEC95FB9640>

Microsoft Word - ModelAnalys操作マニュアル_

工程’S 9 ヘルプ Excelバーチャート

大阪ガス株式会社 情報通信部 御中

農業・農村基盤図の大字小字コードXML作成 説明書

PDFオートコンバータEX

平成 30 年 5 月 国民健康保険中央会

1. MEGA 5 をインストールする 1.1 ダウンロード手順 MEGA のホームページ ( から MEGA 5 software をコンピュータにインストールする 2. 塩基配列を決定する 2.1 Alignment E

POWER EGG2.0 Ver2.8 スタートアップガイド ~Webデータベース 応用編~

IMC_31.ja.indd

練習 4 ディレクトリにあるファイルを直接指定する (cat) cat コマンドを使う (% cat ファイル名 ) と ファイルの内容を表示できた ファイル名のところにパス名を使い ディレクトリ名 / ファイル名 のように指定すると ディレクトリ内にあるファイルを直接指定できる 1 % cat _

Windows Server 2012 および Windows Server 2008 のインストール

Windows Powershell 入門

eYACHO 管理者ガイド

建築業務管理システム 補足マニュアル Internet Explorer11 設定ガイド (Windows10 用 )

Sequence Read Archive 2013 年年 10 月 25 日 第 10 回シーケンサー利利 用技術講習会 ( 理理研横浜 ) 1

はじめに 面的評価支援システム操作マニュアル ( 別冊 ) 国土地理院数値地図 25000( 空間データ基盤 ) 変換編 は 国土地理院の HP よりダウンロードした数値地図 25000( 空間データ基盤 ) の地図データを 面的評価支援システム 用に変換するツールの使用方法についてまとめたものです

目次 1. はじめに... 3 本システムご利用の前提について... 3 アカウント申請について... 3 本システムの機能について 基本の操作方法... 4 本システムにログイン / ログアウトする... 4 ファイルをダウンロードする 機能ごとの操作方法... 6

8. Windows の補足情報 コマンドの使用についての説明です Windows からのファイル直接印刷 Windows でコマンドを使用したファイル直接印刷の方法についての説明です この機能はネットワーク接続をしているときに使用できます この方法で印刷できるファイルは 本機が搭載しているエミュレ

スライド 1

目次 第 1 章はじめに 本ソフトの概要... 2 第 2 章インストール編 ソフトの動作環境を確認しましょう ソフトをコンピュータにセットアップしましょう 動作を確認しましょう コンピュータからアンインストー

MF mypresto インストールガイド 目次 新規インストールの手順 (Windows 版 )... 2 MF mypresto の起動 (Windows 版 )... 7 新規インストールの手順 (Mac 版 )... 8 MF mypresto の起動 (Mac 版 ) 新規イン

インテル(R) Visual Fortran コンパイラ 10.0

Microsoft Word - BJ-Trans_JW_SXFInstallguide.doc

Transcription:

N G S 解析基礎

講義内容 ファイル形式 データの可視化 データのクオリティチェック マッピング アセンブル 資料の見方 $ pwd 実際に入力するコマンドを黄色い四角の中に示します 2

ファイル形式 NGS 解析でよく使われるファイル形式 ファイル形式 fastq bam/sam vcf bed fasta サンプルデータの場所 /home/ ユーザ名 /Desktop/amelieff/1K_ERR038793_1.fastq /home/ ユーザ名 /Desktop/amelieff/1K_ERR038793.bam /home/ ユーザ名 /Desktop/amelieff/1K_ERR038793_sort.vcf /home/ ユーザ名 /Desktop/amelieff/1K_ERR038793.bed ( 講義中に作成 ) /home/ ユーザ名 /Desktop/amelieff/Scerevisiae/WholeGenomeFasta/genome.fa 3

フ ァ イ ル 形 式 f a s t q シーケンサから出力されるリード情報 $ less 1K_ERR038793_1.fastq 4行で1リード @ERR038793.1 HS19_6178:5:1208:12689:35298#1 length=100 GGACAAGGTTACTTCCTAGATGCTATATGTCCCTACGGCCTTGTCTAACACCATCC +ERR038793.1 HS19_6178:5:1208:12689:35298#1 length=100 D/DDBD@B>DFFEEEEEEEEF@FDEEEBEDBBDDD:AEEE<>CB?FCFF@F?FBFF : 1行め 2行め 3行め 4行め 必須の情報 @から始まる配列ID リードの塩基配列 + リードのクオリティ オプション 付加情報 配列ID または1行めと同じ情報 4

ファイル形式 f a s t q fastq のクオリティは 記号の ASCII コード -33 と対応する ( 例 ) クオリティ値 :% 37-33=4 ASCII コード表 5

フ ァ イ ル 形 式 b a m / s a m リードをゲノムにマッピングしたアライメント情報 sam: テキストデータ bam: 圧縮したsam コンピュータが扱いやすいバイナリデータ 相互変換には主にsamtoolsというソフトを用いる samからbam 入力がsam 出力がbam samtools view Sb sam > bam bamからsam ヘッダ付で出力 samtools view h bam > sam $ samtools view h 1K_ERR038793.bam > 1K_ERR038793.sam $ ls 6

フ ァ イ ル 形 式 b a m / s a m samファイルの中身 @から始まるヘッダ行と 1行に1リードの情報がタブ区切りで 記載されているデータ行からなる ヘッダ行 $ less 1K_ERR038793.sam @SQ @SQ @SQ SN:I SN:II SN:III LN:230218 LN:813184 LN:316620 7

フ ァ イ ル 形 式 b a m / s a m samファイルの中身 @から始まるヘッダ行と 1行に1リードの情報がタブ区切りで 記載されているデータ行からなる 1行で1リード $ less 1K_ERR038793.sam ERR038793.1 113 XII 1065143 4 12M4I84M I 150 0 AGGGTGTGGTGTGTGGGTATATCTATGTCACCTTATTGCATGCTGGATGGTGTTAG ACAAGGCCGTAGGGACATATAGCATCTAGGAAGTAACCTTGTCC CD;?C@FEFEFFFFFDC8=DA=?>>.EEE=BEEEBEE:EEE:?@FFBF?F@FFCF? BC><EEEA:DDDBBDEBEEEDF@FEEEEEEEEFFD>B@DBDD/D NM:i:6 MD:Z:0T93A1 AS:i:83 XS:i:80 RG:Z:ERR038793 XA:Z:V,570330,18S82M,1; 8

ファイル形式 b a m / s a m samファイルの中身 最初の11 列は必須である 列 項目 意味 例 1 QNAME リード名 ERR038793.1 2 FLAG フラグ 113 3 RNAME 染色体名 XII 4 POS リードのスタートポジション 1065143 5 MAPQ マッピングクオリティ 4 6 CIGAR CIGAR 12M4I84M : : : : 9

ファイル形式 b a m / s a m samファイルの中身 列 項目 意味 例 : : : : 7 RNEXT ペアリードがある染色体名 I 8 PNEXT ペアリードのスタート位置 150 9 TLEN ペア間の距離 + 各リード長 0 10 SEQ リード配列 AGGGTGTGGTGTGTGGGTATATCTATGTCACCTTAT TGCATGCTGGATGGTGTTAGACAAGGCCGTAGGGA CATATAGCATCTAGGAAGTAACCTTGTCC 11 QUAL リードクオリティ CD;?C@FEFEFFFFFDC8=DA=?>>.EEE=BEEEBEE :EEE:?@FFBF?F@FFCF?BC><EEEA:DDDBBDEBE EEDF@FEEEEEEEEFFD>B@DBDD/D : : : : 10

フ ァ イ ル 形 式 v c f 変異の情報 # で始まるヘッダ行と 1行に1つの変異の情報がタブ区切りで 記載されているデータ行から成る ヘッダ行 $ less 1K_ERR038793_sort.vcf ##fileformat=vcfv4.1 ##FORMAT=<ID=AD,Number=.,Type=Integer,Description="Allelic depths for the ref and alt alleles in the order listed"> : ##INFO=<ID=AC,Number=A,Type=Integer,Description="Allele count in genotypes, for each ALT allele, in the same order as listed"> : ##reference=file:///home/genome/genome.fa #CHROM POS ID REF ALT QUALFILTER INFOFORMAT ERR038793 : 11

フ ァ イ ル 形 式 v c f 変異の情報 # で始まるヘッダ行と 1行に1つの変異の情報がタブ区切りで 記載されているデータ行から成る $ less 1K_ERR038793_sort.vcf 1行で1変異 : : I 111. C T 105.93. AC=1;AF=0.50;AN=2;BaseQRankSum=0.729;DP=9;Dels=0.00;FS =0.000;HRun=1;HaplotypeScore=0.0000;MQ=59.16;MQ0=0;MQRankS um=-1.159;qd=11.77;readposranksum=-0.361;sb=-0.01 GT:AD:DP:GQ:PL 0/1:5,4:9:99:136,0,173 : : 12

ファイル形式 v c f 変異の情報 # で始まるヘッダ行と 1 行に 1 つの変異の情報がタブ区切りで記載されているデータ行から成る 列項目説明例 1 #CHROM 変異がある染色体名 I 2 POS 変異のポジション 111 3 ID rsid COSMIC ID など. 4 REF 該当ポジションにおけるリファレンスゲノムのアリル C 5 ALT 変異のアリル T : : : : 13

ファイル形式 v c f 変異の情報 列 項目 説明 例 : : : : 6 QUAL 変異のクオリティ 105.93 7 FILTER 変異検出ソフトが変異につける変異のクオリティ. 8 INFO 9 FORMAT : サンプル列 検出ソフトやアノテーションソフトが変異につける変異の情報やアノテーション 記述は自由 以降の列に記載されるサンプルごとの変異情報の書式説明 変異の情報 書式はFORMAT に従う AC=1;AF=0.50;AN=2;BaseQRankSu m=0.729;dp=9;dels=0.00;fs=0.00 0;HRun=1;HaplotypeScore=0.0000; MQ=59.16;MQ0=0;MQRankSum=- 1.159;QD=11.77;ReadPosRankSum =-0.361;SB=-0.01 GT:AD:DP:GQ:PL 0/1:5,4:9:99:136,0,173 14

フ ァ イ ル 形 式 b e d ゲノム上の領域の情報 エクソームシーケンスなどのターゲットシーケンスで解析範囲 を指定するために用いられるほか ChIP-seqで検出されたピー クを示すのに用いる 例としてbamファイルをbedファイルに変換した場合 $ bamtobed i 1K_ERR038793.bam > 1K_ERR038793.bed $ less 1K_ERR038793.bed XII 1065142 1065238 ERR038793.1/1 4 I 149 248 ERR038793.1/2 60 XIII 923961 924028 ERR038793.2/1 : - 40 + 15

ファイル形式 b e d ゲノム上の領域の情報 エクソームシーケンスなどのターゲットシーケンスで解析範囲を指定するために用いられるほか ChIP-seq で検出されたピークを示すのに用いる 列項目説明例 1 2 必須 chrom 染色体 XII chromstart 開始ポジション 最初の塩基は 0 1065142 3 chromend 終了ポジション 1065238 4 name 遺伝子名や任意の文字列 ERR038793.1/1 5 オプション score 0-1000までの数値 4 6 strand 順鎖なら+ 逆鎖なら- - : : : : 16

フ ァ イ ル 形 式 f a s t a NGS解析以外でもよく使われる 塩基配列やアミノ酸配列の情報 ここではリファレンスゲノム配列のfastaについて説明する 拡張子が統一されておらず.fa.fasta.fna.fasなどが使わ れていることがあるが 中身は同じ 1行めは > で始まるヘッダ 2行めから配列 $ less /home/ユーザ名/desktop/amelieff/scerevisiae/wholegenomefasta/genome.fa >I CCACACCACACCCACACACCCACACACCACACCACACACCACACCACACCCACACACACACATCCTAACA CTACCCTAACACAGCCCTAATCTAACCCTGGCCAACCTGTCTCTCAACTTACCCTCCATTACCCTGCCTC CACTCGTTACCCTGTCCCATTCAACCATACCACTCCGAACCACCATCCATCCCTCTACTTACTACCACTC 17

データの可視化 Integrative Genomics Viewer(IGV) 米 Broad Institute が開発したゲノムブラウザ GUI で直感的な操作が行える bam bed vcf などのファイル形式に対応 ( 可視化できる形式一覧は http://www.broadinstitute.org/software/igv/fileformats) Windows MacOS Linux のいずれの OS でも動作する クローズドな環境で使用でき セキュリティ上安全 18

データの可視化 IGV の起動 $ igv.sh 19

データの可視化 インデックスの作成 サイズの大きなデータを高速に扱うため サイズの大きなファイルにはインデックス ( 目次 ) ファイルが必要なことが多い bam ファイル $ ls 1K_ERR038793.bam $ samtools sort 1K_ERR038793.bam 1K_ERR038793_sort $ ls 1K_ERR038793.bam $ samtools index 1K_ERR038793_sort.bam $ ls インデックス作成前にソートが必要 1K_ERR038793_sort.bam 1K_ERR038793.bam 1K_ERR038793_sort.bam 1K_ERR038793_sort.bam.bai 20

データの可視化 インデックスの作成 サイズの大きなデータを高速に扱うため サイズの大きなファイルにはインデックス ( 目次 ) ファイルが必要なことが多い vcf bed ファイル igvtools を起動する 1 2 3 1 Command を index 2 Input File を選択 3 Run ( 実行完了のメッセージなどは出ません ) 21

データの可視化 1. リファレンスゲノムを選択する 2. 可視化したいファイルを選択する File > Load from File からファイルを選択する 3. 詳細に見たい領域を選択する 1 3 22

データのクオリティチェック FastQC : fastqまたはbamのクオリティを確認するソフトウェア fastqファイル1つに対して実行する $ ls 1K_ERR038793_1.fastq $ fastqc f fastq 1K_ERR038793_1.fastq Started analysis of 1K_ERR038793_1.fastq Approx 5% complete for 1K_ERR038793_1.fastq Approx 10% complete for 1K_ERR038793_1.fastq : : Approx 100% complete for 1K_ERR038793_1.fastq Analysis complete for 1K_ERR038793_1.fastq 23

データのクオリティチェック FastQC クオリティチェックのレポートがあるディレクトリと ディレクトリの圧縮ファイルが生成される $ ls 1K_ERR038793_1.fastq 1K_ERR038793_1_fastqc.zip 1K_ERR038793_1_fastqc 解析レポート $ cd 1K_ERR038793_1_fastqc $ ls Icons fastqc_data.txt summary.txt Images fastqc_report.html 24

デ ー タ の ク オ リ テ ィ チ ェ ッ ク FastQC $ firefox fastqc_report.html fastqc_report.htmlを ウェブブラウザで開く 問題なし 注意 (warning) 問題あり (failure) 25

データのクオリティチェック FastQC Basic Statistics ファイルの基本的な情報 ファイルタイプや リード数 リード長などの情報が表示される ここでは warning, failure は出ない 26

データのクオリティチェック FastQC Per Base Sequence Quality 横軸はリード長 縦軸は quality value を表す リードの位置における全体のクオリティの中央値や平均を確認できる 赤線は中央値 青線は平均値 黄色のボックスは 25% 75% の領域を表す 上下に伸びた黒いバーが 10% 90% の領域を意味する Per Sequence Quality Scores 縦軸がリード数 横軸が Phred quality score の平均値 27

デ ー タ の ク オ リ テ ィ チ ェ ッ ク FastQC Per Base Sequence Content リードにおける位置での各塩基の割 合を示す いずれかの位置で AとTの割合の差 もしくはGとCの割合の差が10%以上 だとwarning,20%以上でfailureとな る Per Base GC Content リードにおける位置でのGC含量を表 す いずれかの位置で 全体でのGC含量 の平均値より5%以上の差が開くと warning, 10%でfailureとなる 28

データのクオリティチェック FastQC Per Sequence GC Content 各リードにおける GC 含量の平均の分布 ( 赤線 ) と 理論分布 ( 青線 ) 理論分布との偏差の合計が 総リードの 15% 以上で warning, 30% 以上で failure となる Per Base N Content N はシーケンサーの問題で ATGC いずれの塩基にも決定出来なかった場合に記述される リードのいずれかの位置で 5% 以上 N が存在すると warning, 20% 以上で failure となる 29

データのクオリティチェック Sequence Length Distribution リード長の全体の分布 全てのリードの長さが同じであることを前提としており 一定でなければ warning ゼロのものが含まれていると failure になる Sequence Duplication Levels リードの重複レベルを見ている 1 10 はそれぞれ重複のレベルで 全体の 20% 以上がユニークでないものだと warning, 50% 以上がユニークでないと failure となる 30

デ ー タ の ク オ リ テ ィ チ ェ ッ ク Overrepresented Sequences 重複している配列とその割合を表す 特定の配列が全リードの0.1%を超えると warning 1%を超えるとfailureとなる K-mer Content 5 bpの任意の配列(5mer)を考えた時 ライブ ラリに含まれるATGCの割合を元に 実際に観 測された値/理論的に観測される期待値 を計 算している それぞれの任意の配列について 実測が期待 値を大きく上回っている時 それはライブラ リに配列的な偏りがあると解釈される 実測値/期待値 は リード長全体における 計算と リードのある位置での計算を行い 全体における値が3倍 リードのある位置にお ける値が5倍になるとwarning リードのある 位置における値が10倍になるとfailureとなる 31

デ ー タ の ク オ リ テ ィ チ ェ ッ ク テキストデータによるレポートも 出力される $ less fastqc_data.txt >>Per base sequence content fail #Base G A T 1 17.4 35.8 2 17.9 35.9 3 14.4 35.1 4 16.03206 33.16633 5 17.8 33.3 6 17.7 35.5 7 16.9 33.3 8 15.1 32.6 9 15.8 32.5 C 28.9 32.8 34.5 35.97194 32 28.8 33.3 34.9 33 17.9 13.4 16 14.82966 16.9 18 16.5 17.4 18.7 32

マッピング シーケンサから得られたリード (DNA 配列 ) を リファレンスゲノムや転写産物上の類似した配列に対して並べること BLAST のような従来のマッピングソフトは正確だが時間がかかり NGS 解析に向かないため NGS 解析用の高速なマッピングソフトが使われる ショートリード リファレンスゲノム 33

マッピング 各解析で使われるマッピングソフトの特徴と主なマッピングソフト Reseq: データの大きなゲノムファイルに対して数カ所のミスマッチを許容して高速にマッピングする BWA や Bowtie など RNA-seq: スプライシングにより生じるギャップを考慮してマッピングする TopHat など Methyl-seq: メチル化を考慮してマッピングする BSMAP など 34

アセンブリング ゲノムde novoアセンブリングで主に使われるソフト Velvet SOAPdenovo AbySS トランスクリプトームde novoアセンブリングで主に使われるソフト Oases SOAPdenovo-Trans Trans-ABySS Trinity 35