RNA-seq

Similar documents
リード・ゲノム・アノテーションインポート

RNA-seq

NGSデータ解析入門Webセミナー

CLC Genomics Workbench ウェブトレーニングセミナー: 変異解析編

ChIP-seq

PowerPoint Presentation

GWB_RNA-Seq_

GWB

GWB

GWB

PowerPoint Presentation

CLC Genomics Workbench ウェブトレーニングセミナー: 変異解析編

シーケンサー利用技術講習会 第10回 サンプルQC、RNAseqライブラリー作製/データ解析実習講習会

使いこなそう!CLC Genomics Workbench パート1 QCからトリミング

PowerPoint Presentation

IonTorrent RNA-Seq 解析概要 サーモフィッシャーサイエンティフィックライフテクノロジーズジャパンテクニカルサポート The world leader in serving science

PowerPoint プレゼンテーション

ThermoFisher

Agilent 1色法 2条件比較 繰り返し実験なし

次世代シークエンサーを用いたがんクリニカルシークエンス解析

PowerPoint プレゼンテーション

機能ゲノム学(第6回)

機能ゲノム学(第6回)

1. MEGA 5 をインストールする 1.1 ダウンロード手順 MEGA のホームページ ( から MEGA 5 software をコンピュータにインストールする 2. 塩基配列を決定する 2.1 Alignment E

Microsoft Word - 1 color Normalization Document _Agilent version_ .doc

PrimerArray® Analysis Tool Ver.2.2

Qlucore_seminar_slide_180604

Microsoft PowerPoint - Ion Reporter?ソフトウェアを用いた変異解析4.6.pptx

PowerPoint プレゼンテーション

Slide 1

Agilent Microarray Total Solution 5 5 RNA-Seq 60 mer DNA in situ DNA 5 2 QC 4200 TapeStation 2100 / mirna CGHCGH+SNP ChIP-on-chip 2 mirna QC

Slide 1

PowerPoint Presentation

PowerPoint プレゼンテーション

2015 年 5 月 15 日イルミナサポートウェビナー Nextera Rapid Capture Exome キットを用いたエクソームシーケンス - ドライ編 BaseSpace で行うかんたん NGS データ解析 < Enrichment アプリ > イルミナ株式会社バイオインフォマティクスサ

141025mishima

AJACS18_ ppt

ANOVA

Microsoft Word - SSI_Smart-Trading_QA_ja_ doc

第 10 回シーケンス講習会 RNA-seq library 調製法の特徴と選び方 理化学研究所 (RIKEN) ライフサイエンス技術基盤研究センター (CLST) 機能性ゲノム解析部門 (DGT) ゲノムネットワーク解析支援施設 (GeNAS) 野間将平

Maser - User Operation Manual

2. 設定画面から 下記の項目について入力を行って下さい Report Type - 閲覧したい利用統計の種類を選択 Database Usage Report: ご契約データベース毎の利用統計 Interface Usage Report: 使用しているインターフェイス * 毎の利用統計 * 専用

ACD/1D NMR Processor:基本トレーニング

NGS_KAPA RNA HyperPrep Kit

Microsoft PowerPoint _Spotfire Installation from Scistore.pptx

Partek Flow リリースノート バージョン : Partek Flow バージョン は高速化と使い勝手の改善のための新機能やパフォーマンス向上を含んでいます このバージョンへアップグレードするためには Partek Flow インストールガイド

任意の間隔での FTP 画像送信イベントの設定方法 はじめに 本ドキュメントでは AXIS ネットワークカメラ / ビデオエンコーダにおいて任意の間隔で画像を FTP サー バーへ送信するイベントの設定手順を説明します 設定手順手順 1:AXIS ネットワークカメラ / ビデオエンコーダの設定ページ

Microsoft PowerPoint ppt

目次 ページ 1. 本マニュアルについて 3 2. 動作環境 4 3. ( 前準備 ) ライブラリの解凍と保存 5 4. モデルのインポート 6 5. インポートしたモデルのインピーダンス計算例 8 6. 補足 単シリーズ 単モデルのインポート お問い合わせ先 21 2

Slide 1

講義内容 ファイル形式 データの可視化 データのクオリティチェック マッピング アセンブル 資料の見方 $ pwd 実際に入力するコマンドを黄色い四角の中に示します 2

動作環境 対応 LAN DISK ( 設定復元に対応 ) HDL-H シリーズ HDL-X シリーズ HDL-AA シリーズ HDL-XV シリーズ (HDL-XVLP シリーズを含む ) HDL-XV/2D シリーズ HDL-XR シリーズ HDL-XR/2D シリーズ HDL-XR2U シリーズ

Infinium BeadChip COGS BeadChip 4 * iselect 3 SNP 25 1 SNP NGS Sequencing by Synthesis SBS HiSeq MiSeq WGS 1 RNA-Seq ChIP-Seq 1 1 * icogs BCAC OCAC PR

アノテーション・フィルタリング用パイプラインとクリニカルレポートの作成

データ科学2.pptx

MAC の Horizon Auton インストール方法 Page 1 of 25

カルテダウンロード 操作マニュアル

サンプルシート作成ツール: Illumina Experimental Manager(IEM)の使用方法 -最新バージョンIEMv1.15のご紹介-

Consuming a simple Web Service

Microsoft Word - バーチャルクラス(Blackboard)ログイン方法ガイド.docx

PowerPoint プレゼンテーション

Presentation Arial Narrow 28 pt

Microsoft Word - CBSNet-It連携ガイドver8.2.doc

ZVH_VIEWER

バクテリアゲノム解析

Microsoft PowerPoint _webinar_RNAExpress.erikibukawa_配布用.pptx

Microsoft PowerPoint - 社外資料_TruSeq Synthetic Long-Read DNA Library Prep.pptx

自宅でJava言語の開発環境を作る方法

PowerPoint Presentation

Maple 12 Windows版シングルユーザ/ネットワークライセンス

CAEシミュレーションツールを用いた統計の基礎教育 | (株)日科技研

JMP による 2 群間の比較 SAS Institute Japan 株式会社 JMP ジャパン事業部 2008 年 3 月 JMP で t 検定や Wilcoxon 検定はどのメニューで実行できるのか または検定を行う際の前提条件の評価 ( 正規性 等分散性 ) はどのメニューで実行できるのかと

R80.10_FireWall_Config_Guide_Rev1

PowerPoint プレゼンテーション

NMR ソフトウェア Deltaにおける定量NMR解析

NGSハンズオン講習会

1. Microsoft Loopback Adapter のインストール 1) ノートパソコンにおいて そのパソコンの管理者アカウントによりログオンします 2) [ スタート ] > コントロールパネルを開きます 3) 表示方法 : カテゴリの場合には ハードウェアとサウンド > デバイスマネージ

特論I

機能ゲノム学(第6回)

エンドポイント濁度測定装置 LT-16 取扱説明書

thermofisher.com mirVana miRNA mimics/inhibitors 検索マニュアル

IRsolution インストール手順書 修正箇所

特論I

1. 報告依頼業務 報告書集計システムを利用して 本部の報告依頼者が 売上実績見通しを各支社から収集し 報告書を作成します 依頼側の業務 1

1. はじめに 本書は スプリット演算器 MFS2 用コンフィギュレータソフトウェア の取扱方法 操作手順 注意事項などを説明したものです Windows の操作や用語を理解している方を前提にしています Windows の操作や用語については それぞれのマニュアルを参照してください 1.1. MFS

Transcription:

CLC Genomics Workbench ハンズオントレーニング RNA-seq 株式会社 CLCバイオジャパンシニアフィールドバイオインフォマティクスサイエンティスト宮本真理 Ph.D. mmiyamoto@clcbio.co.jp 1

support@clcbio.co.jp 2

アジェンダ Genomics Workbench 概要 今日のデータ RNA-seq 解析 データインポート QC RNA-seq 発現差解析 3

CLC Genomics Workbench 概要 4

CLC Genomics Workbench 5

CLC Genomics Workbench 6

解析ワークフロー 新規生物種変異解析 ChIP-seq RNA-seq small RNA インポート インポート インポート インポート インポート Quality check Quality check Quality check Quality check タグの抽出 De Novo アッセンブリ マッピング マッピング RNA-seq mirbase ダウンロード BLAST 検索 変異検出 ピーク検出 RPKM 計算 アノテーション付け フィルタリング ピーク精査 群間比較 既知の mirna とそれ以外の分類 7

今日のデータ.zip のまま Genomics Workbench へインポート インポートすると変異検出と RNAseq のデータ 8

デモデータインポート Import から Standard Import を選択 TrainingDemoData_ExomeRNA-seq.zip を選択 TrainingDemoData フォルダが作成 9

CLC Genomics Workbench 名称と注意事項 10

Location と Folder ロケーション フォルダ Genomics Workbench ではデータを以下のような階層構造で保存可能です フォルダの一番上位の階層を Location と呼び その下の階層を Folder と呼びます データの保存場所はロケーション毎に設定可能です たとえばあるデータは C ドライブに保存し あるデータは D ドライブに保存するといった事が可能です ロケーション フォルダの作成は以下のアイコンから作成できます フォルダの作成 ロケーションの作成 11

トラックとスタンドアロンフォーマット Genomics Workbench はビューアにスタンドアロンフォーマットとトラックフォーマットがあります スタンドアロンフォーマットでは 1 つのデータに配列情報 アノテーションがセットになっています 12

トラックとスタンドアロンフォーマット トラックフォーマットでは リードやゲノム配列 アノテーションがばらばらのファイルになっており 好きに組み合わせて表示が可能です 13

トラックとスタンドアロンフォーマット 複数のトラックを組み合わせることで好きなビューを作成できます 14

トラックとスタンドアロンフォーマット スタンドアロンフォーマット 染色体のセットやリード配列など配列のセット 染色体 1 本など1つの配列 リードマッピング トラックフォーマット 青いヒストグラムが目印 ゲノム Track アノテーション Track 変異 Track リード ( マッピング )Track 解析によって必要とするフォーマットが異なります スタンドアロン トラックの変換は自由に行えます 15

解析によって必要なフォーマット 以下に主な解析ツールで必要となるフォーマットをまとめています 解析の際にデータが選べないという場合 必要とするフォーマットに変換されていない場合がありますので こちらをご参照ください 解析方法マッピングターゲット領域のカバレッジ計算変異検出 RNA-seq ChIP-seq 必要となるフォーマット 参照配列はスタンドアロンフォーマット トラックフォーマットのいずれも可 ただしある領域をマスクしたり ある領域にのみマッピングさせるような場合 その領域を指定するファイルはトラックフォーマットの必要がある ターゲット領域はトラックフォーマットの必要がある 変異検出に使うマッピングファイルは スタンドアロンフォーマット トラックフォーマットいずれも可 参照配列はスタンドアロンフォーマットが必要 またアノテーションとして Gene と mrna を含んでいることが必要 トラックから変換する際には 参照配列と 対応する Gene, mrna のアノテーションを選択し トラックへ変換する必要がある インプットとなるマッピングファイルはスタンドアロンフォーマットの必要がある 16

フォーマットの変換 トラックフォーマットからスタンドアロンフォーマット またスタンドアロンフォーマットからトラックフォーマットへは Genomics Workbench の Toolbox > Track tools の中のツールを使って変換可能です スタンドアロンフォーマットからトラックへの変換 トラックからスタンドアロンフォーマットへの変換 スタンドアロンフォーマットへ変換する場合 スタンドアロン内に含めるアノテーショントラックを含めて変換するようにしてください 17

フォーマットの変換 スタンドアロンフォーマットへ変換する場合 スタンドアロン内に含めるアノテーショントラックを含めて変換するようにしてください スタンドアロンフォーマットでは Setting Panel の Annotation Type からどういったアノテーションが付属しているか確認できます 18

RNA-seq 解析 19

変異検出の流れ リードファイルインポート ゲノム アノテーションダウンロード リードの QC RNA-seq Log 変換 ノーマライズ t 検定 20

変異検出の流れ リードファイルインポート ゲノム アノテーションダウンロード Exome Illumina のデータで実習 リードの QC RNA-seq Log 変換 ノーマライズ RNA-seq のデータで実習 t 検定 21

リード ゲノム アノテーションインポート 22

データインポート 様々なフォーマットのインポーター アノテーションファイルや BED フォーマットのファイルなど Sanger, NGS データインポーター 外部マッピングデータインポーター Standard Import は サンガーシーケンサー 次世代シーケンサー以外のファイルのインポートに利用します 23

リードデータインポート Import からインポートしたいリードのシーケンサータイプを選択 24

リードデータインポート Illumina データのインポート General options Paired reads: ペアかどうか Discard reads names: リードについている名前を捨てるかどうか デフォルトでは捨てるとなっていますが マッピング後 SAM にて Export した際など リード名で確認したい場合があるため 最初は保存しておきましょう Discard quality scores:quality Score が必要ない場合はこのオプションにチェック 通常 インポート後にクオリティスコアが必要な事が多いです Paired read orientation: ペアの距離と向きを指定 Illumina options Remove failed reads: シーケンサーで fail とマークされたリードを除去するかどうか Miseq de-multiplexing:multiplexing されたデータを Demultiplexing するかどうか Quality Score: 使用する Quality Score のバージョンの選択 25

リードデータインポート Result handling データを開くか 保存の選択 Into separate folders では 別々のフォルダへ保存するかどうかを選択できます バッチ処理を行う際に便利です 保存先の指定 26

ゲノム アノテーションインポート ゲノムはダウンロードアイコンより 生物種を指定してアノテーションと共にインポートすることが可能です ゲノム配列とともに アノテーションファイルをダウンロードすることも可能です すでに Genomics Workbench へ取り込んでいるゲノム配列について アノテーションを付加することも可能です 27

ゲノム アノテーションインポート Download genome sequence: 新規にゲノムをダウンロードする場合 Use exsting genome sequence track: すでにダウンロードしたゲノムにアノテーションを追加する場合 以下のようにトラックのフォーマットになっているゲノムを選択 ドロップダウンリストから生物種を選択 28

ゲノム アノテーションインポート 希望するアノテーションにチェックを入れる ゲノム配列をダウンロードするときは Sequences にもチェックを入れる 選択した生物種により 表示されるアノテーションの種類は異なります 29

アノテーションインポート Download Genome 以外にも アノテーションファイルをインポート可能です アノテーションとして取り込めるファイルは以下のフォーマットです アノテーションファイルをインポートする際には 対象となるゲノム配列がすでにインポートされ Track のフォーマットになっていることが前提です VCF GFF/GTF/GVF BED Wiggle Complete Genomics Var file UCSC Variation table damp COSMIC variation database 30

アノテーションインポート Type of files to import を選択 インポートするファイルを選択 Reference Track を選択 31

クオリティチェック 32

クオリティチェック流れ Quality Report 作成 : Create Sequencing QC Report インポートしたリードのクオリティがどのぐらいか その後のトリミングや PCR Duplicate の状況などを確認するためにレポートを作成 PCR Duplicate の除去 : Remove Duplicate Reads フラグメント作成の過程で PCR が異常にかかってしまったものを補正 トリミング : Trim Sequences アダプターの除去 クオリティスコアによる除去 長さを指定した除去などを選択 組み合わせてトリミング 上記処理の後に再度 Quality Report を作成すると処理前と処理後でのリードのクオリティを比較でき 便利です PCR Duplicate の除去は本日は行いませんが 行い方は Web の日本語マニュアルを参照してください 33

Create Sequencing QC Report Navigation Area から使用するリードデータを選択 Toolbox から NGS Core Tools > Create Sequencing QC Report を選択 ダブルクリック ウィザードが起動し 選択したデータが選ばれていることを確認 34

Create Sequencing QC Report Quality analysis: クオリティスコアに関する解析 Over-representations analysis: 過度に現れているような塩基配列などの解析 Create graphical report: グラフィカルなレポート作成 Create supplementary report: 数値のレポート作成 Create duplicated sequence list: 重複のあった配列のリスト作成 35

QC レポート結果 36

クオリティチェック アダプター除去 あらかじめ登録されているアダプターの除去 新規で独自の配列を登録することも可能 クオリティトリミング Quality Score を使い Quality の低い配列が連続するようになる箇所からカット 正確に読めていない塩基をいくつ許容するか 長さによる除去 塩基数を指定して 5 末端 3 末端をカット Quality Score でカット後 短くなりすぎた配列をカット 37

クオリティトリミング原理 Trimming では Quality Score を使い 累積の Quality Score がある一定の値より大きいものが続いた場合に その箇所を取り除く という処理を行います 具体的には以下 : 1. Phred Score を p 値へ変換 2. Trimming 中に設定するパラメータ (Limit) と p 値の差を計算 3. 差の累積和を計算 このとき 0 以下の値は 0 とする 4. Trimming 後のリード開始点は累積和がはじめて 0 以上になった点 Trimming 後のリード終了点は累積和が最大の点 38

クオリティトリミング原理 リード配列 G C C C A T G T T C G A T G C Phred score 4 8 15 30 32 23 10 31 31 20 15 11 10 10 9 p 値 0.40 0.16 0.03 0.00 0.00 0.01 0.10 0.00 0.00 0.01 0.03 0.08 0.10 0.10 0.13 Limit - p 値 (D) -0.35-0.11 0.02 0.05 0.05 0.04-0.05 0.05 0.05 0.04 0.02-0.03-0.05-0.05-0.08 (D) の累積和 0.00 0.00 0.02 0.07 0.12 0.16 0.11 0.16 0.21 0.25 0.27 0.24 0.19 0.14 0.06 スタート点 : 累積和が 0 より大きくなった塩基 終了点 : 累積和が最大を示す塩基 Phred score の棒グラフ 40 20 0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 グラフより ある程度クオリティが高くなった場所からリードを使い クオリティが連続して悪くなっている箇所からリードをトリムしていることがわかる 途中 1 塩基のみクオリティが低いような場合は 必ずしもトリムされない これはできるだけリードを長く保とうとするため 39

トリミング Navigation Area から使用するリードデータを選択 Toolbox から NGS Core Tools > Trim Sequences を選択 ダブルクリック ウィザードが起動し 選択したデータが選ばれていることを確認 40

トリミング Trim using quality scores : トリミングに使用する Limit パラメータを決定 Trim ambiguous nucleotides:n 表示される塩基について 最大何塩基まで保持させるか アダプタートリミング 41

トリミング Create list of discarded sequences : トリミングで除去されたリードをリストとして作成する場合 Create report: トリミングレポートの作成 Trim bases: リード配列の 5 末 3 末から指定数の塩基を除去 Filter on length: リード配列の 5 末 3 末から指定数の塩基を除去 Save discarded sequences: トリミングにより除去された配列の保存 Save broken pairs: ペアのリードでトリミングによりペアでなくなったリードを保存 Create report: レポートの作成 42

トリミング結果 トリミング結果のデータはファイル名の後に trimmed という名前が付いています ファイル内容はインポート後のデータ同様に 配列と クオリティスコアを含んだファイルとなっています トリミング後は トリムされたリードと レポートを作成した場合は そのレポートが作成されます 43

QC レポート再作成! トリミングされたリードを使って QC レポートを再度作って トリミング前と後を比較してみましょう 44

RNA-seq 45

RNA-seq 解析フロー RNA-seq インポート クオリティチェック RNA-seq, RPKM Log2 変換 ノーマライズ t-test 46

RPKM RPKM: Reads Per Killobases per Million 長さが異なるトランスクリプト 実験で使われたリードの総数による違いについて正規化するための方法 RPKM C LN C: マップされたリードの総数 N: リードの総数 (Million) L: トランスクリプトの長さ (kbase) 47

RPKM 例 : Sample A Total reads: 6M Gene 1: 300bp 10 reads Gene 2: 400bp 13 reads Gene 3: 500bp 15 reads RPKM=10/(0.3*10) =3.33 RPKM=13/(0.4*10) =3.25 RPKM=15/(0.5*10) =3.0 Sample B Total reads: 4M Gene 1: 300bp 6 reads Gene 2: 400bp 10 reads Gene 3: 500bp 13 reads RPKM=6/(0.3*10) =2.0 RPKM=10/(0.4*10) =2.5 RPKM=13/(0.5*10) =2.6 48

RNA-seq Navigation Area から使用するリードデータを選択 Toolbox から Transcript Analysis > RNA-seq Analysis > RNA- Seq Analysis を選択 ダブルクリック ウィザードが起動し 選択したデータが選ばれていることを確認 49

RNA-seq アノテーション付のデータ アノテーション無しのリファレンス いずれかを選択 インポートしているゲノムのデータを選択 50

RNA-seq Maximum number of mismatches: (Short read パラメータ ) リード中に最大何個までのミスマッチを許容するか Minimum length fraction: (Long read パラメータ ) マッチする際に考慮するリードの長さの割合 Minimum similarity fraction: (Long read パラメータ ) Minimum length fraction で指定した長さのうち 一致するべき割合 Maximum number of hits for a read:1 つのリードがマッチする最大の数 この数以上の箇所にマップされたリードは マップされません Use color space: カラースペースを使用する場合 Strand specific alignment: センス鎖特異的にマップさせたい場合のオプション Minimum distance: ペアの最小距離 Maximum distance: ペアの最大距離 Use include broken pairs counting scheme: 指定した距離に納まらなかったリードもカウントしたい場合 51

RNA-seq Exon discovery: 新規エクソンの探索を行いたい場合 Required relative expression level: 新規エクソンとする場合に その遺伝子の発現量のうち どのぐらいの割合を持っている必要があるか Minimum number of reads: 新規エクソンとする場合に最低限必要なリード数 Minimum length: 新規エクソンとする場合の最小の長さ 52

RNA-seq Create list of un-mapped sequences: マップされなかったリードをリストとして回収するオプション Create report: レポート作成 Create fusion gene table: Fusion gene の候補をリストで作成するかどうか Minimum read count:(pair-end オプション ) 作成する場合 Fusion とするための最小リードカウント Expression value: デフォルトは RPKM このほか Total Exon なども選択可 後で変更も可能 53

RNA-seq 54

RNA-seq Exon-Exon 間は点線で表示 緑はセンス鎖 赤はアンチセンス鎖にマップされていることを示している 55

Expression Analysis 56

発現解析 RNA-seq の結果を使から Brain と Liver において有意に発現している遺伝子は何か といったことを調べます 群間の比較を行う場合 RPKM の値をそのまま使う方法と 遺伝子に張り付いたリードの数をそのまま使う方法の 2 種類があります 群 群内のレプリケート Gaussian Test T-test 2 群 必須 ANOVA 3 群以上 必須 Proportinal Test Kal s test 2 群 不要 Baggerley s test 2 群 必須 57

Expression Analysis RNA-seq のデータは Microarray のように発現差の解析を行うことが可能です そのためには まず RNA-seq のデータを Experiment という形へ変更し その後 発現解析ツールを使って解析を行います 58

Expression Analysis Navigation Area から使用する RNA-seq データを選択 Toolbox から Set Up Experiment を選択 ダブルクリック ウィザードが起動し 選択したデータが選ばれていることを確認 59

Expression Analysis Two-group comparison: 2 群比較 Unpaired/Paired:2 つの群のサンプルに対応があるかどうか ( 同じ固体で違う条件など ) Multi-group comparison: 多群比較 Use existing expression values from samples: RNA-seq で指定した発現量をそのままつかう場合 Set new expression value: 別の発現量を使う場合 Experiment を作成する際は ひとまず何かの検定を行うことになります 60

Expression Analysis グループにつける名前を入力 RNA-seq のデータをグループに割り当てる 61

Expression Analysis 62

Expression Analysis: Log 変換 Navigation Area から使用する Experiment データを選択 Toolbox から Transform を選択 ダブルクリック ウィザードが起動し 選択したデータが選ばれていることを確認 63

Expression Analysis: Log 変換 Value to analyze: 解析に使用したい値 Original expression values Transformed expression values Normalized expression values Transformation method Log2, Log10, Log e 任意の数値を使った変換 平方根 64

Expression Analysis: Log 変換 変換された値が表に追加される 65

Expression Analysis: Box Plot Log 変換後の結果を Box plot で確認 Navigation Area から使用する Experiment データを選択 Toolbox から Transcriptomics Analysis > Quality Control > Create Box Plot を選択 ダブルクリック ウィザードが起動し 選択したデータが選ばれていることを確認 66

Expression Analysis: Box Plot Log 変換後の結果を Box plot で確認 Value to analyze: 解析に使用したい値を選択 もとの発現値 変換後の発現値 ノーマライズ後の発現値 67

Expression Analysis: Box Plot 68

Expression Analysis: ノーマライゼーション Navigation Area から使用する Experiment データを選択 Toolbox から Transform を選択 ダブルクリック ウィザードが起動し 選択したデータが選ばれていることを確認 69

Expression Analysis: ノーマライゼーション Choose normalization method Scaling: ある固定の値でノーマライズ この選択肢を選ぶと ノーマライズする値について次のウィンドウで選択する Quantile: グループ間で分布が同じ形から来ていると仮定し ノーマライズする By total: 発現値をカウントの値としたときに使用する Value to analyze: 解析に使用したい値を選択 もとの発現値 変換後の発現値 ノーマライズ後の発現値 70

Expression Analysis: ノーマライゼーション Scaling を選んだ場合の次の画面 Choose normalization value: ノーマライズ後にそろえる値を平均値か中央値を選択 Choose reference: ノーマライズに使用する値 トリミング後の値を使用するが トリミング後の値の平均値をつかうか中央値を使うか決める Trimming: トリムする % を入力 71

Expression Analysis: ノーマライゼーション 72

Expression Analysis: t-test Navigation Area から使用する Experiment データを選択 Toolbox から On Gaussian Data を選択 ダブルクリック ウィザードが起動し 選択したデータが選ばれていることを確認 73

Expression Analysis: t-test t 検定 分散 均一な場合 不均一 全てのペアで比較するか 任意のグループに対して比較するか Value to analyze もとの発現値 変換後の発現値 ノーマライズ後の発現値 p 値の補正 ボンフェローニ FDR 74

Expression Analysis: t-test 75

その他の機能について その他の機能については 弊社ホームページから日本語資料をダウンロードいただけます http://www.clcbio.co.jp/index.php?id=223 76

ご清聴ありがとうございました 77

APPENDIX 78

P 値の補正 検定を多く繰り返す ( たくさんの遺伝子を一度に検定する ) と多くのエラーを含んだリストを返す結果となります たとえば p < 0.05 以下の遺伝子のリストをえたい場合 3 つの遺伝子をそれぞれケースとコントロールで検定した結果のリストは 1-(1-0.05)^3 = 0.14 となり 実際に得られるリストは p 値が 0.05 以下のリストではなく 0.14 以下のリストとなります ボンフェローにではこれを抑えるため 設定する p 値を検定する数 ( 発現解析では遺伝子の数 上記の例では 3) で割り 小さな p 値の閾値でリストを取得します 79

P-value correction FDR Say p 1 < p 2 < p 3 < < p i < < p m and α is threshold. i = m If p i < α i m 1 を満たすならば k = i (1) 式が満たされない場合 i = m 1 として (1) を再度計算 p 1,, p k に対応する仮説を棄却する 80

カウントデータの検定 Kal s test 2 つのグループのカウントデータを比較し その差が統計的に有意かどうかを検定する手法 A の分散 B の分散 Kal, A. J. et al. Dynamics of Gene Expression Revealed by Comparison of Serial Analysis of Gene Expression Different Carbon Sources. 10, 1859 1872 (1999). Baggerly, K. a., Deng, L., Morris, J. S. & Aldaz, C. M. Differential expression in SAGE: accounting for normal between-library variation. Bioinformatics 19, 1477 1483 (2003). 81

カウントデータの検定 Baggerley s test Kal s test はレプリケートを必要としませんが レプリケートがあった場合でも レプリケート内のばらつきを考慮できません これに対応するため Baggerley のテストでは レプリケート内のばらつきを考慮するために提案された手法です 統計量の算出方法は Kal s テストと似ていますが 分散の推定が複雑になっています 82