機能ゲノム学(第6回)

Similar documents
機能ゲノム学(第6回)

機能ゲノム学(第6回)

機能ゲノム学(第6回)

機能ゲノム学(第6回)

特論I

シーケンサー利用技術講習会 第10回 サンプルQC、RNAseqライブラリー作製/データ解析実習講習会

Microsoft Word - 1 color Normalization Document _Agilent version_ .doc

NGSデータ解析入門Webセミナー

GWB_RNA-Seq_

PowerPoint プレゼンテーション

Rでトランスクリプトーム解析

ゲノム情報解析基礎 ~ Rで塩基配列解析 ~

RNA-seq

CLC Genomics Workbench ウェブトレーニングセミナー: 変異解析編

ChIP-seq

PrimerArray® Analysis Tool Ver.2.2

ゲノム情報解析基礎 ~ Rで塩基配列解析 ~

NGSハンズオン講習会

IonTorrent RNA-Seq 解析概要 サーモフィッシャーサイエンティフィックライフテクノロジーズジャパンテクニカルサポート The world leader in serving science

NGS速習コース

PowerPoint Presentation

データ科学2.pptx

Rでゲノム・トランスクリプトーム解析

基本的な利用法

Qlucore_seminar_slide_180604

Agilent Microarray Total Solution 5 5 RNA-Seq 60 mer DNA in situ DNA 5 2 QC 4200 TapeStation 2100 / mirna CGHCGH+SNP ChIP-on-chip 2 mirna QC

GWB

Rインストール手順

GWB

Agilent 1色法 2条件比較 繰り返し実験なし

RNA-seq

機能ゲノム学(第6回)

カイ二乗フィット検定、パラメータの誤差

日本製薬工業協会シンポジウム 生存時間解析の評価指標に関する最近の展開ー RMST (restricted mean survival time) を理解するー 2. RMST の定義と統計的推測 2018 年 6 月 13 日医薬品評価委員会データサイエンス部会タスクフォース 4 生存時間解析チー

解析センターを知っていただく キャンペーン

Microsoft PowerPoint - 資料04 重回帰分析.ppt

ThermoFisher

最小二乗法とロバスト推定

特論I

バイオインフォマティクスⅠ

OpRisk VaR3.2 Presentation

GWB

多変量解析 ~ 重回帰分析 ~ 2006 年 4 月 21 日 ( 金 ) 南慶典

相同性配列検索ツール:GHOST-MPと ヒト口腔内メタゲノム解析

論文題目  腸管分化に関わるmiRNAの探索とその発現制御解析

計算機生命科学の基礎II_

KEGG.ppt

統計的データ解析

PowerPoint Presentation

Microsoft Word - 【広報課確認】 _プレス原稿(最終版)_東大医科研 河岡先生_miClear

リスク分析・シミュレーション

PowerPoint プレゼンテーション

Partek Flow リリースノート バージョン : Partek Flow バージョン は高速化と使い勝手の改善のための新機能やパフォーマンス向上を含んでいます このバージョンへアップグレードするためには Partek Flow インストールガイド


PowerPoint プレゼンテーション

リード・ゲノム・アノテーションインポート

Kumamoto University Center for Multimedia and Information Technologies Lab. 熊本大学アプリケーション実験 ~ 実環境における無線 LAN 受信電波強度を用いた位置推定手法の検討 ~ InKIAI 宮崎県美郷

2008 年度下期未踏 IT 人材発掘 育成事業採択案件評価書 1. 担当 PM 田中二郎 PM ( 筑波大学大学院システム情報工学研究科教授 ) 2. 採択者氏名チーフクリエータ : 矢口裕明 ( 東京大学大学院情報理工学系研究科創造情報学専攻博士課程三年次学生 ) コクリエータ : なし 3.

計画研究 年度 定量的一塩基多型解析技術の開発と医療への応用 田平 知子 1) 久木田 洋児 2) 堀内 孝彦 3) 1) 九州大学生体防御医学研究所 林 健志 1) 2) 大阪府立成人病センター研究所 研究の目的と進め方 3) 九州大学病院 研究期間の成果 ポストシークエンシン

141025mishima

MATLAB®製品紹介セミナー

PowerPoint Presentation

ボルツマンマシンの高速化

講義「○○○○」

アプリケーション インスペクションの特別なアクション(インスペクション ポリシー マップ)

特論I

Medical3

NLMIXED プロシジャを用いた生存時間解析 伊藤要二アストラゼネカ株式会社臨床統計 プログラミング グループグルプ Survival analysis using PROC NLMIXED Yohji Itoh Clinical Statistics & Programming Group, A

NGSハンズオン講習会

Microsoft PowerPoint 古川杉本SASWEB用プレゼン.ppt

Microsoft Word - 補論3.2

CLEFIA_ISEC発表

Probit , Mixed logit

分子進化モデルと最尤系統推定法 東北大 院 生命科学田邉晶史

配付資料 自習用テキスト 解析サンプル配布ページ 2

Microsoft PowerPoint - 【配布・WEB公開用】SAS発表資料.pptx

Veritas System Recovery 16 Management Solution Readme

Transcription:

RNA-Seqデータ解析における正規化法の選択 :RPKM 値でサンプル間比較は危険?! 東京大学大学院農学生命科学研究科アグリバイオインフォマティクス教育研究ユニット門田幸二 ( かどたこうじ ) http://www.iu.a.u-tokyo.ac.jp/~kadota/ kadota@iu.a.u-tokyo.ac.jp 1

よりよい正規化法とは? その正規化法によって得られたデータを用いて発現変動の度合いでランキングしたときに 真の発現変動遺伝子 ( DEG) がより上位にランキングされる ( 感度 特異度高い ) 正規化法 1 正規化法 2 66.7% 83.3% Area Under the ROC Curve (ROC 曲線の下部面積 :AUC) 2

Marioni et al., Genome Res., 18:1509-1517, 2008 のデータ 出発点 ( マイクロアレイと同じく ) マップされたリード数情報を含む遺伝子発現行列データ 3

代表的な正規化法 :RPKM RPM 正規化 ( マイクロアレイなどと同じところ ) Reads per million mapped reads サンプルごとにマップされた総リード ( 塩基配列 ) 数が異なる 各遺伝子のマップされたリード数を 総 read 数が100 万 (one million) だった場合 に補正 raw counts:all reads= RPM : 1,000,000 A1BGの場合は 744 : 5,087,097 = RPM : 1,000,000 1,000,000 1,000,000 RPM raw counts 744 146.3 all reads 5,087,097 RPKM 正規化 (RNA-seq 特有 ) Mortazavi et al., Nat. Methods, 5:621-628, 2008 Reads per kilobase of exon per million mapped reads 遺伝子の配列長が長いほど配列決定 (sequence) される確率が上昇 各遺伝子の配列長を 1000 塩基 (one kilobase) の長さだった場合 に補正 RPKM 1,000,000 1,000 raw counts all reads gene length 1,000,000,000 A1BG 744 82.9 1,764 5,087,097 1,000,000,000 raw counts gene length all reads 4

RPKM( 正確には RPM) の問題点 仮定 全 4 遺伝子 長さが同じ (gene length の項を無視できるので ) 遺伝子 4 だけが発現変動遺伝子 (DEG) サンプル A (all reads = 15) 遺伝子 1 遺伝子 2 遺伝子 3 遺伝子 4 Robinson and Oshlack, Genome Biol., 11:R25, 2010 定数 raw counts gene length all reads サンプル A (all reads = 30) 遺伝子 1 遺伝子 2 遺伝子 3 遺伝子 4 補正 サンプルB (all reads = 30) 遺伝子 1 遺伝子 2 遺伝子 3 遺伝子 4 サンプルB (all reads = 30) 遺伝子 1 遺伝子 2 遺伝子 3 遺伝子 4 補正後の解析結果 :A で高発現が 3 個, B で高発現が 1 個 5

M 0-2 -1 1 2 TMM 正規化法 RPM 補正後のデータ Robinson and Oshlack, Genome Biol., 11:R25, 2010 TMM 補正後のサンプル B のデータ P DEG 2 (%) TMM = -1 1 2 3 4 5 A P DEG 2 縦軸で上位下位合わせて P DEG % を Trim 残りのデータで M の weighted Mean(TMM) を計算 (%) 6

TMM 補正の有無で結論が異なることも 得られた DEG セット中の割合 TMM 補正なし (Marioni et al., Genome Res., 2008) サンプルA(Kidney):78% サンプルB(Liver):22% Robinson and Oshlack, Genome Biol., 11:R25, 2010 TMM 補正あり (Robinson and Oshlack, 2010) サンプル A(Kidney):53% サンプル B(Liver):47% TMM 法で使用されているパラメータ ( 一部 ) log 2 (B/A) で発現変動順にランキングし 全体で全遺伝子数の 60% 分を Trim (P DEG = 60%) その内訳は サンプル A 側とサンプル B 側で高発現なものを各 50% とする (P A = 50%) A 群 B 群 PDEG P A P DEG ( 100 PA ) Trim 後に残ったデータのみを用いて正規化係数を決定 7

参考 URL http://www.iu.a.u-tokyo.ac.jp/~kadota/r_seq.html 8

TMM-normalized data の作成法 9

利用可能な R パッケージたち DEGseq (Wang et al., Bioinformatics, 26: 136-138, 2010) ポワソン分布 (variance = mean) を仮定しているためばらつきを過少評価 edger (Robinson et al., Bioinformatics, 26: 139-140, 2010) 正規化法 :TMM 法 負の二項分布 (variance > mean) を仮定 mean のみのパラメータを用いて現実のばらつきを表現 DESeq (Anders and Huber, Genome Biol., 11: R106, 2010) 正規化法 :RLE 法 (relative log expression) edger のモデルをさらに拡張 ( しているらしい ) bayseq (Hardcastle and Kelly, BMC Bioinformatics, 11:422, 2010) 正規化法 :RPM ( たぶん ) 配列の長さ情報を与えるオプションがある データセット中に占める DEG の割合 (P DEG ) を一意に返す NBPSeq (Di et al., SAGMB, 10:24, 2011) アルゴリズムの詳細ついては不明です 10

TMM 法と門田法 TMM 法で用いられているパラメータ P DEG = 60%( 全遺伝子数の 60% 分を Trim した残りのデータで正規化係数を決定 ) P A = 50%( 発現変動遺伝子の内訳 : A 群 > B 群 = A 群 < B 群 ) 門田法 bayseq で自動推定された P DEG に相当しないデータを用いて正規化係数を決める 11

シミュレーションデータ Robinson and Oshlack, Genome Biol., 11:R25, 2010 TMM paper の Fig. 3 で用いられたものと同じ関数を使用 ポアソン分布 発現変動遺伝子 (DEG) の倍率変化 : 2 Number of common genes: 20,000 sample Aのみで発現している遺伝子数 : 2,200 0 sample Bのみで発現している遺伝子数 : 0 DEGの割合 (P DEG ): 5% DEG 中に占めるsampleA > Bの割合 (P A ): 80% 全遺伝子数が 20,000 個そのうち 5%(1,000 個 ) が DEG(P DEG = 5%) 80%(800 個 ) が samplea で高発現 (P A = 80%) 12

門田法のイメージ 真実 P DEG = 5%, P A = 80% bayseq による推定値 P DEG = 3.4%, P A = 73.3% bayseq で DEG と判定されなかった ( 灰色部分に相当 ) データのみを用いて正規化係数を決定 13

評価基準 AUC 値 ( 高いほど感度 特異度が高いことを意味する ) あるシミュレーション条件 (P DEG =5%, P A =80%) の結果 想定される様々なシナリオに対する頑健性はどうか? 14

P DEG 5% 様々なシナリオ P A = 50% 60% 70% 80% 90% 100% 10% 20% 30% 15

P DEG 5% 門田法のイメージ P A = 50% 60% 70% 80% 90% 100% 10% 20% 30% 16

リアルデータ Hardcastle and Kelly, BMC Bioinformatics, 11:422, 2010 bayseq 論文の Fig. 5 のデータ 公共データベース (GEO): GSE16959 Arabidopsis thaliana の leaf samples の 20-24 塩基の small RNAs (srnas) two wild-type (WT) samples vs. two RDR6 (RNA-dependent RNA polymerase 6) knockout (KO) samples RDR6 は tasrnas (trans-acting srnas) 生成に必要であることが既知 70,619 unique small RNA sequences が Arabidopsis thaliana ゲノムにヒット tasrna loci のみに 100% マッチし 発現が WT > KO となる 657 potentially true positives を同定 (P A = 100%) 70,619 行 4 列の srna 発現行列中に 657 個の真の発現変動 srnas を含むデータ 17

解析結果 (ROC 曲線の一部 ) Fig. 5 in bayseq paper Hardcastle and Kelly, BMC Bioinformatics, 11:422, 2010 18

まとめ 性能評価結果 シミュレーション : bayseq > DESeq > edger > NBPSeq あるリアルデータ : bayseq edger > NBPSeq > DESeq 正規化法はよりよいものを使うべし RPM 法, TMM 法, 門田法など オリジナルの手順よりも門田法と組み合わせるとよりよい結果に 計算環境 Windows 7, Intel Xeon 3.33GHz (2 processor), 96GB メモリ 19

謝辞 共同研究者西山智明博士 ( 金沢大学 ) 清水謙多郎博士 ( 東京大学 ) グラント 若手研究 (B)(H21-23 年度 ): マイクロアレイ解析の再現性 感度 特異度を飛躍的に向上させるデータ解析手法の開発 ( 代表 ) 新学術領域研究 ( 研究領域提案型 )(H22 年度 -): 非モデル生物におけるゲノム解析法の確立 ( 分担 ; 研究代表者 : 西山智明 ) 解析データ提供 Dr. Thomas J. Hardcastle(baySeq 著者 ) 20

その他 ( 苦労した点など ) bayseq 実行時のリサンプリング回数を当初 1000 回にしていた 結果がころころ変わって困った よくよくマニュアルを見ると推奨は 10,000 回だった bayseq 原著論文の精度はひょっとして DESeq と bayseq は TMM や門田法で正規化した後のデータをどうやって入力データとすればいいのか 最終的にこの二つは同じやり方でできた edger もしばらく上記二つと同じやり方でやっていたが 最近 ( 9 月 ) そのやり方ではだめだということに気付いた 一つのシミュレーション条件を 100 回で 30 時間かかります 21

その他 ( 実は一番重要かも ) 読み込ませる入力データ 1: 通常 ( 生のリードカウント ) TMM 正規化係数などは引数で与える 2:TMM or 門田正規化後のデータ プログラム内部で正規化されないように操作 3:RPM 正規化後のデータ TMM 正規化係数などは引数で与える リアルデータ 22

シミュレーションデータ NBPSeq のデータを生データの (μ の ) 経験分布として使用 負の二項分布 ( 平均 =μ 分散 =μ+μ 2 /size;size=10とした) 発現変動遺伝子 (DEG) の倍率変化 : 4 Number of common genes: 20,000 DEGの割合 (P DEG ): 5, 10, 20, 30% DEG 中に占めるsampleA > Bの割合 (P A ): 50, 60, 70, 80, 90, 100% 23

P DEG 5% 様々なシナリオ P A = 50% 60% 70% 80% 90% 100% 10% 20% 30% 24

P DEG 5% 様々なシナリオ P A = 50% 60% 70% 80% 90% 100% 10% 20% 30% 25