LC/MS GC/MS データ解析セミナー - GeneSpring MS トレーニングセミナー
本日の内容 はじめに - 多変量解析の簡単な説明 - RT m/z 強度(Intensity) の関係 - 解析を行う際に考慮すべき注意点 BLBに感染したRiceの解析例 ( 差分解析の例 ) - データ正規化 (Normalization) - Fold Analysis( 倍率変化を用いた解析 ) - 統計的有意差 (T-testによる解析) ビール6 銘柄の解析例 ( パターン解析の例 ) - 主成分分析 (PCA) - クラスタリング解析
多変量解析 (Multivariate Analysis) とは? 多変量解析は 観測値が複数の値からなる多変量データを統計的に扱う手法 因子分析 クラスター分析 主成分分析などがある ( ウィキペディアフリー百科事典から ) 1. 膨大なデータを要約して 特徴を掴みやすくするツール 2. 予測に有効なツール 具体的には 金融分析 株価の予測 マーケティング マイクロアレイ解析などで用いられています A B C D C と D は連動? [ イメージ ] 株価の例
多変量解析 (Multivariate Analysis) の適用 アプリケーションメタボロミクス ( 低分子 ) バイオマーカー ( 高分子 ) 健康 食品品質改良 分析技術アレイ分析など LC,LCMS CE,CEMS GC,GCMS 不純物分析 ( 品質管理など ) 環境分析 ( 農薬 環境ホルモンなど ) ICPMS その他
GeneSpring MSを用いたデータ解析ワークフロー mzxml Files LC/MS TOF GC/MS *ファイル変換 データインポートに時間がかかります.WIFF files (TOF).D files (QTOF) その他.D files その他 MFE その他 AMDIS NIST csv Files *特定のフォーマットに書き換える必要があります MHD Files GeneSpring MS ELU/FIN files GeneSpring MS CE/MSデータ解析も可能
RT m/z 強度の関係 強度 強度 RT m/z SpotA= Mass FeatureA 強度 RT m/z
2 実験のアライメント 強度比較 実験 1 実験 2 m/z のアライメント m/z 強度 Feature A Spot A m/z 強度 Feature A RT RT のアライメント 強度 RT シグナル強度を色で表示した場合 実験 1 実験 2 実験 1 実験 2
3 実験のアライメント 強度比較 SpotA Spot SpotB A SpotA Spot SpotB A SpotA Spot SpotB A 実験 1 実験 2 実験 3 Present Spot A のパターン 261.121 4.485 Present Absent Colored by: Beer6, demo Mass List: 100% good allignment (215) 226.0944 10.363 Spot B のパターン Colored by: Beer6, demo Mass List: 100% good allignment (215)
解析の際に注意する点 - 4 成分の標準サンプルを用いた例 何も考えずにデータをインポートしてみると Mass(m/z) 6 実験のデータをインポートした結果 65 個のMassが出現 フィルタリング ( ノイズの除去?) Mass(m/z) 全てのサンプルで存在する Mass 5 個の Mass が抽出 RT( 保持時間 ) RT( 保持時間 )
解析の際に注意する点 - 要因を考察 1. ノイズを Mass として捉えている? m/z RT 2. アライメントが完璧ではない? 化学的ノイズなどを除く => 質の良いデータに絞込む m/z のアライメント m/z 実験 1 実験 2 Feature A Feature A m/z RT RT のアライメント RT
解析の際に注意する点 アライメントの難しさ -RT m/z のずれをどこまで許容 (Tolerance 設定 ) - 測定されたノイズを Mass として認識しまう問題 ノイズとなるMass を除いて解析をすることが必要 - データインポート前の処理 - データインポート後にフィルタリング操作 例 :Intensity が高いMass SN 比が高いMass どちらかといえば データインポート前での処理が推奨できる
BLB に感染した Rice の解析例 - 差分解析の例
イネの野生株と BLB 耐性株 Bacterial Leaf Blight (BLB) caused by Xanthomonas oryzae pv. Oryzae (Xoo) Xa21 TP309 に導入すると BLB 耐性を示す Leucine -rich repeat と motif serine -threonine kinase -like domain を持つ 細胞表面で病原体由来のリガンド (AvrXa21 peptide ) を認識して 免疫反応を誘導? Infected Uninfected TP309 (WT) TP309-Xa21 (TG, transgenic)
Xo の野生株とノックアウト株 AvrXa21 peptide Xa21 により認識される Xoo 由来のペプチド BLB 耐性の TP309-Xa21 に存在するが 感染はしない raxst AvrXa21 ペプチドの生産に必要な遺伝子 Sulfotransferase -like protein PXO99 (WT) PXO99-raxST - (KO)
サンプルの概要 感染 Ctr 感染 耐性 Ctr 感染 感染感染耐性感染
実験手順
GeneSpring MS による解析 ( 概要 ) 1. アラインメントとノーマライズ 2. 階層型クラスタリングによる データの品質チェック 3. 1-/2-way ANOVA による 統計学的有意な量的変化を示す Feature の抽出 6. 抽出したターゲット代謝物を DB で検索 5. fold change による量的変化の確認 4. PCA による 分割可能なクラスの探索
実験データのインポート
アラインメントの設定
アラインメントされたピーク
ノーマライズ ( 正規化 )
ノーマライズの意味 Raw data ( ノーマライズ前 ) Per Run Normalize Per Run Normalize + Per Mass Normalize 実験ごとのばらつきをキャンセル Abundance の変化を強調 Normalized 値が1 付近 = Abundance の変化のまん中くらい tips
バイアスの補正 ( ノーマライズ ) 正規化 (normalization ) とは データセットを相互比較できるように変換する操作 正規化の一般的な前提 測定誤差は線形で系統的なものと考える tips
線形な系統誤差と補正 一定角度上向きに発射する 重力による一定のバイアス 偶然誤差のみ 偶然誤差 + 線形の系統誤差 tips
Per Run Normalization 代表値 ( 平均値または中央値 ) Abundance ( 対数軸 ) 0 補正前 Per Run Normaliz 後 tips
Per Mass Normalization 0 0 Abundance が変化しない成分 Abundance が変化する成分 Abundance の変化が明確に見えるようになる Per Run Normalization Per Run Normalization + Per Mass Normalizat tips
実験データの属性情報 それぞれ 6 レプリケートを測定 (7 x 6 =42 サンプルを測定 )
それぞれのサンプルでの再現性を確認するグラフ
Strain のパラメーターを考慮したグラフ
Infection のパラメーターを考慮したグラフ
Status のパラメーターを考慮したグラフ
アラインメントができている成分を抽出 全てのサンプルで検出されたピークの数は 612 個だった
確実にアラインメントされた成分
Abundance Level の変化しない成分を除去
Abundance Level の変化しない成分 2.0 0.5
ベン図による選別 1. 01 赤の領域で右クリックして Flags are Present of Marginal Make list in all of samples masses in を左の輪にドラッグ this list only を選択 2. 02 unchanging を右の輪にドラッグ 3. All Masses を選択
アラインされ かつ動きのある成分
WT の Mock と Infected で Abundance が変化する成分
SampleA(群 の強度 2群比較の単純な平均差比較 Fold Change解析 A=2xB A=1/2xB A=B SampleB(群 の強度 tips
Fold Change 解析 Mass Abundance 実験軸 Blue Line Mass A 実験で高い B 実験で低い Red Line Mass A 実験で低い A 実験で低い tips
Filter on Fold Change Averaged (Grouped by Strain) を展開 (+ をクリック ) WT, Mock の Condition をセット WT, Infected の Condition をセット
Mock と Infected で差がある成分 - Fold Change 解析
統計学的有意な変化を示す成分の抽出
統計学的有意差 のイメージ Fold Analysis 距離 Significance 距離 誤差 tips
検定の意味と帰無仮説 P 値 たとえば 母集団をμ=1 の正規分布と仮定したとき ( 帰無仮説 ) 偶然そのような観測値が得られる確率 (p 値 ) を計算する これが5% 以下であれば 帰無仮説を棄却し 別の集団の観測値だという立場に立ち μ 1と結論付ける D 1 D 2 1 もし帰無仮説が真ならば D 1 のような観測は珍しくない 量比 ( 対数軸 ) もし帰無仮説が真ならば D 2 のような観測は起こりにくい P 値が大きい P 値が小さい tips
T-test / 1 way - ANOVA 適用するケース パラメーターによって分かれる 2 つ以上のグループ間で 有意差のある Mass を抽出する 例 : 健常者と患者のサンプル群帰無仮説 : 健常者と患者で一致する (= 両者間に差がない ) 対立仮説 : 健常者と患者で一致しない (P 値 健常者と患者の間で差がない確率 ) パラメトリック ( 等分散と仮定 ) パラメトリック ( 等分散と仮定しない ) ノンパラメトリック 2グループ Student s T-test Welch t-test Wilcoxon rank test 3グループ以上 ANOVA Welch ANOVA Kruskal-Wallis test tips
パラメトリックテストの選択について Student s -test t ( 等分散の仮定 ) μ 1 μ 2 Log of Ratio Welch s -test t ( 不等分散の仮定 ) μ 1 μ 2 Log of Ratio tips
ノンパラメトリックの選択について パラメトリックテストは外れ値の影響を受けやすい y 1 x 1x2 x 3 x 5 x 6 y 2 y 3 y 5 y 6 x 4 y 4 Log of Ratio 1 2 3 5 4 6 78 9 11 10 12 Log of Ratio 1 2 4 6 7 8 9 11 3 5 10 12 Log of Ratio 順位検定は外れ値の影響を受けにくくなる tips
偽陽性と偽陰性 真の差なし 有意差なし True Negative 有意差あり False Positive 真の差あり False Negative True Positive False Positive とFalse Negative が0であれば 完璧な解析と言える tips
統計検定の問題 1: トレードオフ P 値が小さければいいのか? 科学的発見や 商業的チャンスの見落としにつながる True Positive (TP) 偽陽性結果を検証するための別な実験を行える設備と費用がかかる True Negative (TN) False Positive (FP) False Negative (FN) P value tips
統計検定の問題 2: 分散の不確かさ 真の分布 ( 母集団, population) μ 真の値 母平均 population σ 真の分布のばらつき mean 真の分布 N (μ, σ) 標本から推定された分布 m 標本平均 sample mean s 不偏標準偏差 注意! 繰り返し実験の数が非常に少ないとき 分散が極端に小さくなりやすい Intensity tips
統計検定の問題 3: 多重比較 10,000 個のMass を有意水準 5% で検定したとき 偽陽性の期待値は500 個にもなる 検定により Mass を抽出するとき 抽出した Mass の数だけでなく その中に含まれる偽陽 性の数を考慮しなければならない ちなみに ある有名生物系の論文では このような投稿規程が記載 Large-scale experiments. In evaluating large-scale experiments such as transcript profiling, we will consider whether there is a clear and complete description of each experiment; whether biological and/or technical replicates should have been used; what statistical analysis has been performed; whether a multiple comparison correction has been used to control for Type I family-wise error, where necessary; and/or whether the need for statistical analysis to support the claims has been obviated through validation of claims by independent experiments. - Type I Error ( 偽陽性 ) - Type II Error ( 偽陰性 ) - Multiplicity ( 多重性 ) tips
有意水準の補正 仮説群全体の有意水準 (FWER) Bonferroni, Holm, Westfall&Young きわめて保守的であり 多くの偽陰性の原因となる 陽性に対する偽陽性の割合の期待値 (FDR) Benjamini&Hochberg, SAM FWER を弱くコントロール 現実のデータ解析で頻用される tips
Statistical Analysis (ANOVA)
統計学的有意な変化を示す成分
ベン図を使った比較
倍率と有意差により抽出した成分
感染状態を示すバイオマーカーの候補
バイオマーカー候補の Mass UP DOWN Resistant Signature Profiling Mass の候補 Infection Signature 和集合
ターゲット候補の Mass Inspector Chlorophyll b C55H70MgN4O6
ビール 6 銘柄の解析例 - パターン解析の例
パターンが 似ている とは? パターン認識 人間はほとんど考えなくても 視覚でパターンを認識できる コンピュータがパターンを認識して 似ているかどうかを判断するにはどのように ( 数学的に ) 表現すればいいのか? tips
ビール 6 銘柄の内訳 今回用いるビール 6 銘柄 ( レプリケートは 3 回測定 ) は 1.A B C が通常のビール ( 一般的なビール ) 2.D E はプレミア系ビール ( 高級感を味わえるビール ) 3.F は黒ビール ( 黒ビール ) であることを覚えておいて下さい (6 銘柄 x 3 Replicates サンプルの結果 = ) 18
Beer6 銘柄 (x3replicates) トータルイオンクロマトグラム ビール銘柄 A ビール銘柄 B ビール銘柄 C ビール銘柄 D ビール銘柄 E ビール銘柄 F
RT vs Mass Plot Mass(m/z) 1999 個の Mass を解析対象 RT( 保持時間 )
データ解析の準備 (Quality Control) 1999 の Mass(All Masses) 全てのサンプルで 測定値の信頼できる Mass を抽出 (Filter on Flags 機能 ) 219 の Mass を抽出 ( 解析対象の Mass)
主成分分析 (PCA)
主成分分析 (PCA) Mass2 情報の損失 Mass1 Principal Component Principal Component Principal Component 1 に対する Mass2 の貢献度 Principal Component 1 にたいする Mass1 の貢献度 tips
PCA のメリット Mass2 gene2 Principal component 2 Principal component 1 Mass1 gene1 tips
多次元空間における PCA Mass2 Principal Component 2 Mass1 Principal Component 1 Mass3 Principal Principal Component 1 に対する Mass2 の貢献度 Principal Component 1 Component 2 Principal Component 2 に対する Mass2 の貢献度 Principal Component 1 に対する Mass3 の貢献度 Principal Component 2 に対する Mass3 の貢献度 Principal Component 1 に対する Mass1 の貢献度 Principal Component 2 に対する Mass1 の貢献度 tips
PCA の限界 真の Component が直行しない場合 PCA は本質的な component を検出することに失敗する クラスタリング解析によって 4 つのクラスターを検出することは可能 tips
PCA( 主成分分析 )- 2D 表示 219 の Mass データを 2 次元に要約して 各ビール銘柄の特徴を掴んでいる A D E が似ている? B C F が独立? A B C が似ている? D E F
PCA( 主成分分析 )- 3D 表示 219 の Mass データを 3 次元に要約して 各ビール銘柄の特徴を掴んでいる PC1 PC2 を表示 A PC1 PC2 PC3 を表示 PC1 PC3 を表示 B C D PC2 PC3 を表示 E F
Clustering
Clustering の見方 実験セット全体に対して強度が似た動きをする ( 同じパターン ) の化合物同士を分類する 強度 = 高い 強度 = 低い Mass Features Cluster 強度 = 低い 強度 = 高い Mass Feature Cluster 実験のグルーピングをカラータイルで表示 全体 Tree tips
プロファイルの幾何学的イメージ Data Matrix of Abundance (i Masses x j samples) Class Discovery Sample 1 Sample 2 Sample j Mass 1 5000 2700 1200 Mass 2 15000 0 60000 Mass 3 550 600 0 Mass i 1400 800 17000 サンプルの解析をする場合 i- 次元の空間に j 個のベクトル ( 座標 ) Mass ( 成分 ) の解析をする場合 j- 次元の空間に i 個のベクトル ( 座標 ) tips
近似度の測定方法 1. 距離で測る Smaller distance means more similar. 2. 角度で測る Smaller angle means more similar. Usually calculate cosine of the angle. ユークリッド距離など 相関係数など How does gene expression clustering work? 2005 D haeseleer, Nature Biotechnology ; 23,12:1499-501 tips
クラスタリング アルゴリズム Hierarchical clustering K-means clustering SOM How does gene expression clustering work? 2005 D haeseleer, Nature Biotechnology ; 23,12:1499-501 tips
Hierarchical Clustering 10 gene tree non-binary 2... 3 gene... X55123 X55123 X55123 X55123 Y18280 Y18280 U16297 U16297 Y13090 U39827 U39827 Y13090 Y13090 Gata3 Gata3 Gata3 Kcnd2 Gata3 Kcnd2 Kcnd2 Api6 Kcnd2 Api6 Api6 Api6 Dyrk1b Dyrk1b Cyb561 Cyb561 Casp12 Gpcr25 Gpcr25 Casp12 Gria4 Casp12 Gria4 Gria4 M33760 L06443 Fgfr1 Gdf3 tips
GeneSpring MS Tree-clusterig A,B,C が似ている D,E が似ている Condition Tree : 似たサンプル同士を示す F は独立? 成分量が多い A B Abundance C D Mass Tree : 似た成分同士を示す F に特徴的な成分? 成分量が少ない E F
GeneSpring MS Tree-clusterig F に特徴的な成分を拡大 25 の Mass( 成分 ) を抽出 A B 特に特徴的な 1 成分 Abundance C D E F
F に特徴的な成分 特に特徴的な 1 成分はどのような成分なのか? METLIN Search Mass Details
METLIN Search で候補を調べる METLIN Search METLIN 検索の結果
Mass Details で詳細を調べる マススペクトルの確認 Mass Details 組成式の推定
GeneSpring MS 詳細のお問い合わせ先 GeneSpring MS 詳細のお問い合わせは 安藤 ( kohei_ando@agilent.com ) までお願い申し上げます - 補足情報 - *GeneSpring MS 無償デモ版のダウンロードサイト http://www.chem.agilent.com/scripts/generic.asp?lpage=54770&indcol=y&prodcol=y *GeneSpring MS 紹介サイト http://www.chem.agilent.com/scripts/pds.asp?lpage=42556