本日の内容はじめに - 多変量解析の簡単な説明 - RT m/z 強度(Intensity) の関係 - 解析を行う際に考慮すべき注意点 BLBに感染したRiceの解析例 ( 差分解析の例 ) - データ正規化 (Normalization) - Fold Analysis( 倍率変化を用いた解析

LC/MS GC/MS データ解析セミナー - GeneSpring MS トレーニングセミナー

本日の内容はじめに - 多変量解析の簡単な説明 - RT m/z 強度(Intensity) の関係 - 解析を行う際に考慮すべき注意点 BLBに感染したRiceの解析例 ( 差分解析の例 ) - データ正規化 (Normalization) - Fold Analysis( 倍率変化を用いた解析 ) - 統計的有意差 (T-testによる解析) ビール6 銘柄の解析例 ( パターン解析の例 ) - 主成分分析 (PCA) - クラスタリング解析

多変量解析 (Multivariate Analysis) とは? 多変量解析は観測値が複数の値からなる多変量データを統計的に扱う手法因子分析クラスター分析主成分分析などがある ( ウィキペディアフリー百科事典から ) 1. 膨大なデータを要約して特徴を掴みやすくするツール 2. 予測に有効なツール具体的には金融分析株価の予測マーケティングマイクロアレイ解析などで用いられています A B C D C と D は連動? [ イメージ ] 株価の例

多変量解析 (Multivariate Analysis) の適用アプリケーションメタボロミクス ( 低分子 ) バイオマーカー ( 高分子 ) 健康食品品質改良分析技術アレイ分析など LC,LCMS CE,CEMS GC,GCMS 不純物分析 ( 品質管理など ) 環境分析 ( 農薬環境ホルモンなど ) ICPMS その他

GeneSpring MSを用いたデータ解析ワークフロー mzxml Files LC/MS TOF GC/MS *ファイル変換データインポートに時間がかかります.WIFF files (TOF).D files (QTOF) その他.D files その他 MFE その他 AMDIS NIST csv Files *特定のフォーマットに書き換える必要があります MHD Files GeneSpring MS ELU/FIN files GeneSpring MS CE/MSデータ解析も可能

RT m/z 強度の関係強度強度 RT m/z SpotA= Mass FeatureA 強度 RT m/z

2 実験のアライメント強度比較実験 1 実験 2 m/z のアライメント m/z 強度 Feature A Spot A m/z 強度 Feature A RT RT のアライメント強度 RT シグナル強度を色で表示した場合実験 1 実験 2 実験 1 実験 2

3 実験のアライメント強度比較 SpotA Spot SpotB A SpotA Spot SpotB A SpotA Spot SpotB A 実験 1 実験 2 実験 3 Present Spot A のパターン 261.121 4.485 Present Absent Colored by: Beer6, demo Mass List: 100% good allignment (215) 226.0944 10.363 Spot B のパターン Colored by: Beer6, demo Mass List: 100% good allignment (215)

解析の際に注意する点 - 4 成分の標準サンプルを用いた例何も考えずにデータをインポートしてみると Mass(m/z) 6 実験のデータをインポートした結果 65 個のMassが出現フィルタリング ( ノイズの除去?) Mass(m/z) 全てのサンプルで存在する Mass 5 個の Mass が抽出 RT( 保持時間 ) RT( 保持時間 )

解析の際に注意する点 - 要因を考察 1. ノイズを Mass として捉えている? m/z RT 2. アライメントが完璧ではない? 化学的ノイズなどを除く => 質の良いデータに絞込む m/z のアライメント m/z 実験 1 実験 2 Feature A Feature A m/z RT RT のアライメント RT

解析の際に注意する点アライメントの難しさ -RT m/z のずれをどこまで許容 (Tolerance 設定 ) - 測定されたノイズを Mass として認識しまう問題ノイズとなるMass を除いて解析をすることが必要 - データインポート前の処理 - データインポート後にフィルタリング操作例 :Intensity が高いMass SN 比が高いMass どちらかといえばデータインポート前での処理が推奨できる

BLB に感染した Rice の解析例 - 差分解析の例

イネの野生株と BLB 耐性株 Bacterial Leaf Blight (BLB) caused by Xanthomonas oryzae pv. Oryzae (Xoo) Xa21 TP309 に導入すると BLB 耐性を示す Leucine -rich repeat と motif serine -threonine kinase -like domain を持つ細胞表面で病原体由来のリガンド (AvrXa21 peptide ) を認識して免疫反応を誘導? Infected Uninfected TP309 (WT) TP309-Xa21 (TG, transgenic)

Xo の野生株とノックアウト株 AvrXa21 peptide Xa21 により認識される Xoo 由来のペプチド BLB 耐性の TP309-Xa21 に存在するが感染はしない raxst AvrXa21 ペプチドの生産に必要な遺伝子 Sulfotransferase -like protein PXO99 (WT) PXO99-raxST - (KO)

サンプルの概要感染 Ctr 感染耐性 Ctr 感染感染感染耐性感染

実験手順

GeneSpring MS による解析 ( 概要 ) 1. アラインメントとノーマライズ 2. 階層型クラスタリングによるデータの品質チェック 3. 1-/2-way ANOVA による統計学的有意な量的変化を示す Feature の抽出 6. 抽出したターゲット代謝物を DB で検索 5. fold change による量的変化の確認 4. PCA による分割可能なクラスの探索

実験データのインポート

アラインメントの設定

アラインメントされたピーク

ノーマライズ ( 正規化 )

ノーマライズの意味 Raw data ( ノーマライズ前 ) Per Run Normalize Per Run Normalize + Per Mass Normalize 実験ごとのばらつきをキャンセル Abundance の変化を強調 Normalized 値が1 付近 = Abundance の変化のまん中くらい tips

バイアスの補正 ( ノーマライズ ) 正規化 (normalization ) とはデータセットを相互比較できるように変換する操作正規化の一般的な前提測定誤差は線形で系統的なものと考える tips

線形な系統誤差と補正一定角度上向きに発射する重力による一定のバイアス偶然誤差のみ偶然誤差 + 線形の系統誤差 tips

Per Run Normalization 代表値 ( 平均値または中央値 ) Abundance ( 対数軸 ) 0 補正前 Per Run Normaliz 後 tips

Per Mass Normalization 0 0 Abundance が変化しない成分 Abundance が変化する成分 Abundance の変化が明確に見えるようになる Per Run Normalization Per Run Normalization + Per Mass Normalizat tips

実験データの属性情報それぞれ 6 レプリケートを測定 (7 x 6 =42 サンプルを測定 )

それぞれのサンプルでの再現性を確認するグラフ

Strain のパラメーターを考慮したグラフ

Infection のパラメーターを考慮したグラフ

Status のパラメーターを考慮したグラフ

アラインメントができている成分を抽出全てのサンプルで検出されたピークの数は 612 個だった

確実にアラインメントされた成分

Abundance Level の変化しない成分を除去

Abundance Level の変化しない成分 2.0 0.5

ベン図による選別 1. 01 赤の領域で右クリックして Flags are Present of Marginal Make list in all of samples masses in を左の輪にドラッグ this list only を選択 2. 02 unchanging を右の輪にドラッグ 3. All Masses を選択

アラインされかつ動きのある成分

WT の Mock と Infected で Abundance が変化する成分

SampleA(群の強度 2群比較の単純な平均差比較 Fold Change解析 A=2xB A=1/2xB A=B SampleB(群の強度 tips

Fold Change 解析 Mass Abundance 実験軸 Blue Line Mass A 実験で高い B 実験で低い Red Line Mass A 実験で低い A 実験で低い tips

Filter on Fold Change Averaged (Grouped by Strain) を展開 (+ をクリック ) WT, Mock の Condition をセット WT, Infected の Condition をセット

Mock と Infected で差がある成分 - Fold Change 解析

統計学的有意な変化を示す成分の抽出

統計学的有意差のイメージ Fold Analysis 距離 Significance 距離誤差 tips

検定の意味と帰無仮説 P 値たとえば母集団をμ=1 の正規分布と仮定したとき ( 帰無仮説 ) 偶然そのような観測値が得られる確率 (p 値 ) を計算するこれが5% 以下であれば帰無仮説を棄却し別の集団の観測値だという立場に立ち μ 1と結論付ける D 1 D 2 1 もし帰無仮説が真ならば D 1 のような観測は珍しくない量比 ( 対数軸 ) もし帰無仮説が真ならば D 2 のような観測は起こりにくい P 値が大きい P 値が小さい tips

T-test / 1 way - ANOVA 適用するケースパラメーターによって分かれる 2 つ以上のグループ間で有意差のある Mass を抽出する例 : 健常者と患者のサンプル群帰無仮説 : 健常者と患者で一致する (= 両者間に差がない ) 対立仮説 : 健常者と患者で一致しない (P 値健常者と患者の間で差がない確率 ) パラメトリック ( 等分散と仮定 ) パラメトリック ( 等分散と仮定しない ) ノンパラメトリック 2グループ Student s T-test Welch t-test Wilcoxon rank test 3グループ以上 ANOVA Welch ANOVA Kruskal-Wallis test tips

パラメトリックテストの選択について Student s -test t ( 等分散の仮定 ) μ 1 μ 2 Log of Ratio Welch s -test t ( 不等分散の仮定 ) μ 1 μ 2 Log of Ratio tips

ノンパラメトリックの選択についてパラメトリックテストは外れ値の影響を受けやすい y 1 x 1x2 x 3 x 5 x 6 y 2 y 3 y 5 y 6 x 4 y 4 Log of Ratio 1 2 3 5 4 6 78 9 11 10 12 Log of Ratio 1 2 4 6 7 8 9 11 3 5 10 12 Log of Ratio 順位検定は外れ値の影響を受けにくくなる tips

偽陽性と偽陰性真の差なし有意差なし True Negative 有意差あり False Positive 真の差あり False Negative True Positive False Positive とFalse Negative が0であれば完璧な解析と言える tips

統計検定の問題 1: トレードオフ P 値が小さければいいのか? 科学的発見や商業的チャンスの見落としにつながる True Positive (TP) 偽陽性結果を検証するための別な実験を行える設備と費用がかかる True Negative (TN) False Positive (FP) False Negative (FN) P value tips

統計検定の問題 2: 分散の不確かさ真の分布 ( 母集団, population) μ 真の値母平均 population σ 真の分布のばらつき mean 真の分布 N (μ, σ) 標本から推定された分布 m 標本平均 sample mean s 不偏標準偏差注意! 繰り返し実験の数が非常に少ないとき分散が極端に小さくなりやすい Intensity tips

統計検定の問題 3: 多重比較 10,000 個のMass を有意水準 5% で検定したとき偽陽性の期待値は500 個にもなる検定により Mass を抽出するとき抽出した Mass の数だけでなくその中に含まれる偽陽性の数を考慮しなければならないちなみにある有名生物系の論文ではこのような投稿規程が記載 Large-scale experiments. In evaluating large-scale experiments such as transcript profiling, we will consider whether there is a clear and complete description of each experiment; whether biological and/or technical replicates should have been used; what statistical analysis has been performed; whether a multiple comparison correction has been used to control for Type I family-wise error, where necessary; and/or whether the need for statistical analysis to support the claims has been obviated through validation of claims by independent experiments. - Type I Error ( 偽陽性 ) - Type II Error ( 偽陰性 ) - Multiplicity ( 多重性 ) tips

有意水準の補正仮説群全体の有意水準 (FWER) Bonferroni, Holm, Westfall&Young きわめて保守的であり多くの偽陰性の原因となる陽性に対する偽陽性の割合の期待値 (FDR) Benjamini&Hochberg, SAM FWER を弱くコントロール現実のデータ解析で頻用される tips

Statistical Analysis (ANOVA)

統計学的有意な変化を示す成分

ベン図を使った比較

倍率と有意差により抽出した成分

感染状態を示すバイオマーカーの候補

バイオマーカー候補の Mass UP DOWN Resistant Signature Profiling Mass の候補 Infection Signature 和集合

ターゲット候補の Mass Inspector Chlorophyll b C55H70MgN4O6

ビール 6 銘柄の解析例 - パターン解析の例

パターンが似ているとは? パターン認識人間はほとんど考えなくても視覚でパターンを認識できるコンピュータがパターンを認識して似ているかどうかを判断するにはどのように ( 数学的に ) 表現すればいいのか? tips

ビール 6 銘柄の内訳今回用いるビール 6 銘柄 ( レプリケートは 3 回測定 ) は 1.A B C が通常のビール ( 一般的なビール ) 2.D E はプレミア系ビール ( 高級感を味わえるビール ) 3.F は黒ビール ( 黒ビール ) であることを覚えておいて下さい (6 銘柄 x 3 Replicates サンプルの結果 = ) 18

Beer6 銘柄 (x3replicates) トータルイオンクロマトグラムビール銘柄 A ビール銘柄 B ビール銘柄 C ビール銘柄 D ビール銘柄 E ビール銘柄 F

RT vs Mass Plot Mass(m/z) 1999 個の Mass を解析対象 RT( 保持時間 )

データ解析の準備 (Quality Control) 1999 の Mass(All Masses) 全てのサンプルで測定値の信頼できる Mass を抽出 (Filter on Flags 機能 ) 219 の Mass を抽出 ( 解析対象の Mass)

主成分分析 (PCA)

主成分分析 (PCA) Mass2 情報の損失 Mass1 Principal Component Principal Component Principal Component 1 に対する Mass2 の貢献度 Principal Component 1 にたいする Mass1 の貢献度 tips

PCA のメリット Mass2 gene2 Principal component 2 Principal component 1 Mass1 gene1 tips

多次元空間における PCA Mass2 Principal Component 2 Mass1 Principal Component 1 Mass3 Principal Principal Component 1 に対する Mass2 の貢献度 Principal Component 1 Component 2 Principal Component 2 に対する Mass2 の貢献度 Principal Component 1 に対する Mass3 の貢献度 Principal Component 2 に対する Mass3 の貢献度 Principal Component 1 に対する Mass1 の貢献度 Principal Component 2 に対する Mass1 の貢献度 tips

PCA の限界真の Component が直行しない場合 PCA は本質的な component を検出することに失敗するクラスタリング解析によって 4 つのクラスターを検出することは可能 tips

PCA( 主成分分析 )- 2D 表示 219 の Mass データを 2 次元に要約して各ビール銘柄の特徴を掴んでいる A D E が似ている? B C F が独立? A B C が似ている? D E F

PCA( 主成分分析 )- 3D 表示 219 の Mass データを 3 次元に要約して各ビール銘柄の特徴を掴んでいる PC1 PC2 を表示 A PC1 PC2 PC3 を表示 PC1 PC3 を表示 B C D PC2 PC3 を表示 E F

Clustering

Clustering の見方実験セット全体に対して強度が似た動きをする ( 同じパターン ) の化合物同士を分類する強度 = 高い強度 = 低い Mass Features Cluster 強度 = 低い強度 = 高い Mass Feature Cluster 実験のグルーピングをカラータイルで表示全体 Tree tips

プロファイルの幾何学的イメージ Data Matrix of Abundance (i Masses x j samples) Class Discovery Sample 1 Sample 2 Sample j Mass 1 5000 2700 1200 Mass 2 15000 0 60000 Mass 3 550 600 0 Mass i 1400 800 17000 サンプルの解析をする場合 i- 次元の空間に j 個のベクトル ( 座標 ) Mass ( 成分 ) の解析をする場合 j- 次元の空間に i 個のベクトル ( 座標 ) tips

近似度の測定方法 1. 距離で測る Smaller distance means more similar. 2. 角度で測る Smaller angle means more similar. Usually calculate cosine of the angle. ユークリッド距離など相関係数など How does gene expression clustering work? 2005 D haeseleer, Nature Biotechnology ; 23,12:1499-501 tips

クラスタリングアルゴリズム Hierarchical clustering K-means clustering SOM How does gene expression clustering work? 2005 D haeseleer, Nature Biotechnology ; 23,12:1499-501 tips

Hierarchical Clustering 10 gene tree non-binary 2... 3 gene... X55123 X55123 X55123 X55123 Y18280 Y18280 U16297 U16297 Y13090 U39827 U39827 Y13090 Y13090 Gata3 Gata3 Gata3 Kcnd2 Gata3 Kcnd2 Kcnd2 Api6 Kcnd2 Api6 Api6 Api6 Dyrk1b Dyrk1b Cyb561 Cyb561 Casp12 Gpcr25 Gpcr25 Casp12 Gria4 Casp12 Gria4 Gria4 M33760 L06443 Fgfr1 Gdf3 tips

GeneSpring MS Tree-clusterig A,B,C が似ている D,E が似ている Condition Tree : 似たサンプル同士を示す F は独立? 成分量が多い A B Abundance C D Mass Tree : 似た成分同士を示す F に特徴的な成分? 成分量が少ない E F

GeneSpring MS Tree-clusterig F に特徴的な成分を拡大 25 の Mass( 成分 ) を抽出 A B 特に特徴的な 1 成分 Abundance C D E F

F に特徴的な成分特に特徴的な 1 成分はどのような成分なのか? METLIN Search Mass Details

METLIN Search で候補を調べる METLIN Search METLIN 検索の結果

Mass Details で詳細を調べるマススペクトルの確認 Mass Details 組成式の推定

GeneSpring MS 詳細のお問い合わせ先 GeneSpring MS 詳細のお問い合わせは安藤 ( kohei_ando@agilent.com ) までお願い申し上げます - 補足情報 - *GeneSpring MS 無償デモ版のダウンロードサイト http://www.chem.agilent.com/scripts/generic.asp?lpage=54770&indcol=y&prodcol=y *GeneSpring MS 紹介サイト http://www.chem.agilent.com/scripts/pds.asp?lpage=42556

本日の内容 はじめに - 多変量解析の簡単な説明 - RT m/z 強度(Intensity) の関係 - 解析を行う際に考慮すべき注意点 BLBに感染したRiceの解析例 ( 差分解析の例 ) - データ正規化 (Normalization) - Fold Analysis( 倍率変化を用いた解析

本日の内容はじめに - 多変量解析の簡単な説明 - RT m/z 強度(Intensity) の関係 - 解析を行う際に考慮すべき注意点 BLBに感染したRiceの解析例 ( 差分解析の例 ) - データ正規化 (Normalization) - Fold Analysis( 倍率変化を用いた解析