MPP easy guide - PDF 無料ダウンロード

Mass Profiler Professional 簡易マニュアルマニュアル作成環境 : ( 旧版を下記で改定 ) Mass Profiler Professional B12.5 Build 179640 MassHunter Qualitative Analysis B.05.00 SP1 Page 1

Mass Profiler Professional の主な機能機能特徴 Fold Change t- 検定 (2 群 ) ANOVA(3 群以上 ) Volcano Plot 主成分分析 (PCA) クラスタ分析 Class Prediction ( 判別予測判別分析 ) Pathway 分析 ( オプション ) グループ間の平均で閾値以上のコンポーネントを抽出しますグループ間で平均値とばらつきからグループ間で変動があると判断されるコンポーネントを抽出します Fold Change と t- 検定を同時に行いますサンプル全体の大まかな傾向を視覚化します多変数 ( コンポーネント ) を集約し各データファイル ( サンプル ) の総合得点 ( スコア ) を算出して表示します各コンポーネントの係数 ( ローディング ) とスコアの関係からコンポーネントの考察を行うことができます似た変動のコンポーネントを集めて視覚化しますグループ間の違いを表すコンポーネントと分類の基準値 ( コンポーネントのアバンダンス ) を探し出しサンプルをグループで分類します分類後にコンポーネントと基準値が妥当かどうかの確認を行いますバイオマーカー探索で主に用いられる機能コンポーネントのライブラリサーチ結果から化合物の代謝経路などを推定し Pathway と呼ばれる化合物の反応経路の地図に落とし込む機能です Page 2

MassHunter と MPP 用いた解析の流れ MassHunter MS や RT の再現性良好なデータ xxx.d xxx.cef 変換 cef MPP 1Experiment 作成強度正規化条件選択 1. None 2. Z-Transform 3. Baseline to (median/ mean) of (all/control) 定型 Wizard samples Analysis: Significance Testing and Fold Change Class Prediction: Build and Test Model cef 2Analysis ( 差異の検出 ) Volcano Plot Clustering PCA etc MassHunter 必須 : マスクロマトグラムとマススペクトルで確認データベースサーチや組成式計算等 3 候補検出後確認 Export for Recursion で化合物リスト作成 ID Browser で化合物検索 Data Import Wizard 任意 Workflow Page 3

CEF ファイル作成方法概要 (Agilent MassHunter ユーザーのみ ) 1 該当データ上で右クリックします 2Export as CEF を選択します 3 データ保存先等設定します 4OK をクリックします処理するデータファイル数と Compounds 数によっては処理に長時間かかります Molecular Feature Extractor 詳細は MassHunter ガイドブックに記載されています Page 4

MPP ソフトの概念と用語 1 Project Experiment Sample Entity ユーザーがデータを格納するワークスペースです MPP を複数人で共有する場合など各個人でプロジェクトを作ると閲覧権限等は設定できませんがデータを分けることができます用途の異なるデータは混乱を招くため異なるプロジェクトにしたほうが無難ですエクスペリメントはデータの解析単位になりますシグナルデータのインポートを行うとエクスペリメントが 1 つできますノーマライズはエクスペリメント単位で決定され変更することはできません GC/MS や LC/MS のデータですデータファイル名が Sample 名になります LC/MS の場合は MFE で抽出された Feature ですサンプルごとの強度変動情報が含まれます Project A Experiment 1 Sample ( データファイルセット ) Condition ( サンプルのグループ化情報 ) Entity List ( クロマトグラムピークリスト ) Object ( クラスタツリー判別モデル等 ) Experiment 拡大 1 つ 1 つが RT, 分子量, 強度情報を持つデータ = Entity = Feature Experiment 2 Sample ( データファイルセット ) Condition ( サンプルのグループ化情報 ) Entity List ( クロマトグラムピークリスト ) Object ( クラスタツリー判別モデル等 ) A B C D E F LC/MS 注入 1 回分のデータ = Sample 例 : コーヒー豆種類 = Parameter A, B, C, etc. = Condition Experiment は他の Project へコピーすることもできます Page 5

MPP ソフトの概念と用語 2 既にある Experiment を Project に追加する選択された Entity List の Inspector を表示する散布図を表示するヒストグラムを表示する Venn 図を表示するヒートマップを表示する各サンプルの統計情報を表示する新しい Pathway を作成するプロジェクトを閉じる Experiment を作成する選択された Entity の Entity List を作成する CSV などで作成したファイルを Entity List として Import する Profile Plot を表示するマトリクスプロットを表示する箱髭図を表示するスプレッドシートを表示する (Normal/Raw Abundance で選択可能 ) Interpretations Analysis Interpretation は MPP で読み込んだ Sample( データファイル ) をグループ化して表示させる方法です Interpretation の元になるのは Parameter です 1 つの Sample に複数の Parameter が設定されている場合にどの Parameter でグループ化して表示しクラスタ分析や t- 検定 PCA などを行うかを決めます該当する Sample( データファイル ) を選択した Interpretation で解析した結果です Interpretations( グループ定義 ) Analysis(Entity List 及び解析結果のオブジェクト ) Page 6

MPP 用語集 1 MPP の用語意味アライメントは英語の位置合わせの意味で MPP では Entity を作成する際に行われます Alignment ( アライメント ) LC/MS や GC/MS のデータを読み込む際複数の Sample( データファイル ) からそれぞれの化合物ピークの強度を 1 つのピーク情報としてまとめる必要がありますただ LC/MS も GC/MS も測定毎に多少リテンションタイムや MS の m/z がずれることがありますアライメントはこのような測定誤差を考慮してリテンションタイムや m/z の許容誤差を設定します MPP へ読み込まれた複数のデータファイルのピークリスト (CEF ファイルや ELU ファイル ) に含まれるピークの情報 ( リテンションタイム m/z ピーク強度 ) からアライメントの許容誤差範囲内のピーク同士をまとめて 1 つの Entity とします Condition Entity Hierarchical Cluster ( 階層型クラスタ ) 分析許容誤差から外れたピークは別の Entity として MPP で扱われます設定されたパラメータ内にある各条件です Parameter が経時変化なら 1 時間 2 時間 3 時間が Condition Parameter が製造場所なら A 工場 B 工場 C 工場が Condition に相当します MPP 用語集の Parameter も参照 Entity は MPP のデータの取り扱い単位の一つで GC/MS や LC/MS のデータに含まれる化合物ピークのことを指します Entityには化合物ピークのリテンションタイムモデルイオン (m/z) 各サンプルのピーク強度が含まれます階層型クラスタツリーはデータファイル間の距離を測り距離の近いもの同士をまとめてクラスタとしてまとめていく手法です以下の手順で計算されます 1. データファイル間の距離 (MPPではピーク強度の変動パターンの類似度) を全て測定する 2. 距離の近いデータ同士をそれぞれまとめてクラスタを作る 3. それぞれのクラスタの位置 ( 重心など ) を計算する 4. クラスタ同士の位置を測定し近いものをクラスタとしてまとめる 5. 新しくできたクラスタの位置を計算する 6.4 5を 1つのクラスタになるまで繰り返す階層型クラスタは計算が煩雑であるものの k-means 法のような予めいくつのクラスタに分けることが不要なため適用範囲が広い手法と言えます階層型クラスタではデータやクラスタ間の距離をデンドログラムというツリーで表しますデンドログラムの距離が離れているクラスタやデータ同士は類似度が低くなります階層型クラスタ分析ではクラスタの位置やクラスタ間の距離をどのように定義するかで結果が異なることがあります例えば距離の位置の定義をクラスタ間の最短距離とするか最長距離とするかでクラスタ間の違いを過小過大評価することになりますまた距離の測定方法も MPP ではいくつかの手法が提供されておりデンドログラムのクラスタ間の距離に影響を与えます Page 7

MPP 用語集 2 MPPの用語 Indentified Interpretation k-means Parameter Unidentified LC/MS(TOF,Q-TOF) や GC/MSD のデータを MPP に読み込む際に化合物名が ( ライブラリサーチなどで ) 推定されたピークリストをのことを Identified なピークリストといいます意味また GC/QQQ LC/QQQのMRMデータ GC/MSDのスクリーナー結果も Identified の形式でMPPに読み込まれます Interpretationは MPPで読み込んだSample( データファイル ) をグループ化して表示させる方法です Interpretationの元になるのは Parameter(HelpファイルにはConditionとも表記されることあり ) です 1つのSampleに複数のParameterが設定されている場合にどのParameterでグループ化して表示しクラスタ分析やt- 検定 PCAなどを行うかを決めますまた 1つのParameterで複数回測定したデータ ( レプリケイト ; 再現性などの確認のために取られたデータ ) の強度を平均化するかどうかも設定することができます k-meansクラスタ方は古くから行われているクラスタ分析法でデータをあらかじめ k 個のクラスタに分けることを決めてから実際にデータを整理していく手法のことです例えばあるデータの散布図上にある測定データを 4 個に分類すると決めてクラスタ分析を行う場合 4k-means 法といいます実際の計算は以下のとおりです 1. 散布図上にランダムに4 点のポイントを置く 2. データファイルと4 点のポイントとの距離を測りデータファイルを一番近いポイントとして分類する ( データファイルは4つのクラスタに分類される ) 3. 各クラスタの重心を計算する (4つの重心が求まる) 4.3で求めた重心と各データとの距離を測りデータファイルを一番近いポイントとして分類する ( データファイルは4つのクラスタに分類される ) 5. 上記 3 4を重心が移動しなくなるまで繰り返す k-means 法は計算もそれほど煩雑でないため古くから行われていた手法ですが最初のクラスタ数 (kの値) をどのように決めるかで結果が異なるため kの値が既知の実験でないと妥当性のある結果が得られないと言われておりますそのため MPPのクラスタ分析は k-means 法よりもHierarchical Cluster ( 階層型クラスタ ) をまず行いその結果から妥当なkの数を見つけてk- means 法でEntityを分類するワークフローが提案されています Parameterは実験条件のことでデータを測定した条件のことを指します 1 時間 2 時間 3 時間がConditionなら経時変化がParameter A 工場 B 工場 C 工場がConditionなら製造場所がParameterに相当します Conditionをまとめる概念です Unidentifiedは MPPにLC/MS(TOF,Q-TOF) やGC/MSDのデータファイルを読み込む際に化合物名が ( ライブラリサーチなどで ) 推定されていないピークリストをのことをいいます Unidentified で読み込まれた Entity の Compound Name は m/z@rt の形式で名前が付けられます GC/MSD の AMDIS の場合は ELU ファイルを Unidentified ファイルとして読み込みますが AMDIS の Identified のピークリストである FIN ファイルに含まれるピークは ELU ファイルにも含まれます Page 8

Mass Profiler Pro. (MPP) のワークフローその前にデータの準備分けて見つける実験計画を検討する目的仮説など ChemStation, MassHunter でデータを取る統計的有意差による Entity 抽出 t- 検定 ANOVA 解析 PCA( 主成分分析 ) 階層型クラスタ分析条件を満たす Entity を探す (Venn 図 ) データファイルの読み込み Entity List の作成ピークアライメント (Entity の作成 ) グループ定義 IDBrowser ( 化合物の推定 ) 推定する Class Prediction ( 判別分析 ) Entity のフィルター ( ノイズ除去 ) 詳細のクロマトグラムマススペクトルを解析する Entity List の出力 ChemStation, MassHunter での解析 Page 9

MPP による解析に持ち込むまでの Agilent プラットフォームのデータ処理概略 LC/MS 分析装置 GC/MS Nontarget MFE (.cef) TOF, QTOF TOF, QTOF QQQ ICP-MS SQ SQ QQQ or or QQQ QQQ Target analysis or Non-target analysis Find by Formula (.cef) Unidentified or Combined experiment Target target analysis Quant Report (.xml) Identified experiment Target analysis Quant Report (.xls,.csv) Identified experiment Nontarget AMDIS (.elu) ChemStation Target analysis or Non-target analysis Quant Report (.xml) Unidentified or Combined experiment Target Identified experiment Target analysis Quant Report (.xml) Identified experiment Page 10

Mass Profiler Pro. (MPP) のワークフローデータの準備分けて見つける実験計画を検討する目的仮説など ChemStation, MassHunter でデータを取る統計的有意差による Entity 抽出 t- 検定 ANOVA 解析 PCA( 主成分分析 ) 階層型クラスタ分析条件を満たす Entity を探す (Venn 図 ) データファイルの読み込み Entity List の作成ピークアライメント (Entity の作成 ) グループ定義 IDBrowser ( 化合物の推定 ) 推定する Class Prediction ( 判別分析 ) Entity のフィルター ( ノイズ除去 ) 詳細のクロマトグラムマススペクトルを解析する Entity List の出力 ChemStation, MassHunter での解析 Page 11

Analysis Workflow(Baselining Option 設定後に起動 ) Summary Report Experiment Grouping (Interpretation も作成 ) Filter Flags Significance Analysis/Fold Change QC on samples ( 表示のみ ) Filter By Frequency ID Browser Identification Finish!! Page 12

Workflow(Baselining Option 設定後 ) メニュー一覧主に上から順に設定します Page 13

MPP 起動 Page 14

Project と Experiment 作成 (1/2) Project は experiment の上位構造です ( 例 :project 名 metabolites Experiment 名 LCMS_positive, negative, GCMS_positive, negaive など ) project Experiment 1 Experiment 2 Page 15

Project と Experiment 作成 (2/2) まずは MPP オプションがある場合は Pathway も選択可同定未同定混合の場合は Combined MRM データ等全化合物が同定されている場合は Identified 化合物が全く同定されていない場合は Unidentified 重要 : 正しく選択してくださいこの画面は合成してあります Data Import: データ取り込み Analysis: 限定された解析の流れ Class Prediction: 判別分析 Page 16

Data Import Wizard の流れ : MS Experiment Creation Wizard (1/11) TOF LC/MS データ Pathway 解析 (page 155) の場合のみ正しく選択することが必須です Page 17

MS Experiment Creation Wizard (2/11) Page 18

MS Experiment Creation Wizard (2/11) Page 19

MS Experiment Creation Wizard (5/11) Sample の表示順番を変更できます Page 20

MS Experiment Creation Wizard (6/11) 最終的に全てにグループ名を付けます Page 21

MS Experiment Creation Wizard (7/11) 特定の保持時間領域のみでの比較や一定のイオン強度以上の化合物のみで比較を行いたいときに使用します一般には全データを使用する設定にします Page 22

MS Experiment Creation Wizard (8/11) 化合物のアライメント (LC/MS の場合 ) RT Window= 0.1% + 0.15 min Mass Window= 5.0 ppm + 2.0 mda 既知物質を用いて保持時間の補正を行なう場合 Perform RT correlation をチェックし with standards を選択します CE/MS では MT(MPP 内では RT と表示されます ), m/z によるアラインメントを測定条件によって変化させますがこの値を大きくすると異なる化合物を同一と誤認識するフォールスポジティブのリスクが高くなりますので注意が必要です具体例は後述します Page 23

MS Experiment Creation Wizard (9/11) 点の色は Frequency を表します再現性の悪いものは赤色で全てのサンプルに共通して存在しアライメントされたものは青色で表示されますアライメント条件が厳しいと Frequency が低い Entity が増えます結果を見ながら必要に応じて Back ボタンで前画面に戻りアライメント条件や Filter 条件を修正します Page 24

MS Experiment Creation Wizard (10/11) 既知物質を用いてイオン強度の補正をする場合に使用します Page 25

MS Experiment Creation Wizard (11/11) 化合物強度の正規化を行ないます次ページから詳しく説明しますがサンプル間の変動の絶対値で比較したい場合は Baseline to (median / mean) of (all / control) across samples サンプル間の変動の比率で比較したい場合は Z-Transform を選択してください化合物間のダイナミックレンジが広い生体サンプルなどの分析には Z-Transform を推奨します Page 26

正規化 (1) None 各正規化法による化合物強度の差をプロットする例として左下テーブルの様な実験データが得られたとします Baselining options で None を選択すると正規化は行われませんよって全て raw data abundance で比較することになるので直観的には理解しやすいのですが正規化を行うと Normalized abundance = 0 は必ずしも raw data abundance = 0 を意味しなくなります他に存在量の多い化合物が存在すると ( ここでは compound 2) 存在量の少ない化合物の変動が相対的に小さなものとされてしまいます compound 1 compound 2 sample A 0 900000 sample B 1000 1000000 sample C 1100 970000 1200000 1000000 800000 600000 400000 compound 1 compound 2 200000 0 sample A sample B sample C Page 27

正規化 (2) Baseline to (median / mean) of (all / control) across samples 前ページで示された化合物強度を中央値か平均値で正規化します下記は各化合物の中央値との間の差に変換する場合の説明です (eg. Compound 1: 中央値 =1000, Normalized abundance of A = 0-1000 = -1000) 中央値を Normalized abundance = 0 とするため絶対値の変動の大きい化合物が強調されますが化合物間で広いダイナミックレンジを持つサンプルでは変動比率が大きくても強度変動の絶対値が小さい化合物は全く変動していないかの様に見えてしまいます compound 1 compound 2 sample A 0 900000 40000 sample B 1000 1000000 sample C 1100 970000 正規化 median 20000 0-20000 sample A sample B sample C compound 1 compound 2 compound 1 compound 2-40000 sample A -1000-70000 sample B 0 30000 sample C 100 0-60000 -80000 Page 28

正規化 (3) Z-Transform Z-Transform は強度変動の比率を考慮した正規化方法です Baselining options で Z-Transform を選択すると各化合物強度は前ページで求めた各化合物の中央値との差をそれぞれの化合物強度の標本分散で割った値に変換されます生体由来などの様に存在量の多い化合物微量な化合物が混在しているサンプルでは有効な手法ですが Quality Control を行い信頼性の低い ( サンプル群内の繰り返し再現性をチェックすることで除去することが出来ます )entity を除かなければ相対強度 0.1% から 1.0% に増加したノイズを 10 倍に変動した化合物とみなしてしまうことになります compound 1 compound 2 sample A 0 900000 sample B 1000 1000000 sample C 1100 970000 正規化 compound 1 compound 2 sample A -0.004054054-3.98734E-05 sample B 0 1.70886E-05 sample C 0.000405405 0 0.001 0.0005 0-0.0005-0.001-0.0015-0.002-0.0025-0.003-0.0035-0.004-0.0045 sample A sample B sample C compound 1 compound 2 Page 29

MS Experiment Creation ( 正規化 None) 全く同一データですが縦軸の正規化の違いだけで大きく見え方が異なることに注意が必要です Page 30

MS Experiment Creation ( 正規化 Z-transform) 全く同一データですが縦軸の正規化の違いだけで大きく見え方が異なることに注意が必要です Page 31

データの準備実験計画を検討する目的仮説など ChemStation, MassHunter でデータを取る統計的有意差による Entity 抽出 t- 検定 ANOVA 解析 PCA( 主成分分析 ) 分けて見つける階層型クラスタ分析条件を満たす Entity を探す (Venn 図 ) データファイルの読み込み Entity List の作成ピークアライメント (Entity の作成 ) グループ定義 IDBrowser ( 化合物の推定 ) 推定する Class Prediction ( 判別分析 ) Entity のフィルター ( ノイズ除去 ) 詳細のクロマトグラムマススペクトルを解析する Entity List の出力 ChemStation, MassHunter での解析 Page 32

サンプル群の定義 p.21 で設定済みの場合は不要です Experiment Grouping を選択しグループを示すパラメーターを与えます仮に n=4 で測定した場合その 4 つのファイルが同一の群であることを宣言しなければなりません群を表すパラメーターは複数設定することができます ( 例 : 男性 or 女性 20 代 or30 代 or40 代日本人 or アメリカ人 or 中国人 ) Page 33

同じパラメーターを繰り返し入力するのは面倒なのですがどうにかなりませんか?? 指定したいサンプルをドラッグで選択後 Assign Values を選択すると一括でパラメーターを入力することができます Page 34

Replicate はどの様に用意したら良いのでしょうか? また 1 つのサンプル群当たりどのくらいの replicate が必要なのでしょうか? T I M E 0 wks 2 wks 6 wks n=3 n=3 n=3 n=3 n=3 E n=3 3 injection Technical replicate A B C 1 injection D F 1 injection 1 injection Biological replicate Technical replicate から得られることが出来るのは測定誤差のみです個体差を考慮することは出来ませんまた A を 3 回分析した結果を平均化することは厳密にはサンプル群 0wks, Treated を代表していることにはなりません例え replicate の数を増やしていったとしてもそれは個体 A を代表した値になります Biological replicate は replicate 数を増やすことでサンプル群 ( 例 :2wks, Treated) の真値に近づくことが出来ます Replicate の適正数ですが Biological replicate であれば n=10 はほしいところです実験のコスト ( 時間的なコスト含め ) を考えた上で設定してください本マニュアルで使用しているデータは Technical replicate, n=3 の実験系になっています Page 35

Interpretations (Categorical, Non-averaged) Create Interpretation を選択し Categorical と Non-Averaged ではばらつきを評価しやすい表示です Page 36

Interpretations (Categorical, Averaged) Create Interpretation を選択し Categorical と Averaged では各 Condition 毎の平均表示です 4 n x 6 group = 24 群という扱われ方だったのですが 4 回測定を平均化し 1 x 6group = 6 群の比較にまとめました Page 37

Interpretations (Numerical, Averaged) Create Interpretation を選択し Numerical と Averaged では各 Condition 毎の平均表示です各 Condition 内での再現性が良好で計時変化を視覚化したい場合等に有効です 0 日目 1 日目 2 日目 3 日目 4 日目 5 日目 Page 38

サンプル群の表示順を並び替えたいのですがどうすればいいでしょうか? Columns タブ上で移動させたいサンプル群を選択し上下に移動させてください Profile plot もしくは Matrix plot の画面上で右クリックをし Properties を選択してください表示順の入れ替えは平均化の前後どちらでも行うことが出来ます Page 39

QC: Filter を使って Entity 中から再現性の悪いデータポイントを除きます Filter by Frequency を選択しサンプル群内でシグナルが現れる頻度によってフィルターをかけることができます具体的には n=3 測定中 2 回以上現れるデータポイントを採用するのであればこの値は 66.6% となります次ページ参照 100% 66% Filter をかけることで Entity 数が絞り込まれていることを確認してください Page 40

Filter by Frequency の例 at least 100% of all samples at least 66% of samples within each condition at least 100% of samples in only one condition at least 100% of samples in at least one condition at least 66% of samples in at least one condition at least 66% of samples in only one condition ( 以下この組合せは省略 ) ( 以下この組合せは省略 ) 凡例 : 検出される : 検出されない Page 41

QC: Filter を使って Entity 中から再現性の悪いデータポイントを除きます (2) Filter by Sample Variability を選択しサンプル群内のシグナル強度の CV 値でフィルターをかけることができます 8 6 < 20% < 30% < 40% この項目は全サンプル群中の何群で上記の再現性条件を満たしたかで Entity をフィルターすることを示しています例では at least 8 out of 8 conditions となっていますので 8 群全てで CV 値が 30% 以下である化合物を残すことを意味しています Page 42

統計解析のためのツール 2 群比較 T 検定 ;2つのサンプル群について有意差があるかどうかを検定 Fold 解析 ;2つのサンプル群のデータから何倍の差があるかでフィルターをかける機能 Volcano Plot ; t 検定と Fold 解析の結果を視覚化したもの t 検定 A 群 B 群 3 群以上比較 ANOVA( 分散分析 ) ; 3 群以上のデータからの有意差があるかどうかを検定表現方法主成分 (PCA) 分析 ; 大まかな傾向を視覚化するツール 95% 以上の確率でここに入るクラスタリング ; 差のある化合物どうしをまとめるツール判別分析 ; 未知試料がどの母集団に属するかを調べるツール Page 44

T 検定の限界 2 群間比較のみ実験デザインが 3 群以上の場合 ANOVA が必須分散 (Variance) が小さい場合平均差が殆どなくても統計的に差があるという結果が生じてしまう Fold 解析との組合せが有効 Volcano Plot ( page 95) T 検定だけでは統計的に偽陽性を排除できない多重検定補正が必要 ( page 71) Page 45

PRINCIPAL COMPONENTS ANALYSIS (PCA, 主成分分析 ) Page 46

PCA Score Plot( 各サンプルの大まかな傾向を表示 ) 3D 表示 2D 表示 Page 47

主成分分析 (PCA) 主成分分析は一般的に多くの変量の値をできるだけ情報の損失なしに,1 個または少数個の総合的指標 ( スコア ) で代表させる方法ですサンプル間の違いを LC/MS データのクロマトグラムピークの情報を元にして以下の式でスコア ( 得点 ) で表しますサンプルのスコア ( 得点 )=Σ ( 各 Entity の Loading x 各ピークのピーク強度 ) ここでクロマトグラム中の各ピークの重みつけである Loading はサンプル間のスコアが最もばらつくように計算された各ピーク固有の係数です [1] スコアは理論上サンプルに含まれるピークの数だけ計算できますが PCA の目的は少数個のスコアでサンプル間の違いを解釈することですので通常は 1~3 個のスコアを求めてスコアと Loading の解析を行いますサンプルの違いを表す情報量を最も表しているスコアから順番に第 1 主成分 ( Component 1) 第 2 主成分 (Component 2) と呼びます [2] サンプルごとの各主成分のスコアを表した図がスコアプロットクロマトグラムピークの各主成分の Loading を表した図が Loading Plot になります [1] 詳しい計算方法はケモメトリクスや統計解析の書籍を参照くださいここでは PCA を MPP で行う際スコアを求めるための Loading 計算はソフトウェアで自動的に行われることのみご紹介させていただきます [2] この章で扱う主成分という言葉はサンプル間の違いという情報量に対する言葉です Page 48

PCA( 主成分分析 ) の基本的な考え方試料 A 試料 B 試料 C ピーク 1 ピーク 2 10 15 4 ピーク 3 10 4 15 7 15 5 試料 A~ 試料 C の特徴が分かるように各ピークの面積を元にして試料の総合得点 ( スコア ) を付けることを考える試料ピーク係数 1 a 2 b 3 c スコア (u) 試料 A 10 15 4 10a+15b+4c 試料 B 10 4 15 10a+4b+15c 試料 C 7 15 5 7a+15b+5c 分散 ( ばらつき ) s 1 s 2 s 3 s u すなわち u= ax 1 +bx 2 +cx 3 となるスコア u を考える (x 1, x 2, x 3 はピーク 1~3 の面積値 ) u の分散 s u が最も大きくなるような係数 a, b, c を計算することで試料 A~ 試料 C のスコアが最も離れて特徴が区別できるようになりますこの計算は MPP で自動的に計算されます Page 49

PCA の計算結果 ( 第 1 主成分 ) 試料 A 試料 B 試料 C ピーク 1 ピーク 2 10 15 4 ピーク 3 10 4 15 7 15 5 試料 A~ 試料 C の各ピークの計算結果試料ピーク係数 1 0.00 2-0.63 3 0.78 スコア (u) 試料 A 10 15 4-6.30 試料 B 10 4 15 9.17 試料 C 7 15 5-5.52 分散 ( ばらつき ) s 1 s 2 s 3 s u 結果から分かること 1. ピーク 1 は試料間の違いにあまり関与しない ( 係数が 0) 2. ピーク 2 は試料間の違いを表すスコア u に負の影響を与える 3. ピーク 3 は試料間の違いを表すスコア u に正の影響を与える -6.30-5.52 9.17 スコア (u) Page 50

PCA の計算 ( 第 2 主成分 ) 試料 A 試料 B 試料 C ピーク 1 ピーク 2 10 15 4 ピーク 3 10 4 15 7 15 5 試料試料 A~ 試料 C の各ピークの第 2 主成分の計算ピーク係数 1 d 2 e 3 f スコア (v) 試料 A 10*(1-0.00) 15*(1+0.63) 4*(1-0.78) 10d+ 24.42e+0.89f 試料 B 10*(1-0.00) 4*(1+0.63) 15*(1-0.78) 10d+ 6.51e+3.33f 試料 C 7*(1-0.00) 15*(1+0.63) 5*(1-0.78) 10d+ 24.42e+1.11f 分散 ( ばらつき ) s 4 s 5 s 6 s v v= dx 1 (1-a)+ex 2 (1-b)+fx 3 (1-c) となるスコア v を考える (x 1, x 2, x 3 はピーク 1~3 の面積値 ) v の分散 s v が最も大きくなるような係数 d, e, f を計算することで試料 A~ 試料 C のスコアが最も離れて特徴が区別できるようになりますこの計算は MPP で自動的に計算されます Page 51

PCA の計算結果 ( 第 2 主成分 ) 試料 A 試料 B 試料 C ピーク 1 ピーク 2 10 15 4 ピーク 3 10 4 15 7 15 5-6.30 20.56 試料 A~ 試料 C の各ピークの計算結果 ( 第 2 主成分 ) 試料ピーク係数 1 0.00 2 0.82 3 0.57 スコア (v) 試料 A 10 15 4 20.56 試料 B 10 4 15 7.25 試料 C 7 15 5 20.69 分散 ( ばらつき ) s 1 s 2 s 3 s v 結果から分かること 1. ピーク 1 は試料間の違いにあまり関与しない ( 係数が 0) 2. ピーク 2 は試料間の違いを表すスコア v に正の影響を与える 3. ピーク 3 は試料間の違いを表すスコア v に正の影響を与える -5.52 20.69 スコア (v) 9.17 7.25 スコア (u) Page 52

PCA の Loading と Score 試料 A ピーク1 ピーク2 ピーク3 10 15 4 各試料のスコアの係数を Loading といいスコアに与える影響度を表すスコアピーク 1 2 3 u 0.00-0.63 0.78 v 0.00 0.82 0.57 試料 B 10 4 15 Loading Plot 2 スコア (v) 3 スコア (u) 試料 C 1 7 15 5 Score Plot 各試料の情報 ( 属性など ) から Score Plot のスコア u,v の意味付けを行いその意味付けについてクロマトグラム中の各ピークの影響度を Loading Plot から理解します -6.30 20.56-5.52 20.69 スコア (v) 9.17 7.25 スコア (u) Page 53

主成分分析 (PCA, Score plot) 各サンプルの傾向を視覚化するには Score plot が便利です Next 各サンプルの傾向を表示するためには平均化していない Interpretation を選択する必要がありますまたここで指定する entity list を再現性や統計的有意差によって絞り込むことで各サンプル群の PCA 結果が各々の特徴を反映していきます Page 54

主成分分析 (PCA, Score plot) 3 次元空間上で Ctrl キーを押しながらマウスカーソルをドラッグさせると軸を回転させることができますまた Shift キーを押しながらマウスカーソルを上下にドラッグさせるとズームインアウトができます Eigenvalues は各主成分の寄与率 ( 情報量全体のうちその主成分が説明できる割合 ) を示しています赤のプロットは各主成分の寄与率を青のプロットは寄与率の累積値を示します一般的にこの寄与率が 70~80% 以上であればよく説明されていると言われますまた少ない主成分で多くの寄与率があるほどよいモデルであると言われます Page 55

主成分分析 (PCA, Score plot) Page 56

データ処理による PCA( 主成分解析 ) の変化 PCA of the data All entities (19786) PCA of the data Entities filtered by frequency (3744) Page 25 参照 PCA of the data Entites after ANOVA (p 0.05) & Fold Change ( 2.0) (93) Page 69-77 参照 FILTRATION FILTRATION 品種 A 品種 B 品種 C 各種統計的フィルターを使って有意に差のある化合物を絞り込んでいくことでサンプル群の傾向がはっきりしてくることがわかります後述する判別分析 (Page 121) ではこの様に特徴付けが明白な entity list を用いることで精度の高い判別結果が得られます Page 57

主成分分析 (PCA, Loading Plot) PCA はサンプル群を三次元空間に表示する Score Plot だけでなく各化合物を二次元上に Loading Plot で表示させることも可能です Page 58

使用可能な統計の検定 One-way Tests: 一つのパラメータでサンプルグループを比較する T-Test ANOVA Time 0 hr Time 24 hr Time 0 hr Time 24 hr Time 48 hr N-way Tests: 2 つ以上のパラメータでサンプルグループを比較する 2-Way 3-Way Time 0 hr 24hr Treatment Control X Drug A Time 0 hr 24hr Treatment Control Drug A Genotype WT X KO Page 59

2 つのサンプルグループを比較する One-way Tests パラメトリック検定 : T-test unpaired T-test paired T-test unpaired unequal variance ノンパラメトリック検定 Mann-Whitney unpaired Mann-Whitney paired Page 60

Paired T-tests もっとも一般的な組み合わせの例としては例えば右の表のように変数として各個人を表しもう一つの変数としてコーヒーを飲む前と飲んだ後の器用さといったようなものがありますもし各個人の個人差が大きくコーヒーの効果が小さい場合は t-test でコーヒーの差を検出するには非常に多くの個人の情報 (Biological replicates) を集めないといけません paired t-test を使用することでグループ間の変動がグループ自身の変動より小さい場合でも統計検出力を t-test よりも高めることができます Dexterity Before Coffee Dan 5.4 3.9 Kelly 5.9 4.5 Tom 7.6 6.3 Janet 8.2 7.9 Dexterity After 1 Cup of Coffee David 4.7 5.0 Page 61

頻度 Parametric Test ( パラメトリック検定 ) µ = 母集団平均 σ = 母集団標準偏差 Expression of Gene X 正規分布は上記の図のように釣鐘型の形をしており平均値に対して左右対称の形をしています平均値から両側 1σ( 標準偏差 ) までの面積が全体の 68.26% 2σ までの面積が全体の 95.44% 3σ までが全体の 97.5% の面積を占めます MPP のパラメトリック統計検定 (Parametric statistical tests) では各化合物ピークのアバンダンスが正規分布の母集団からサンプリングされたと仮定して検定を行いますパラメトリック統計検定 (Parametric statistical test) の不等分散 (unequal variances) では比較するサンプルグループの分散 (σ 2 ) が等しくないという前提で検定を行います Page 62

Non-parametric Tests ( ノンパラメトリック検定 ) Non-parametric Tests は正規分布を前提としませんサンプルグループ間の分散が等しくないと想定します測定サンプルデータの標準化データ (Normalized Data) の順番に番号をつけ標準化データ逸脱値の影響を減らしますサンプルグループ間の繰り返し回数 (replicates) が少ないと同じサンプルグループでパラメトリック検定 (parametric tests) を行った場合に比べて統計的検出力は少ないです Gene X Untreated Normalized Intensity Treated Normalized Intensity Untreated Rank Treated Rank Replicate 1 4.5 1.3 6 2 Replicate 2.7 1.7 1 3 Replicate 3 2.3 3.5 4 5 Page 63

3 つ以上のサンプルグループを比較する One-way Tests パラメトリック検定 ANOVA ANOVA unequal variance (Welch ANOVA) Repeated measures ノンパラメトリック検定 Kruskal Walis Friedman Page 64

Repeated Measures ANOVA もし各個人の差が大きくコーヒーの効果が小さい場合は ANOVA でコーヒーの差を検出するには非常に多くの個人の情報 (Biological replicates) を集めないといけません Repeated Measures ANOVA を使用することでグループ間の変動がグループ自身の変動より小さい場合でも統計検出力を高めることができます Paired t-test と同様に各個人の個人差による変動を効率よく除去するにはいくつかの段階を経る必要があります Dexterity Before Coffee Dexterity After 1 Cup of Coffee Dan 5.4 3.9 3.7 Kelly 5.9 4.5 4.6 Tom 7.6 6.3 6.0 Janet 8.2 7.9 5.8 Dexterity After 2 Cups of Coffee David 4.7 5.0 3.2 Page 65

統計学的有意差のイメージ Page 66

P-value の計算方法 Asymptotic Method( 漸近法 ) 算出の前提として化合物ピークのアバンダンスが正規分布をして各分布の分散が等しいとしますよって検定で使用されるパラメータ (t-ratio, f-ratio) も同様に正規分布すると仮定し計算しますこれらの前提をしないで計算する場合は以下の Permutation Method で p- value を計算します Permutation Method( 並べ替え法 ) 潜在的に存在する分布を想定しませんサンプルを並べ替えて調査のためのテスト評価基準の分布を作成します ( Permute samples and build distribution of test metrics for probe) P-value は順番に並べられた計算値が実測値よりも大きくなる割合です (the fraction of permutations in which the test metric computed is larger than the actual test metric for that sample) Page 67

Permutation test とはある観測で A 集団の平均 >B 集団の平均という結果が得られたとするその平均値の差を x とするここで帰無仮説 : A 集団の平均 =B 集団の平均として A と B のサンプルを 1 つにまとめサンプルサイズ =n からなる母集団からランダムにとってきた集団とみなすこの集団をランダムな 2 つの集団に分け直すこの場合サンプルの組み合わせは全部で (n)c(1/2n) 通りもし A,B の属する母集団が同じであって平均値の違いはたまたま生じた差だとすれば全ての組み合わせの中でも x より大きな差は頻繁に見られるはずそこで全ての組み合わせについて平均値の差を計算して x より大きい組み合わせがいくつあるか数えるそれが全ての組み合わせのうち 5% を越えていたらたまたま生じた差とみなす Page 68

What p-value Cut-off to Use? Depends on what type of error you are more comfortable with Type I の誤り (false positive): 有意差がないのにあると判定されてしまった Type II 誤り (false negative): 有意差があるのにないと判定されてしまった P-Value の Cut-off は type I の誤りと type II の誤りのトレードオフとなる 5HT1c 0.002364 NFL 0.002649 NMDA2C 0.017181 afgf 0.027544 GRa3 0.041179 actin 0.045342 nachrd 0.046372 EGFR 0.0468 bfgf 0.087842 5HT2 0.106591 Brm 0.137903 SOD 0.147089 mglur2 0.174708 IGF.I 0.223558 SC2 0.274809 trkc 0.288776 mglur1 0.313801 SC6 0.343059 CNTFR 0.354717 pre-gad67 0.366955 BDNF.rat 0.417615 GDNF 0.421125 IP3R2 0.421308 L1 0.443525 GAD67 0.462416 H2AZ 0.561907 IP3R1 0.573717 MK2 0.630177 CCO2 0.640797 mglur3 0.654866 PDGFa 0.659352 IGF.II 0.683554 CNTF 0.690512 nachre 0.701041 IGFR2 0.728141 GAP43 0.732078 ODC 0.745628 SC1 0.74575 NT3 0.78811 PTN 0.795557 trk 0.82403 mglur5 0.8305 cjun 0.839991 Ins2 0.841945 MAP2 0.851833 neno 0.879299 GRb1 0.888485 TCP 0.892361 GRb2 0.900601 S100beta 0.930265 検定で有意差があると判定 p-value=0.05 検定で有意差がないと判定本当は有意差があるサンプル本当は有意差がないサンプル Page 69

T- 検定および ANOVA による entity の絞り込み Next 3 群以上の比較には ANOVA を選択してください Next Next ANOVA により entity が p 値で絞り込まれました P 値はデフォルトで 0.05 ( 棄却域 5%) になっていますがこの数値を小さくするとより化合物数が絞られます Page 70

多重検定の補正 Page 71

統計の多重検定の問題点統計計算を多くの化合物ピークで行うため 5% の p-value でもちりも積もればかなりの量となる 10000 peaks = 10000 回個別に統計検定を実施 p-value = 0.05 として 10000 のピークに対して検定を行うと 500 peaks (0.05 x 10000) で Type I の誤りが発生する可能性がある統計検定の回数を増やせば増やすほどそれに比例して false positive も増加してしまう統計解析を行う前にデータの Quality Control を行うことで false positive の数を減らすことができる多重検定補正 (multiple testing correction:mtc) を行うことで更に false positive を減らすことができる Page 72

MPP の Multiple Testing Correction ( 多重検定補正 ) オプション Family-wise error rate (FWER) Bonferroni Bonferroni Holm False Discovery Rate (FDR) Benjamini Hochberg Individual (genewise) error rate (p-value cut-off) (Probability of false positive for each test) No Correction Page 73

Multiple Testing Correction の例以下の通り変数を定義します N = MTCを行う前にANOVAを通過したピーク数 P i = MTCを行わないピークiのp-value = ユーザーが設定したp-cutoff 値 P post i = MTCを行った後のピークiの p-value 計算を行うために以下の値を代入します N = 100 = 0.05 Page 74

Family-wise Error Rate MTC: Bonferroni 複数回繰り返された検定全体において帰無仮説が棄却される可能性を family-wise error rate と呼びます FWER = 0.05 で 100 個の化合物ピークを検定した時に P 1 = 0.0002 P 2 = 0.0004 P 3 = 0.0006.. P 100 という値であったとすると P post 1 = (0.0002)*(100) = 0.02 P post 2 = (0.0004)*(100) = 0.04 P post 3 = (0.0006)*(100) = 0.06 となります結果としては 0.02 < 0.05 化合物強度に有意差があると認められる 0.04 < 0.05 化合物強度に有意差があると認められる 0.06 > 0.05 化合物強度に有意差があるとは認められない Page 75

Family-wise error rate MTC の問題点と解決方法 Family-wise error rate の調整は何回検定を繰り返しても全体の α レベル (family-wise error rate) は 0.05 を超えないようにするぞ! という非常に保守的な方法ですしたがって本当は有意差があるのに帰無仮説が棄却されないという Type II (false negative) の誤りが問題になりますそこである程度 Type I (false positive) を許容して Type II を起こす可能性を小さくする方法の一つとして false discovery rate を調整するという方法が開発されました false discovery rate は簡単に言うと棄却された全ての帰無仮説のうち Type I が含まれている確率です Page 76

False Discovery Rate MTC: Benjamini & Hochberg 統計検定の結果 (ANOVA, two-sample t-tests etc.) から得られた 100 個の p-value を降順に並べます (P 1 >P 2 > >P N ) 例 : P 1 = 0.0499. P 65 = 0.0339 P 66 = 0.0333 P 67 = 0.0311 P 100 各 P-value に 100/( その番号 ) を掛けたものを P post i とします P post 65 =(100/65)* 0.0339 = 0.0522 - > 0.05 有意差は認められない P post 66 = (100/66)*0.0333 = 0.0505 - > 0.05 有意差は認められない P post 67 = (100/67)*0.0311 = 0.0464 - < 0.05 有意差が認められるよって p post 67 から p post 100 は有意差があるとしてその中に潜在的な false positive のピークは 5% ある Page 77

多重検定方法の使い分け > Family-wise Error Rate Bonferonni FWER Bonferonni Holm FWER Benjamini Hochberg FDR No Correction 非常に保守的で一切の False Positive を許さない > False Discovery Rate More false negatives More false positives MTC で検出されたピークに p-value 分の False Positive が存在する (False positive a percentage of called peaks) > None 検定で用いたピークに p-value 分の割合で False Positive が存在する (False positive a percentage of peaks being tested) Page 78

MPP の統計 Post Hoc Tests Page 79

なぜ post-hoc test が必要なのか? (1) One-way ANOVA model 帰無仮説 : グループ間の平均値に有意差はないと仮定 H 0 : µ 1 = µ 2 = µ 3 = µ 4 = µ 5 ここでは 1 つの化合物ピークで 5 つの条件を仮定しますここでもし H 0 が棄却されても何が棄却されたかといった情報は得られませんどの条件で棄却されたかを知るにはどうしたらいいでしょうか? Page 80

なぜ post-hoc test が必要なのか? (2) 可能な解決策 : 各条件の組み合わせで 2 群の t-test を実施する H 0 : µ 1 = µ 2 = µ 3 = µ 4 = µ 5 この場合 5 つの条件があるため全部で 10 通りの組み合わせの検定を行う必要がある複数回の検定 false positive の増加その他の解決策 : post-hoc test の実施 false positive を減らすことができる Page 81

Post-hoc Test MPP post-hoc test オプション : Tukey s Honestly Significant Difference (HSD) test Student-Newman-Keuls (SNK) test Tukey s と SNK の検定はいずれも正規化されて等しい分散であると仮定して実施されます One-way test で有意差があると認められた化合物ピークだけが Post-hoc test にかけられます Post-hoc test は正規化されて等しい分散であるという過程で選んだ One-way test で行った場合に妥当な結果が得られる有意差があると認められた化合物ピークについて各条件のピークアバンダンスの平均をペアで比較していきます Tukey の方が SNK よりも conservative な結果になります Post-hoc tests は MPP の One-way test で行うことができます Page 82

Post-hoc Tukey Test ANOVA で有意差が認められた化合物ピーク X の 5 つの条件について以下の帰無仮説を立てます H 0 : µ 1 = µ 2 = µ 3 = µ 4 = µ 5 ここで各条件での化合物ピークのアバンダンス平均を以下の通りとします X 1 = 32.1 X 2 = 40.2 X 3 = 41.1 X 4 = 44.1 X 5 = 58.3 それぞれの pairwise q to critical value q (for group) を計算し比較します 5 vs. 1: significant (reject H 0 : µ 5 = µ 1 ) 5 vs. 2: significant 5 vs. 3: significant 5 vs. 4: significant 4 vs. 1: significant 4 vs. 2: not significant (does not reject H 0 : µ 4 = µ 2 ) 4 vs. 3: not necessary 3 vs. 1: significant 3 vs. 2: not necessary 2 vs. 1: significant Final results: 32.1 40.2 41.1 44.1 58.3 or µ1 µ2= µ3= µ4 µ5 Page 83

Post-hoc Group サマリー結果青い Box は 2 つの条件で有意差が認められた化合物ピークの数になりますオレンジ色の Box は 2 つの条件で有意差が認められなかった化合物ピークの数になります Box をクリックした後に Union または Intersection いずれかをクリックするとボックスに含まれる化合物ピークの Entity リストを作成することができます Page 84

統計解析 N-way ANOVA Page 85

2-way ANOVA 2 変数の効果を確認するための検定 (Tests for effects of two parameters) 各サンプルは 2 つのパラメータから得られた値を持つ ( 例 :Treatment type and Time) 化合物ピークの変動は Treatment type Time 両者の相互作用によるもの?? 各化合物ピークについて 3 つの p-values が計算されます Generate p-value for effect of treatment Generate p-value for effect of time Generate p-value for effect of interaction between treatment and time (change in expression influenced by both parameters) Page 86

2-way ANOVA Design T I M E 0 wks 2 wks 6 wks n=3 n=3 n=3 n=3 n=3 n=3 Page 87

Acceptable Designs for Analysis in MPP ( 必要なサンプル数 ) バランスの取れた Design: 各条件で 5 回ずつサンプルされている All three p-values calculated No Drug Drug A Drug B Time 0 5 5 5 Time 1 5 5 5 Time 2 5 5 5 Time 3 5 5 5 バランスが取れていない Design: 条件によりサンプル数がバラバラ All three p-values calculated No Drug Drug A Drug B Time 0 3 4 2 Time 1 7 8 4 Time 2 9 11 5 Time 3 6 8 4 繰り返しのない Design: 各条件とも 1 サンプルしかデータが得られていない Interaction p-values will not be calculated No Drug Drug A Drug B Time 0 1 1 1 Time 1 1 1 1 Time 2 1 1 1 Time 3 1 1 1 サンプル数が 0 の条件がある : Test will not be performed No Drug Drug A Drug B Time 0 7 7 0 Time 1 7 8 4 Time 2 9 11 5 Time 3 6 8 4 Page 88

2-way Test Results Venn 図で必要な条件を満たす部分をクリックしてその条件を満たす化合物ピークを Entity List として保存できます Page 89

3-way ANOVA 3 変数の効果を確認するための検定各サンプルは 3 つのパラメータから得られた値を持つ ( 例 :Treatment type, Time and Gender) 化合物ピークの変動は 1) treatment types, 2) different time points, 3) different gender, 4) interaction of treatment-time, 5) interaction of treatment-gender, 6) interaction of time-gender 7) or the interaction between treatment-time-gender のどれによって引き起こされているか? 各化合物ピークについて上記の 7 つのそれぞれの p-values が計算されます Page 90

3-way ANOVA Results 各化合物ピークで, 7 つの p-values が計算されます 7 つの Entity Lists が作成され各条件相互作用の p-value がそれぞれ含まれています Empty lists will not be saved Page 91

Fold Change Fold change は 2 つの条件における化合物ピークの強度レベルを比較して違いを判別する測定基準ですユーザーは 2 倍 (2-fold) といったような閾値を設定することができます Fold Change ではそれぞれの化合物ピークに対して条件 1 のアバンダンス平均に対する条件 2 のアバンダンス平均の比で表わされます化合物ピークのピークが 2 つの条件で増えたか減ったかを表示することができます Page 92

Fold Change による entity の絞り込み Next 3 群比較で A 対 B B 対 C C 対 A において強度比が一定数以上変化している entity を残しますチェックボックスは全て入れてください Next Next Fold Change により entity が絞り込まれました Fold Change パラメーターはデフォルトで 2.0 になっていますがこの数値を大きくするとより化合物数が絞られますスライダーではきりのいい値になりませんので (3.0 ではなく 3.019 などとなる ) 値をキー入力し Enter キーを押すことでフィルター値が反映されます Page 93

2 群間比較を Scatter Plot で表示する 2 Tea 2 に特徴的 Tea 1 に特徴的 Scatter Plot は 2 群間の比較しか出来ませんがシンプルで理解しやすい表示方法です X 軸 y 軸はそれぞれサンプル群の中から選択しプロット画面右下方向のものほど x 軸群に特徴的プロット画面左上方向のものほど y 軸群に特徴的な成分であることを示しています右クリックで zoom mode を選択しマウスをドラッグさせれば選択した領域の拡大を行うことができます初期設定では Selection Mode になっているためマウスをドラッグさせると Entity の選択を行うことができます選択した Entity は Create entity list from selection (2) から別リストにまとめることが可能です Page 94

Volcano Plot(1/3) Next >> 比較する 2 つの Condition を指定します Next >> Page 95

P-value ( 上ほど小さい = 有意差がある ) Volcano Plot(2/3) 結果の表示 (Volcano Plot) Next >> サンプル群 1 に多いサンプル群 2 に多い Volcano Plot は t 検定と Fold Change を同時に行えるので二群比較に便利な機能です三群以上の比較には使用することが出来ません Cut-off 値を調整できます Page 96

Volcano Plot(3/3) Page 97

クラスター分析とは? クラスターは似たグループを集めて視覚化する統計解析の手法です A クラスター間の距離 ( 類似度 ) を樹形図 ( ツリー ) で表したものをデンドログラムと呼びますツリーの高さが各クラスタ間の距離となりこのようなクラスターを階層型クラスタリングといいます C B D D B C A Page 98

Clustering Clustering は教師なしの分類の方法と呼ばれておりデータセットのパターンを表示する方法です Clustering は化合物ピークを類似度の高いグループに分けます entity-level の clustering から同じクラスタに属する化合物ピークは何らかの関連があると推察することができます sample level の clustering からサンプルレベルの Quality Control が行え異なる条件で違いを示す化合物ピークを見つけることができます Page 99

階層型クラスタツリーの例 : 似たコンポーネントを集める 1 クラスタツリー中の 1 つ 1 つのマスが各データファイルに含まれるコンポーネント ( 化合物ピーク ) を表しますコンポーネントのアバンダンス ( 強度 ) は色で表示されています Low High 3 似た変動パターンを示すデータファイル ( サンプル ) 同士を近くに配置してツリー ( 線 ) でつないでいますツリーの高さがサンプルの類似度を表しています 4 特定のグループの特徴的なコンポネントが一まとまり ( クラスター ) に表示されます横方向はコンポーネント ( 化合物ピーク ) 2 似た変動を示すコンポーネント同士を近くに配置してツリー ( 線 ) でつないでいますツリーの高さがコンポーネントの類似度を表していますグループ A B C D 縦方向はデータファイル ( サンプル ) Page 100

クラスタの作成で考慮する点 1) 何をクラスタで一緒にまとめたいか? 2) どの類似度を選択するか? 3) どのクラスタアルゴリズムで計算するか? Page 101

階層型クラスタリングの長所と短所長所 : 全ての関連性ツリーが構築されるため K-means や自己組織化マップ (SOM) PCA に基づいたクラスタリング手法よりも詳細な情報が得られます短所 : 類似度指標の算出法によっては解析初期段階の小さな誤差が大きな差として出力される恐れがありますクラスター毎の entity list を直接出力できない為ツリーからマニュアルで出力する必要があります Page 102

K-means クラスタリングの長所と短所長所 : 計算速度が最も速いクラスタリング手法でメモリ使用量も最小で済みます短所 : クラスターの数が適切でないと正しく分類されない可能性がありますクラスター間の関連性及び同一クラスター内の化合物間の関連性について情報が得られません Page 103

クラスタを作成するためにどのような類似度を選択するか類似度の指標は Entity や Condition の近さを数学的に計算して算出されます指標は類似度の計算式によって異なります ( 同じサンプルでも ) 全体のトレンドを強調する指標もあれば大きさを強調する指標もあります類似度の指標は以下の組み合わせの類似度の度合によって割り当てられます Entity の変動プロファイルの組み合わせ Sample/Condition の変動プロファイルの組み合わせ Page 104

MPP で使用できる類似度の指標それぞれの類似度は以下の 2 種類のいずれかの値を持ち類似度を数値化します距離 (0 から無限大 ) 相関 (-1 to 1) MPPで使用できる類似度 (Similarity) Euclidian Squared Euclidian Manhattan Chebyshev Differential Pearson Absolute Pearson Centered Pearson Uncentered Page 105

類似度類似度の指標は適切なものを選択する必要があります例カテゴリデータへ Euclidian 距離を当てはめるのは適切ではない高度に歪んだ分布に対して相関の類似度を当てはめると誤った結果をもたらすことがある Page 106

クラスタ分析 (1/6) k-means: あらかじめクラスタ数 (k) を指定して Entity を分類します Hierarchical: 階層型クラスタツリーを作成します Self Organization Map: 自己組織マップで Entity を分類します Page 107

クラスタ分析 (2/6) Finish Page 108

クラスタ分析 (3/6) 次々ページで説明サイズ調整します Page 109 サイズ調整します

クラスタ分析 (4/6) 選んだ部分が拡大されます 110

クラスタ分析 (5/6) Properties を選択します次に Create Classification でクラスター数を確認し OK 押します Entity clusters color threshold を調整して大まかなクラスターに色分けされていることを確認します Page 111

クラスタ分析 (6/6) ダブルクリックすると各クラスタに分類された結果が表示されます Page 112

表示色やレイアウトを変更したいのですがクラスター分析結果の画面上で右クリックし Properties を選択してください Row Headers を Compound に設定すると分析結果の右側に化合物情報が表示されます Color Range を設定することで強度比の色を変えることが出来ます Rendering タブ中の Row Header Width をスライドさせることで表示させる化合物情報の幅を設定することが出来ます Page 113

ID Browser による化合物推定 MPP でライブラリサーチを行う機能です (Mass Hunter も同じ機能を有しています ) Entity のマススペクトル化学構造式 ( データベースインストール時のみ使用可能 ) Entity とライブラリのマススペクトルの同時表示ライブラリのマススペクトル検索結果 Page 115

効率よく entity (=compound) を ID するにはこの化合物のみ ID したい ID Browser は現在開いている entity list の全 entity を METLIN+ 組成式計算で ID します Entity 数が数十であれば計算時間は 10 秒程度で済みますが左図の様に 100-1000 以上の entity となると化合物を 1 つ ID する度に全 entity を読み込ませていては解析が非効率なものとなりますそこでマウスをドラッグさせて興味のある化合物のみを選択し ( 緑色に変わります ) Create entity list のアイコンをクリックすることで ID Browser に持ち込む化合物を絞ることが効率の良い解析のコツになります Page 116

ID Browser の設定 Next Finish デフォルトの設定では 1) DB は METLIN で 5ppm 以内の精度で保持時間を加味せず質量のみで検索 2) 組成式は右図の構成元素で計算となっております DB 検索結果と組成式結果が違うということを避けるために DB の Torerance は 2ppm 程度にした方が良いでしょう Page 117

ID Browser の実行結果 DB 検索及び組成式計算が終了すると Compound List が表示されますここには組成式 CAS 番号化合物名などが表示されますまたこの Compound List は MassHunter Qual. のものと同じもので Cef ファイルの中には化合物名組成式 CAS 番号などの情報が含まれていますよって MassHunter Qual. 上から Find by Molecular Feature Find by Formula 等の機能を使用して Compound List を作成した後 Identify compounds > Search Database や Generate Formula を行い Compound List に名前や組成式を付けた状態で File > Export > as cef を実行して MPP の標準形式である.cef ファイルを作成すると MPP の Entity に保持時間質量だけでなく名前や ID 情報も annotation として付いてくるので entity の絞込みが楽になります後述する Pathway 解析は CAS 番号を基に代謝マップに当てはめていくので DB に CAS 番号が含まれていない場合は Manual Identification 機能を使い CAS 番号を入力します ( 次ページ参照 ) Page 118

Manual Identification の実行 ID Browser 上で Compound を選び右クリックをすると Add/Edit Manual Identification が選択できますここで現れるウィンドウで CAS ID を指定するとその番号が Compound List に張り付くので Save and Return を実行すればマニュアルで ID した結果をパスウェイ解析に持ち込むことができます Page 119

Class Prediction ( 判別分析 ) sample class prediction model 作成のためには再現性の良い Entity を選ぶことが重要です Page 120

Class Prediction ( 判別分析 1/8) Page 121

Class Prediction ( 判別分析 1/8) Page 122

Class Prediction ( 判別分析 2/8) アルゴリズムを選択して Next をクリックします Page 123

Class Prediction ( 判別分析 3/8) Page 124

Class Prediction ( 判別分析 4/8) Page 125

Class Prediction ( 判別分析 5/8) 判別したい未知サンプルを選択します Page 126

Class Prediction ( 判別分析 5/8) Page 127

Class Prediction ( 判別分析 6/8) Page 128

Class Prediction ( 判別分析 7/8) Page 129

Class Prediction ( 判別分析 8/8) Page 130

Class Prediction ( 判別分析 ) Page 131

Class Prediction ( 判別分析 ) 判別モデルを選択します例 :Naïve Bayes Page 132

Class Prediction ( 判別分析 ) 判別したい未知サンプルを選択します Page 133

Class Prediction ( 判別分析 ) Page 134

Class Prediction ( 判別分析 ) Page 135

Class Prediction ( 判別分析 ) Page 136

判別モデルのアルゴリズム (1) -Decision Tree ( 決定木 )- Entity Sample 1 Sample 2 Sample 3 Entity1 243@2.49min 2200 1000 2500 Entity2 117@5.58min 1800 1500 2900 No Entity 1 >2000? Yes Sample 2 Yes Entity 2 >2000? No Sample 3 Sample 1 Page 137

判別モデルのアルゴリズム (2) -Support Vector Machine ( サポートベクターマシン, SVM)- Condition 1 Condition 3 Condition 2 サポートベクターマシンは各点からのマージンを最大化する超平面 (separation plane) を学習する方法です Page 138

判別モデルのアルゴリズム (3) -Naïve Bayes ( 単純ベイズ )- ベイズ分類器は連続した値 ( イオン強度など ) カテゴリー値 ( アンケートの 1. 悪い ~5. 良い ) の両方を扱うことが可能で複数のクラスに分類することができるアルゴリズムですこの判別アルゴリズムはサンプルが各クラスに属する確率を予測しますベイズ分類器モデルは各化合物に対する既知データの分布関数に基づいて構築され学習した確率密度関数に基づいてデータポイントを分類します Entity 1 Condition 1 Entity 2 Max probability? Condition 2 Entity 3 Condition 3 入力分布関数確率 ( 各化合物の強度 ) 出力 ( 予測クラス = 最大確率を持つcondition) Page 139

判別モデルのアルゴリズム (4) -Neural Network ( ニューラルネットワーク )- Entity 1 Condition 1 Entity 2 Entity 3 Max score? Condition 2 Entity 4 Condition 3 Entity 5 入力 ( 各化合物の強度 ) Neurons 出力 ( 予測クラス = 最大スコアを持つ condition) Page 140

判別モデルのアルゴリズム (5) -Partial Least Square Discrimination (PLS 回帰分析 )- PLS 回帰分析のゴールは化合物強度からクラスを予測することです PLS 回帰分析は化合物とクラスを直交成分と各化合物毎のローディングとして分解します Entity 1 Entity 2 Condition 1 Entity 3 Max score? Condition 2 Entity 4 Entity 5 ローディング ( 重み ) スコア Condition 3 入力 ( 各化合物の強度 ) 出力 ( 予測クラス = 最大スコアを持つ condition) Page 141

MassHunter 上での確認検索や化合物の絞り込み結果が得られたら結果の xxx.cef を作成します MassHunter Qual ソフトを開き該当データを開いた後に上記 xxx.cef を開いて実行するとリストされた化合物のマスクロマトグラムマススペクトルが表示されます Page 143

化合物抽出条件これらの条件に基づいてマスクロマトグラムマススペクトルを抽出します 144

便利な機能 Page 145

便利な機能 1:Create Entity List 選択された Entity の Entity List を作成興味ある Entity を選択します右クリックして Zoom Mode も使えます選択した 5 Entities List が作成されました Page 146

便利な機能 2:Find Similar Entities Compound や Mass のタイトルクリックしてソートし例 :Caffeine を選択します Page 147

便利な機能 2:Find Similar Entities Minimum, Maximum を調整して似た挙動の Entities を選択します Page 148

便利な機能 2:Find Similar Entities Caffeine と似た挙動の 16 Entities が抽出されました Page 149

便利な機能 3: Data Spreadsheet 解析結果を Excel に出力する場合は Data Spreadsheet を選択し右クリックから Select All Sheet を選びコピーします強度は log 表記されていますので 1.0 は検出されなかったデータ抽出されなかったことを示しています Page 150

便利な機能 4: ディレクトリとバックアップ Mass Profiler Professional では.doc や.xls ファイルの様に windows 上で experiment を削除することはできません ( 厳密には C:\Program Files\Agilent\MassHunter\Workstaion\MassProfilerPro\app\Data\files\gxuser に Experiment は保存されてはいますが名前から判断できないファイル名になっています ) Experiment の削除は Mass Profiler Professional 上から行なってくださいまた experiment を保存し後日別の PC で解析を行なう場合やバックアップには Project Export Project から.tar ファイルとして保存してください Page 151

便利な機能 5:Venn 図 Venn 図を表示する最大 4Entity リストから集合の考え方で絞込みできます Page 152

便利な機能 6:MPP のインストール方法 Use proxy のチェックボックスは記入せず proxy も空欄のまま Order ID を入力し OK を押します Page 153

便利な機能 7-1: Filter On Parameters 事前に Experiment Grouping で Parameter type が Numeric のパラメーターを作成します仮にブルーマウンテンの活性を 1 とした場合キリマンジャロが 2 モカが 3 としてその活性と相関する Entyty を探す例とします Page 154

便利な機能 7-2: Filter On Parameters Analysis から Filter on parameter を選択します Entity List Interpretation 相関を探したい Parameter Similarity Metric を選択しますピアソン相関係数は線形の相関解析なので非線形の相関を解析したい場合はスピアマン順位相関係数を使用します Page 155

便利な機能 7-3: Filter On Parameters Cutoff 値のレンジは 1 に近いと相関 0 で相関なし -1 に近いと逆相関です Next ボタンで次に進み名前を確認して Finish ボタンで Entity List を保存します Page 156