Mass Profiler Professional 簡易マニュアル マニュアル作成環境 : ( 旧版を下記で改定 ) Mass Profiler Professional B12.5 Build 179640 MassHunter Qualitative Analysis B.05.00 SP1 Page 1
Mass Profiler Professional の主な機能 機能 特徴 Fold Change t- 検定 (2 群 ) ANOVA(3 群以上 ) Volcano Plot 主成分分析 (PCA) クラスタ分析 Class Prediction ( 判別予測 判別分析 ) Pathway 分析 ( オプション ) グループ間の平均で閾値以上のコンポーネントを抽出します グループ間で平均値とばらつきから グループ間で変動があると判断されるコンポーネントを抽出します Fold Change と t- 検定を同時に行います サンプル全体の大まかな傾向を視覚化します 多変数 ( コンポーネント ) を集約し 各データファイル ( サンプル ) の総合得点 ( スコア ) を算出して 表示します 各コンポーネントの係数 ( ローディング ) とスコアの関係から コンポーネントの考察を行うことができます 似た変動のコンポーネントを集めて視覚化します グループ間の違いを表すコンポーネントと分類の基準値 ( コンポーネントのアバンダンス ) を探し出し サンプルをグループで分類します 分類後にコンポーネントと基準値が妥当かどうかの確認を行います バイオマーカー探索で主に用いられる機能 コンポーネントのライブラリサーチ結果から化合物の代謝経路などを推定し Pathway と呼ばれる化合物の反応経路の地図に落とし込む機能です Page 2
MassHunter と MPP 用いた解析の流れ MassHunter MS や RT の再現性良好なデータ xxx.d xxx.cef 変換 cef MPP 1Experiment 作成強度正規化条件選択 1. None 2. Z-Transform 3. Baseline to (median/ mean) of (all/control) 定型 Wizard samples Analysis: Significance Testing and Fold Change Class Prediction: Build and Test Model cef 2Analysis ( 差異の検出 ) Volcano Plot Clustering PCA etc MassHunter 必須 : マスクロマトグラムとマススペクトルで確認 データベースサーチや組成式計算等 3 候補検出後確認 Export for Recursion で化合物リスト作成 ID Browser で化合物検索 Data Import Wizard 任意 Workflow Page 3
CEF ファイル作成方法概要 (Agilent MassHunter ユーザーのみ ) 1 該当データ上で右クリックします 2Export as CEF を選択します 3 データ保存先等設定します 4OK をクリックします 処理するデータファイル数と Compounds 数によっては処理に長時間かかります Molecular Feature Extractor 詳細は MassHunter ガイドブックに記載されています Page 4
MPP ソフトの概念と用語 1 Project Experiment Sample Entity ユーザーがデータを格納するワークスペースです MPP を複数人で共有する場合など各個人でプロジェクトを作ると 閲覧権限等は設定できませんが データを分けることができます 用途の異なるデータは混乱を招くため異なるプロジェクトにしたほうが無難です エクスペリメントはデータの解析単位になります シグナルデータのインポートを行うとエクスペリメントが 1 つできます ノーマライズはエクスペリメント単位で決定され変更することはできません GC/MS や LC/MS のデータです データファイル名が Sample 名になります LC/MS の場合は MFE で抽出された Feature です サンプルごとの強度変動情報が含まれます Project A Experiment 1 Sample ( データファイルセット ) Condition ( サンプルのグループ化情報 ) Entity List ( クロマトグラムピークリスト ) Object ( クラスタツリー 判別モデル等 ) Experiment 拡大 1 つ 1 つが RT, 分子量, 強度情報を持つデータ = Entity = Feature Experiment 2 Sample ( データファイルセット ) Condition ( サンプルのグループ化情報 ) Entity List ( クロマトグラムピークリスト ) Object ( クラスタツリー 判別モデル等 ) A B C D E F LC/MS 注入 1 回分のデータ = Sample 例 : コーヒー豆種類 = Parameter A, B, C, etc. = Condition Experiment は他の Project へコピーすることもできます Page 5
MPP ソフトの概念と用語 2 既にある Experiment を Project に追加する 選択された Entity List の Inspector を表示する 散布図を表示する ヒストグラムを表示する Venn 図を表示する ヒートマップを表示する 各サンプルの統計情報を表示する 新しい Pathway を作成する プロジェクトを閉じる Experiment を作成する 選択された Entity の Entity List を作成する CSV などで作成したファイルを Entity List として Import する Profile Plot を表示する マトリクスプロットを表示する 箱髭図を表示する スプレッドシートを表示する (Normal/Raw Abundance で選択可能 ) Interpretations Analysis Interpretation は MPP で読み込んだ Sample( データファイル ) をグループ化して表示させる方法です Interpretation の元になるのは Parameter です 1 つの Sample に複数の Parameter が設定されている場合に どの Parameter でグループ化して表示し クラスタ分析や t- 検定 PCA などを行うかを決めます 該当する Sample( データファイル ) を選択した Interpretation で解析した結果です Interpretations( グループ定義 ) Analysis(Entity List 及び解析結果のオブジェクト ) Page 6
MPP 用語集 1 MPP の用語 意味 アライメントは英語の 位置合わせ の意味で MPP では Entity を作成する際に行われます Alignment ( アライメント ) LC/MS や GC/MS のデータを読み込む際 複数の Sample( データファイル ) からそれぞれの化合物ピークの強度を 1 つのピーク情報としてまとめる必要があります ただ LC/MS も GC/MS も 測定毎に多少リテンションタイムや MS の m/z がずれることがあります アライメントは このような測定誤差を考慮して リテンションタイムや m/z の許容誤差を設定します MPP へ読み込まれた複数のデータファイルのピークリスト (CEF ファイルや ELU ファイル ) に含まれるピークの情報 ( リテンションタイム m/z ピーク強度 ) から アライメントの許容誤差範囲内のピーク同士をまとめて 1 つの Entity とします Condition Entity Hierarchical Cluster ( 階層型クラスタ ) 分析 許容誤差から外れたピークは 別の Entity として MPP で扱われます 設定されたパラメータ内にある各条件です Parameter が経時変化なら 1 時間 2 時間 3 時間 が Condition Parameter が製造場所なら A 工場 B 工場 C 工場 が Condition に相当します MPP 用語集の Parameter も参照 Entity は MPP のデータの取り扱い単位の一つで GC/MS や LC/MS のデータに含まれる化合物ピークのことを指します Entityには 化合物ピークのリテンションタイム モデルイオン (m/z) 各サンプルのピーク強度が含まれます 階層型クラスタツリーは データファイル間の距離を測り 距離の近いもの同士をまとめてクラスタとしてまとめていく手法です 以下の手順で計算されます 1. データファイル間の距離 (MPPではピーク強度の変動パターンの類似度) を全て測定する 2. 距離の近いデータ同士をそれぞれまとめてクラスタを作る 3. それぞれのクラスタの位置 ( 重心など ) を計算する 4. クラスタ同士の位置を測定し 近いものをクラスタとしてまとめる 5. 新しくできたクラスタの位置を計算する 6.4 5を 1つのクラスタになるまで繰り返す 階層型クラスタは 計算が煩雑であるものの k-means 法のような 予めいくつのクラスタに分ける ことが不要なため 適用範囲が広い手法と言えます 階層型クラスタでは データやクラスタ間の距離を デンドログラム というツリーで表します デンドログラムの距離が離れているクラスタやデータ同士は 類似度が低くなります 階層型クラスタ分析では クラスタの位置や クラスタ間の距離をどのように定義するかで 結果が異なることがあります 例えば 距離の位置の定義を クラスタ間の最短距離 とするか 最長距離 とするかで クラスタ間の違いを過小 過大評価することになります また 距離の測定方法も MPP ではいくつかの手法が提供されており デンドログラムのクラスタ間の距離に影響を与えます Page 7
MPP 用語集 2 MPPの用語 Indentified Interpretation k-means Parameter Unidentified LC/MS(TOF,Q-TOF) や GC/MSD のデータを MPP に読み込む際に 化合物名が ( ライブラリサーチなどで ) 推定された ピークリストをのことを Identified なピークリストといいます 意味 また GC/QQQ LC/QQQのMRMデータ GC/MSDのスクリーナー結果も Identified の形式でMPPに読み込まれます Interpretationは MPPで読み込んだSample( データファイル ) をグループ化して表示させる方法です Interpretationの元になるのは Parameter(HelpファイルにはConditionとも表記されることあり ) です 1つのSampleに複数のParameterが設定されている場合に どのParameterでグループ化して表示し クラスタ分析やt- 検定 PCAなどを行うかを決めます また 1つのParameterで複数回測定したデータ ( レプリケイト ; 再現性などの確認のために取られたデータ ) の強度を平均化するかどうかも 設定することができます k-meansクラスタ方は 古くから行われているクラスタ分析法で データをあらかじめ k 個 のクラスタに分けることを決めてから 実際にデータを整理していく手法のことです 例えば あるデータの散布図上にある測定データを 4 個 に分類する と決めてクラスタ分析を行う場合 4k-means 法といいます 実際の計算は 以下のとおりです 1. 散布図上にランダムに4 点のポイントを置く 2. データファイルと4 点のポイントとの距離を測り データファイルを一番近いポイントとして分類する ( データファイルは4つのクラスタに分類される ) 3. 各クラスタの重心を計算する (4つの重心が求まる) 4.3で求めた重心と 各データとの距離を測り データファイルを一番近いポイントとして分類する ( データファイルは4つのクラスタに分類される ) 5. 上記 3 4を 重心が移動しなくなるまで繰り返す k-means 法は計算もそれほど煩雑でないため古くから行われていた手法ですが 最初のクラスタ数 (kの値) をどのように決めるかで結果が異なるため kの値が既知の実験でないと妥当性のある結果が得られない と言われております そのため MPPのクラスタ分析は k-means 法よりもHierarchical Cluster ( 階層型クラスタ ) をまず行い その結果から妥当なkの数を見つけてk- means 法でEntityを分類するワークフローが提案されています Parameterは実験条件のことで データを測定した条件のことを指します 1 時間 2 時間 3 時間がConditionなら 経時変化 がParameter A 工場 B 工場 C 工場がConditionなら 製造場所 がParameterに相当します Conditionをまとめる概念です Unidentifiedは MPPにLC/MS(TOF,Q-TOF) やGC/MSDのデータファイルを読み込む際に 化合物名が ( ライブラリサーチなどで ) 推定されていない ピークリストをのことをいいます Unidentified で読み込まれた Entity の Compound Name は m/z@rt の形式で名前が付けられます GC/MSD の AMDIS の場合は ELU ファイルを Unidentified ファイルとして読み込みますが AMDIS の Identified のピークリストである FIN ファイルに含まれるピークは ELU ファイルにも含まれます Page 8
Mass Profiler Pro. (MPP) のワークフロー その前に データの準備 分けて見つける 実験計画を検討する 目的 仮説など ChemStation, MassHunter でデータを取る 統計的有意差による Entity 抽出 t- 検定 ANOVA 解析 PCA( 主成分分析 ) 階層型クラスタ分析 条件を満たす Entity を探す (Venn 図 ) データファイルの読み込み Entity List の作成 ピークアライメント (Entity の作成 ) グループ定義 IDBrowser ( 化合物の推定 ) 推定する Class Prediction ( 判別分析 ) Entity のフィルター ( ノイズ除去 ) 詳細のクロマトグラム マススペクトルを解析する Entity List の出力 ChemStation, MassHunter での解析 Page 9
MPP による解析に持ち込むまでの Agilent プラットフォームのデータ処理概略 LC/MS 分析装置 GC/MS Nontarget MFE (.cef) TOF, QTOF TOF, QTOF QQQ ICP-MS SQ SQ QQQ or or QQQ QQQ Target analysis or Non-target analysis Find by Formula (.cef) Unidentified or Combined experiment Target target analysis Quant Report (.xml) Identified experiment Target analysis Quant Report (.xls,.csv) Identified experiment Nontarget AMDIS (.elu) ChemStation Target analysis or Non-target analysis Quant Report (.xml) Unidentified or Combined experiment Target Identified experiment Target analysis Quant Report (.xml) Identified experiment Page 10
Mass Profiler Pro. (MPP) のワークフロー データの準備 分けて見つける 実験計画を検討する 目的 仮説など ChemStation, MassHunter でデータを取る 統計的有意差による Entity 抽出 t- 検定 ANOVA 解析 PCA( 主成分分析 ) 階層型クラスタ分析 条件を満たす Entity を探す (Venn 図 ) データファイルの読み込み Entity List の作成 ピークアライメント (Entity の作成 ) グループ定義 IDBrowser ( 化合物の推定 ) 推定する Class Prediction ( 判別分析 ) Entity のフィルター ( ノイズ除去 ) 詳細のクロマトグラム マススペクトルを解析する Entity List の出力 ChemStation, MassHunter での解析 Page 11
Analysis Workflow(Baselining Option 設定後に起動 ) Summary Report Experiment Grouping (Interpretation も作成 ) Filter Flags Significance Analysis/Fold Change QC on samples ( 表示のみ ) Filter By Frequency ID Browser Identification Finish!! Page 12
Workflow(Baselining Option 設定後 ) メニュー一覧 主に上から順に設定します Page 13
MPP 起動 Page 14
Project と Experiment 作成 (1/2) Project は experiment の上位構造です ( 例 :project 名 metabolites Experiment 名 LCMS_positive, negative, GCMS_positive, negaive など ) project Experiment 1 Experiment 2 Page 15
Project と Experiment 作成 (2/2) まずは MPP オプションがある場合は Pathway も選択可 同定 未同定混合の場合は Combined MRM データ等 全化合物が同定されている場合は Identified 化合物が全く同定されていない場合は Unidentified 重要 : 正しく選択してください この画面は合成してあります Data Import: データ取り込み Analysis: 限定された解析の流れ Class Prediction: 判別分析 Page 16
Data Import Wizard の流れ : MS Experiment Creation Wizard (1/11) TOF LC/MS データ Pathway 解析 (page 155) の場合のみ正しく選択することが必須です Page 17
MS Experiment Creation Wizard (2/11) Page 18
MS Experiment Creation Wizard (2/11) Page 19
MS Experiment Creation Wizard (5/11) Sample の表示順番を変更できます Page 20
MS Experiment Creation Wizard (6/11) 最終的に全てにグループ名を付けます Page 21
MS Experiment Creation Wizard (7/11) 特定の保持時間領域のみでの比較や一定のイオン強度以上の化合物のみで比較を行いたいときに使用します 一般には全データを使用する設定にします Page 22
MS Experiment Creation Wizard (8/11) 化合物のアライメント (LC/MS の場合 ) RT Window= 0.1% + 0.15 min Mass Window= 5.0 ppm + 2.0 mda 既知物質を用いて保持時間の補正を行なう場合 Perform RT correlation をチェックし with standards を選択します CE/MS では MT(MPP 内では RT と表示されます ), m/z によるアラインメントを測定条件によって変化させますが この値を大きくすると異なる化合物を同一と誤認識するフォールスポジティブのリスクが高くなりますので注意が必要です 具体例は後述します Page 23
MS Experiment Creation Wizard (9/11) 点の色は Frequency を表します 再現性の悪いものは赤色で 全てのサンプルに共通して存在し アライメントされたものは青色で表示されます アライメント条件が厳しいと Frequency が低い Entity が増えます 結果を見ながら必要に応じて Back ボタンで前画面に戻り アライメント条件や Filter 条件を修正します Page 24
MS Experiment Creation Wizard (10/11) 既知物質を用いてイオン強度の補正をする場合に使用します Page 25
MS Experiment Creation Wizard (11/11) 化合物強度の正規化を行ないます 次ページから詳しく説明しますが サンプル間の変動の絶対値で比較したい場合は Baseline to (median / mean) of (all / control) across samples サンプル間の変動の比率で比較したい場合は Z-Transform を選択してください 化合物間のダイナミックレンジが広い 生体サンプルなどの分析には Z-Transform を推奨します Page 26
正規化 (1) None 各正規化法による化合物強度の差をプロットする例として 左下テーブルの様な実験データが得られたとします Baselining options で None を選択すると 正規化は行われません よって 全て raw data abundance で比較することになるので 直観的には理解しやすいのですが 正規化を行うと Normalized abundance = 0 は必ずしも raw data abundance = 0 を意味しなくなります 他に存在量の多い化合物が存在すると ( ここでは compound 2) 存在量の少ない化合物の変動が相対的に小さなものとされてしまいます compound 1 compound 2 sample A 0 900000 sample B 1000 1000000 sample C 1100 970000 1200000 1000000 800000 600000 400000 compound 1 compound 2 200000 0 sample A sample B sample C Page 27
正規化 (2) Baseline to (median / mean) of (all / control) across samples 前ページで示された化合物強度を中央値か平均値で正規化します 下記は 各化合物の中央値との間の差に変換する場合の説明です (eg. Compound 1: 中央値 =1000, Normalized abundance of A = 0-1000 = -1000) 中央値を Normalized abundance = 0 とするため 絶対値の変動の大きい化合物が強調されますが 化合物間で広いダイナミックレンジを持つサンプルでは 変動比率が大きくても強度変動の絶対値が小さい化合物は全く変動していないかの様に見えてしまいます compound 1 compound 2 sample A 0 900000 40000 sample B 1000 1000000 sample C 1100 970000 正規化 median 20000 0-20000 sample A sample B sample C compound 1 compound 2 compound 1 compound 2-40000 sample A -1000-70000 sample B 0 30000 sample C 100 0-60000 -80000 Page 28
正規化 (3) Z-Transform Z-Transform は強度変動の比率を考慮した正規化方法です Baselining options で Z-Transform を選択すると 各化合物強度は前ページで求めた 各化合物の中央値との差をそれぞれの化合物強度の標本分散で割った値に変換されます 生体由来などの様に存在量の多い化合物 微量な化合物が混在しているサンプルでは有効な手法ですが Quality Control を行い 信頼性の低い ( サンプル群内の繰り返し再現性をチェックすることで除去することが出来ます )entity を除かなければ相対強度 0.1% から 1.0% に増加したノイズを 10 倍に変動した化合物とみなしてしまうことになります compound 1 compound 2 sample A 0 900000 sample B 1000 1000000 sample C 1100 970000 正規化 compound 1 compound 2 sample A -0.004054054-3.98734E-05 sample B 0 1.70886E-05 sample C 0.000405405 0 0.001 0.0005 0-0.0005-0.001-0.0015-0.002-0.0025-0.003-0.0035-0.004-0.0045 sample A sample B sample C compound 1 compound 2 Page 29
MS Experiment Creation ( 正規化 None) 全く同一データですが 縦軸の正規化の違いだけで大きく見え方が異なることに注意が必要です Page 30
MS Experiment Creation ( 正規化 Z-transform) 全く同一データですが 縦軸の正規化の違いだけで大きく見え方が異なることに注意が必要です Page 31
データの準備 実験計画を検討する 目的 仮説など ChemStation, MassHunter でデータを取る 統計的有意差による Entity 抽出 t- 検定 ANOVA 解析 PCA( 主成分分析 ) 分けて見つける 階層型クラスタ分析 条件を満たす Entity を探す (Venn 図 ) データファイルの読み込み Entity List の作成 ピークアライメント (Entity の作成 ) グループ定義 IDBrowser ( 化合物の推定 ) 推定する Class Prediction ( 判別分析 ) Entity のフィルター ( ノイズ除去 ) 詳細のクロマトグラム マススペクトルを解析する Entity List の出力 ChemStation, MassHunter での解析 Page 32
サンプル群の定義 p.21 で設定済みの場合は不要です Experiment Grouping を選択し グループを示すパラメーターを与えます 仮に n=4 で測定した場合 その 4 つのファイルが同一の群であることを宣言しなければなりません 群を表すパラメーターは複数設定することができます ( 例 : 男性 or 女性 20 代 or30 代 or40 代 日本人 or アメリカ人 or 中国人 ) Page 33
同じパラメーターを繰り返し入力するのは面倒なのですが どうにかなりませんか?? 指定したいサンプルをドラッグで選択後 Assign Values を選択すると 一括でパラメーターを入力することができます Page 34
Replicate はどの様に用意したら良いのでしょうか? また 1 つのサンプル群当たりどのくらいの replicate が必要なのでしょうか? T I M E 0 wks 2 wks 6 wks n=3 n=3 n=3 n=3 n=3 E n=3 3 injection Technical replicate A B C 1 injection D F 1 injection 1 injection Biological replicate Technical replicate から得られることが出来るのは測定誤差のみです 個体差を考慮することは出来ません また A を 3 回分析した結果を平均化することは厳密にはサンプル群 0wks, Treated を代表していることにはなりません 例え replicate の数を増やしていったとしても それは個体 A を代表した値になります Biological replicate は replicate 数を増やすことで サンプル群 ( 例 :2wks, Treated) の真値に近づくことが出来ます Replicate の適正数ですが Biological replicate であれば n=10 はほしいところです 実験のコスト ( 時間的なコスト含め ) を考えた上で設定してください 本マニュアルで使用しているデータは Technical replicate, n=3 の実験系になっています Page 35
Interpretations (Categorical, Non-averaged) Create Interpretation を選択し Categorical と Non-Averaged では ばらつきを評価しやすい表示です Page 36
Interpretations (Categorical, Averaged) Create Interpretation を選択し Categorical と Averaged では各 Condition 毎の平均表示です 4 n x 6 group = 24 群という扱われ方だったのですが 4 回測定を平均化し 1 x 6group = 6 群の比較にまとめました Page 37
Interpretations (Numerical, Averaged) Create Interpretation を選択し Numerical と Averaged では各 Condition 毎の平均表示です 各 Condition 内での再現性が良好で計時変化を視覚化したい場合等に有効です 0 日目 1 日目 2 日目 3 日目 4 日目 5 日目 Page 38
サンプル群の表示順を並び替えたいのですが どうすればいいでしょうか? Columns タブ上で移動させたいサンプル群を選択し 上下に移動させてください Profile plot もしくは Matrix plot の画面上で右クリックをし Properties を選択してください 表示順の入れ替えは 平均化の前後どちらでも行うことが出来ます Page 39
QC: Filter を使って Entity 中から再現性の悪いデータポイントを除きます Filter by Frequency を選択し サンプル群内でシグナルが現れる頻度によってフィルターをかけることができます 具体的には n=3 測定中 2 回以上現れるデータポイントを採用するのであれば この値は 66.6% となります 次ページ参照 100% 66% Filter をかけることで Entity 数が絞り込まれていることを確認してください Page 40
Filter by Frequency の例 at least 100% of all samples at least 66% of samples within each condition at least 100% of samples in only one condition at least 100% of samples in at least one condition at least 66% of samples in at least one condition at least 66% of samples in only one condition ( 以下この組合せは省略 ) ( 以下この組合せは省略 ) 凡例 : 検出される : 検出されない Page 41
QC: Filter を使って Entity 中から再現性の悪いデータポイントを除きます (2) Filter by Sample Variability を選択し サンプル群内のシグナル強度の CV 値でフィルターをかけることができます 8 6 < 20% < 30% < 40% この項目は 全サンプル群中の何群で上記の再現性条件を満たしたかで Entity をフィルターすることを示しています 例では at least 8 out of 8 conditions となっていますので 8 群全てで CV 値が 30% 以下である化合物を残すことを意味しています Page 42
データの準備 実験計画を検討する 目的 仮説など ChemStation, MassHunter でデータを取る 統計的有意差による Entity 抽出 t- 検定 ANOVA 解析 PCA( 主成分分析 ) 分けて見つける 階層型クラスタ分析 条件を満たす Entity を探す (Venn 図 ) データファイルの読み込み Entity List の作成 ピークアライメント (Entity の作成 ) グループ定義 IDBrowser ( 化合物の推定 ) 推定する Class Prediction ( 判別分析 ) Entity のフィルター ( ノイズ除去 ) 詳細のクロマトグラム マススペクトルを解析する Entity List の出力 ChemStation, MassHunter での解析 Page 43
統計解析のためのツール 2 群比較 T 検定 ;2つのサンプル群について有意差があるかどうかを検定 Fold 解析 ;2つのサンプル群のデータから 何倍の差があるかでフィルターをかける機能 Volcano Plot ; t 検定と Fold 解析の結果を視覚化したもの t 検定 A 群 B 群 3 群以上比較 ANOVA( 分散分析 ) ; 3 群以上のデータからの有意差があるかどうかを検定 表現方法 主成分 (PCA) 分析 ; 大まかな傾向を視覚化するツール 95% 以上の確率でここに入る クラスタリング ; 差のある化合物どうしをまとめるツール 判別分析 ; 未知試料がどの母集団に属するかを調べるツール Page 44
T 検定の限界 2 群間比較のみ実験デザインが 3 群以上の場合 ANOVA が必須 分散 (Variance) が小さい場合 平均差が殆どなくても 統計的に差がある という結果が生じてしまう Fold 解析との組合せが有効 Volcano Plot ( page 95) T 検定だけでは 統計的に偽陽性を排除できない多重検定補正が必要 ( page 71) Page 45
PRINCIPAL COMPONENTS ANALYSIS (PCA, 主成分分析 ) Page 46
PCA Score Plot( 各サンプルの大まかな傾向を表示 ) 3D 表示 2D 表示 Page 47
主成分分析 (PCA) 主成分分析は 一般的に 多くの変量の値をできるだけ情報の損失なしに,1 個または少数個の総合的指標 ( スコア ) で代表させる方法です サンプル間の違いを LC/MS データのクロマトグラムピークの情報を元にして 以下の式でスコア ( 得点 ) で表します サンプルのスコア ( 得点 )=Σ ( 各 Entity の Loading x 各ピークのピーク強度 ) ここで クロマトグラム中の各ピークの重みつけである Loading は サンプル間のスコアが最もばらつくように計算された 各ピーク固有の係数です [1] スコアは理論上 サンプルに含まれるピークの数だけ計算できますが PCA の目的は 少数個のスコアでサンプル間の違いを解釈する ことですので 通常は 1~3 個のスコアを求めて スコアと Loading の解析を行います サンプルの違いを表す情報量を最も表しているスコアから順番に第 1 主成分 ( Component 1) 第 2 主成分 (Component 2) と呼びます [2] サンプルごとの各主成分のスコアを表した図が スコアプロット クロマトグラムピークの各主成分の Loading を表した図が Loading Plot になります [1] 詳しい計算方法は ケモメトリクスや統計解析の書籍を参照ください ここでは PCA を MPP で行う際 スコアを求めるための Loading 計算は ソフトウェアで自動的に行われることのみ ご紹介させていただきます [2] この章で扱う 主成分 という言葉は サンプル間の違い という情報量に対する言葉です Page 48
PCA( 主成分分析 ) の基本的な考え方 試料 A 試料 B 試料 C ピーク 1 ピーク 2 10 15 4 ピーク 3 10 4 15 7 15 5 試料 A~ 試料 C の特徴が分かるように 各ピークの面積を元にして試料の総合得点 ( スコア ) を付けることを考える 試料 ピーク係数 1 a 2 b 3 c スコア (u) 試料 A 10 15 4 10a+15b+4c 試料 B 10 4 15 10a+4b+15c 試料 C 7 15 5 7a+15b+5c 分散 ( ばらつき ) s 1 s 2 s 3 s u すなわち u= ax 1 +bx 2 +cx 3 となるスコア u を考える (x 1, x 2, x 3 はピーク 1~3 の面積値 ) u の分散 s u が最も大きくなるような係数 a, b, c を計算することで 試料 A~ 試料 C のスコアが最も離れて 特徴が区別できるようになります この計算は MPP で自動的に計算されます Page 49
PCA の計算結果 ( 第 1 主成分 ) 試料 A 試料 B 試料 C ピーク 1 ピーク 2 10 15 4 ピーク 3 10 4 15 7 15 5 試料 A~ 試料 C の各ピークの計算結果 試料 ピーク係数 1 0.00 2-0.63 3 0.78 スコア (u) 試料 A 10 15 4-6.30 試料 B 10 4 15 9.17 試料 C 7 15 5-5.52 分散 ( ばらつき ) s 1 s 2 s 3 s u 結果から分かること 1. ピーク 1 は試料間の違いにあまり関与しない ( 係数が 0) 2. ピーク 2 は試料間の違いを表すスコア u に 負の影響 を与える 3. ピーク 3 は試料間の違いを表すスコア u に 正の影響 を与える -6.30-5.52 9.17 スコア (u) Page 50
PCA の計算 ( 第 2 主成分 ) 試料 A 試料 B 試料 C ピーク 1 ピーク 2 10 15 4 ピーク 3 10 4 15 7 15 5 試料 試料 A~ 試料 C の各ピークの第 2 主成分の計算 ピーク係数 1 d 2 e 3 f スコア (v) 試料 A 10*(1-0.00) 15*(1+0.63) 4*(1-0.78) 10d+ 24.42e+0.89f 試料 B 10*(1-0.00) 4*(1+0.63) 15*(1-0.78) 10d+ 6.51e+3.33f 試料 C 7*(1-0.00) 15*(1+0.63) 5*(1-0.78) 10d+ 24.42e+1.11f 分散 ( ばらつき ) s 4 s 5 s 6 s v v= dx 1 (1-a)+ex 2 (1-b)+fx 3 (1-c) となるスコア v を考える (x 1, x 2, x 3 はピーク 1~3 の面積値 ) v の分散 s v が最も大きくなるような係数 d, e, f を計算することで 試料 A~ 試料 C のスコアが最も離れて 特徴が区別できるようになります この計算は MPP で自動的に計算されます Page 51
PCA の計算結果 ( 第 2 主成分 ) 試料 A 試料 B 試料 C ピーク 1 ピーク 2 10 15 4 ピーク 3 10 4 15 7 15 5-6.30 20.56 試料 A~ 試料 C の各ピークの計算結果 ( 第 2 主成分 ) 試料 ピーク係数 1 0.00 2 0.82 3 0.57 スコア (v) 試料 A 10 15 4 20.56 試料 B 10 4 15 7.25 試料 C 7 15 5 20.69 分散 ( ばらつき ) s 1 s 2 s 3 s v 結果から分かること 1. ピーク 1 は試料間の違いにあまり関与しない ( 係数が 0) 2. ピーク 2 は試料間の違いを表すスコア v に 正の影響 を与える 3. ピーク 3 は試料間の違いを表すスコア v に 正の影響 を与える -5.52 20.69 スコア (v) 9.17 7.25 スコア (u) Page 52
PCA の Loading と Score 試料 A ピーク1 ピーク2 ピーク3 10 15 4 各試料のスコアの係数を Loading といい スコアに与える影響度を表す スコア ピーク 1 2 3 u 0.00-0.63 0.78 v 0.00 0.82 0.57 試料 B 10 4 15 Loading Plot 2 スコア (v) 3 スコア (u) 試料 C 1 7 15 5 Score Plot 各試料の情報 ( 属性など ) から Score Plot のスコア u,v の意味付けを行い その意味付けについて クロマトグラム中の各ピークの影響度を Loading Plot から理解します -6.30 20.56-5.52 20.69 スコア (v) 9.17 7.25 スコア (u) Page 53
主成分分析 (PCA, Score plot) 各サンプルの傾向を視覚化するには Score plot が便利です Next 各サンプルの傾向を表示するためには 平均化していない Interpretation を選択する必要があります また ここで指定する entity list を再現性や統計的有意差によって絞り込むことで 各サンプル群の PCA 結果が各々の特徴を反映していきます Page 54
主成分分析 (PCA, Score plot) 3 次元空間上で Ctrl キーを押しながらマウスカーソルをドラッグさせると 軸を回転させることができます また Shift キーを押しながらマウスカーソルを上下にドラッグさせるとズームイン アウトができます Eigenvalues は各主成分の寄与率 ( 情報量全体のうちその主成分が説明できる割合 ) を示しています 赤のプロットは各主成分の寄与率を 青のプロットは寄与率の累積値を示します 一般的に この寄与率が 70~80% 以上であれば よく説明されていると言われます また 少ない主成分で多くの寄与率があるほど よいモデルであると言われます Page 55
主成分分析 (PCA, Score plot) Page 56
データ処理による PCA( 主成分解析 ) の変化 PCA of the data All entities (19786) PCA of the data Entities filtered by frequency (3744) Page 25 参照 PCA of the data Entites after ANOVA (p 0.05) & Fold Change ( 2.0) (93) Page 69-77 参照 FILTRATION FILTRATION 品種 A 品種 B 品種 C 各種 統計的フィルターを使って有意に差のある化合物を絞り込んでいくことで サンプル群の傾向がはっきりしてくることがわかります 後述する判別分析 (Page 121) ではこの様に特徴付けが明白な entity list を用いることで 精度の高い判別結果が得られます Page 57
主成分分析 (PCA, Loading Plot) PCA はサンプル群を三次元空間に表示する Score Plot だけでなく 各化合物を二次元上に Loading Plot で表示させることも可能です Page 58
使用可能な統計の検定 One-way Tests: 一つのパラメータでサンプルグループを比較する T-Test ANOVA Time 0 hr Time 24 hr Time 0 hr Time 24 hr Time 48 hr N-way Tests: 2 つ以上のパラメータでサンプルグループを比較する 2-Way 3-Way Time 0 hr 24hr Treatment Control X Drug A Time 0 hr 24hr Treatment Control Drug A Genotype WT X KO Page 59
2 つのサンプルグループを比較する One-way Tests パラメトリック検定 : T-test unpaired T-test paired T-test unpaired unequal variance ノンパラメトリック検定 Mann-Whitney unpaired Mann-Whitney paired Page 60
Paired T-tests もっとも一般的な組み合わせの例としては 例えば右の表のように 変数として各個人を表し もう一つの変数として コーヒーを 飲む前 と 飲んだ後 の器用さといったような ものがあります もし 各個人の個人差が大きく コーヒーの効果 が小さい場合は t-test でコーヒーの差を検出するには非常に多くの個人の情報 (Biological replicates) を集めないといけません paired t-test を使用することで グループ間の変動が グループ自身の変動より小さい場合でも 統計検出力を t-test よりも高めることができます Dexterity Before Coffee Dan 5.4 3.9 Kelly 5.9 4.5 Tom 7.6 6.3 Janet 8.2 7.9 Dexterity After 1 Cup of Coffee David 4.7 5.0 Page 61
頻度 Parametric Test ( パラメトリック検定 ) µ = 母集団平均 σ = 母集団標準偏差 Expression of Gene X 正規分布は上記の図のように釣鐘型の形をしており 平均値に対して左右対称の形をしています 平均値から両側 1σ( 標準偏差 ) までの面積が全体の 68.26% 2σ までの面積が全体の 95.44% 3σ までが全体の 97.5% の面積を占めます MPP のパラメトリック統計検定 (Parametric statistical tests) では 各化合物ピークのアバンダンスが正規分布の母集団からサンプリングされたと仮定して検定を行います パラメトリック統計検定 (Parametric statistical test) の不等分散 (unequal variances) では 比較するサンプルグループの分散 (σ 2 ) が等しくないという前提で検定を行います Page 62
Non-parametric Tests ( ノンパラメトリック検定 ) Non-parametric Tests は正規分布を前提としません サンプルグループ間の分散が等しくないと想定します 測定サンプルデータの標準化データ (Normalized Data) の順番に番号をつけ 標準化データ逸脱値の影響を減らします サンプルグループ間の繰り返し回数 (replicates) が少ないと 同じサンプルグループでパラメトリック検定 (parametric tests) を行った場合に比べて 統計的検出力は少ないです Gene X Untreated Normalized Intensity Treated Normalized Intensity Untreated Rank Treated Rank Replicate 1 4.5 1.3 6 2 Replicate 2.7 1.7 1 3 Replicate 3 2.3 3.5 4 5 Page 63
3 つ以上のサンプルグループを比較する One-way Tests パラメトリック検定 ANOVA ANOVA unequal variance (Welch ANOVA) Repeated measures ノンパラメトリック検定 Kruskal Walis Friedman Page 64
Repeated Measures ANOVA もし 各個人の差が大きく コーヒーの効果 が小さい場合は ANOVA でコーヒーの差を検出するには非常に多くの個人の情報 (Biological replicates) を集めないといけません Repeated Measures ANOVA を使用することで グループ間の変動が グループ自身の変動より小さい場合でも 統計検出力を高めることができます Paired t-test と同様に 各個人の個人差による変動を効率よく除去するにはいくつかの段階を経る必要があります Dexterity Before Coffee Dexterity After 1 Cup of Coffee Dan 5.4 3.9 3.7 Kelly 5.9 4.5 4.6 Tom 7.6 6.3 6.0 Janet 8.2 7.9 5.8 Dexterity After 2 Cups of Coffee David 4.7 5.0 3.2 Page 65
統計学的有意差のイメージ Page 66
P-value の計算方法 Asymptotic Method( 漸近法 ) 算出の前提として 化合物ピークのアバンダンスが正規分布をして各分布の分散が等しいとします よって 検定で使用されるパラメータ (t-ratio, f-ratio) も同様に正規分布すると仮定し 計算します これらの前提をしないで計算する場合は 以下の Permutation Method で p- value を計算します Permutation Method( 並べ替え法 ) 潜在的に存在する分布を想定しません サンプルを並べ替えて 調査のためのテスト評価基準の分布を作成します ( Permute samples and build distribution of test metrics for probe) P-value は順番に並べられた計算値が実測値よりも大きくなる割合です (the fraction of permutations in which the test metric computed is larger than the actual test metric for that sample) Page 67
Permutation test とは ある観測で A 集団の平均 >B 集団の平均 という結果が得られたとする その平均値の差を x とする ここで帰無仮説 : A 集団の平均 =B 集団の平均 として A と B のサンプルを 1 つにまとめ サンプルサイズ =n からなる母集団からランダムにとってきた集団とみなす この集団をランダムな 2 つの集団に分け直す この場合 サンプルの組み合わせは全部で (n)c(1/2n) 通り もし A,B の属する母集団が同じであって平均値の違いはたまたま生じた差だとすれば 全ての組み合わせの中でも x より大きな差は頻繁に見られるはず そこで 全ての組み合わせについて平均値の差を計算して x より大きい組み合わせがいくつあるか数える それが 全ての組み合わせのうち 5% を越えていたら たまたま生じた差 とみなす Page 68
What p-value Cut-off to Use? Depends on what type of error you are more comfortable with Type I の誤り (false positive): 有意差がないのにあると判定されてしまった Type II 誤り (false negative): 有意差があるのにないと判定されてしまった P-Value の Cut-off は type I の誤りと type II の誤りのトレードオフとなる 5HT1c 0.002364 NFL 0.002649 NMDA2C 0.017181 afgf 0.027544 GRa3 0.041179 actin 0.045342 nachrd 0.046372 EGFR 0.0468 bfgf 0.087842 5HT2 0.106591 Brm 0.137903 SOD 0.147089 mglur2 0.174708 IGF.I 0.223558 SC2 0.274809 trkc 0.288776 mglur1 0.313801 SC6 0.343059 CNTFR 0.354717 pre-gad67 0.366955 BDNF.rat 0.417615 GDNF 0.421125 IP3R2 0.421308 L1 0.443525 GAD67 0.462416 H2AZ 0.561907 IP3R1 0.573717 MK2 0.630177 CCO2 0.640797 mglur3 0.654866 PDGFa 0.659352 IGF.II 0.683554 CNTF 0.690512 nachre 0.701041 IGFR2 0.728141 GAP43 0.732078 ODC 0.745628 SC1 0.74575 NT3 0.78811 PTN 0.795557 trk 0.82403 mglur5 0.8305 cjun 0.839991 Ins2 0.841945 MAP2 0.851833 neno 0.879299 GRb1 0.888485 TCP 0.892361 GRb2 0.900601 S100beta 0.930265 検定で有意差があると判定 p-value=0.05 検定で有意差がないと判定 本当は有意差があるサンプル 本当は有意差がないサンプル Page 69
T- 検定 および ANOVA による entity の絞り込み Next 3 群以上の比較には ANOVA を選択してください Next Next ANOVA により entity が p 値で絞り込まれました P 値はデフォルトで 0.05 ( 棄却域 5%) になっていますが この数値を小さくすると より化合物数が絞られます Page 70
多重検定の補正 Page 71
統計の多重検定の問題点 統計計算を多くの化合物ピークで行うため 5% の p-value でも ちりも積もればかなりの量となる 10000 peaks = 10000 回 個別に統計検定を実施 p-value = 0.05 として 10000 のピークに対して検定を行うと 500 peaks (0.05 x 10000) で Type I の誤りが発生する可能性がある 統計検定の回数を増やせば増やすほど それに比例して false positive も増加してしまう 統計解析を行う前に データの Quality Control を行うことで false positive の数を減らすことができる 多重検定補正 (multiple testing correction:mtc) を行うことで 更に false positive を減らすことができる Page 72
MPP の Multiple Testing Correction ( 多重検定補正 ) オプション Family-wise error rate (FWER) Bonferroni Bonferroni Holm False Discovery Rate (FDR) Benjamini Hochberg Individual (genewise) error rate (p-value cut-off) (Probability of false positive for each test) No Correction Page 73
Multiple Testing Correction の例 以下の通り変数を定義します N = MTCを行う前にANOVAを通過したピーク数 P i = MTCを行わない ピークiのp-value = ユーザーが設定したp-cutoff 値 P post i = MTCを行った後の ピークiの p-value 計算を行うために 以下の値を代入します N = 100 = 0.05 Page 74
Family-wise Error Rate MTC: Bonferroni 複数回繰り返された検定全体において帰無仮説が棄却される可能性を family-wise error rate と呼びます FWER = 0.05 で 100 個の化合物ピークを検定した時に P 1 = 0.0002 P 2 = 0.0004 P 3 = 0.0006.. P 100 という値であったとすると P post 1 = (0.0002)*(100) = 0.02 P post 2 = (0.0004)*(100) = 0.04 P post 3 = (0.0006)*(100) = 0.06 となります 結果としては 0.02 < 0.05 化合物強度に有意差があると認められる 0.04 < 0.05 化合物強度に有意差があると認められる 0.06 > 0.05 化合物強度に有意差があるとは認められない Page 75
Family-wise error rate MTC の問題点と解決方法 Family-wise error rate の調整は 何回検定を繰り返しても 全体の α レベル (family-wise error rate) は 0.05 を超えないようにするぞ! という非常に保守的な方法です したがって 本当は有意差があるのに 帰無仮説が棄却されないという Type II (false negative) の誤りが問題になります そこで ある程度 Type I (false positive) を許容して Type II を起こす可能性を小さくする方法の一つとして false discovery rate を調整するという方法が開発されました false discovery rate は 簡単に言うと 棄却された全ての帰無仮説のうち Type I が含まれている確率 です Page 76
False Discovery Rate MTC: Benjamini & Hochberg 統計検定の結果 (ANOVA, two-sample t-tests etc.) から得られた 100 個の p-value を降順に並べます (P 1 >P 2 > >P N ) 例 : P 1 = 0.0499. P 65 = 0.0339 P 66 = 0.0333 P 67 = 0.0311 P 100 各 P-value に 100/( その番号 ) を掛けたものを P post i とします P post 65 =(100/65)* 0.0339 = 0.0522 - > 0.05 有意差は認められない P post 66 = (100/66)*0.0333 = 0.0505 - > 0.05 有意差は認められない P post 67 = (100/67)*0.0311 = 0.0464 - < 0.05 有意差が認められる よって p post 67 から p post 100 は有意差があるとして その中に潜在的な false positive のピークは 5% ある Page 77
多重検定方法の使い分け > Family-wise Error Rate Bonferonni FWER Bonferonni Holm FWER Benjamini Hochberg FDR No Correction 非常に保守的で一切の False Positive を許さない > False Discovery Rate More false negatives More false positives MTC で検出されたピークに p-value 分の False Positive が存在する (False positive a percentage of called peaks) > None 検定で用いたピークに p-value 分の割合で False Positive が存在する (False positive a percentage of peaks being tested) Page 78
MPP の統計 Post Hoc Tests Page 79
なぜ post-hoc test が必要なのか? (1) One-way ANOVA model 帰無仮説 : グループ間の平均値に有意差はない と仮定 H 0 : µ 1 = µ 2 = µ 3 = µ 4 = µ 5 ここでは 1 つの化合物ピークで 5 つの条件を仮定します ここでもし H 0 が棄却されても 何が棄却されたか といった情報は得られません どの条件で棄却されたかを知るにはどうしたらいいでしょうか? Page 80
なぜ post-hoc test が必要なのか? (2) 可能な解決策 : 各条件の組み合わせで 2 群の t-test を実施する H 0 : µ 1 = µ 2 = µ 3 = µ 4 = µ 5 この場合 5 つの条件があるため 全部で 10 通りの組み合わせの検定を行う必要がある 複数回の検定 false positive の増加 その他の解決策 : post-hoc test の実施 false positive を減らすことができる Page 81
Post-hoc Test MPP post-hoc test オプション : Tukey s Honestly Significant Difference (HSD) test Student-Newman-Keuls (SNK) test Tukey s と SNK の検定はいずれも正規化されて等しい分散であると仮定して実施されます One-way test で有意差があると認められた化合物ピークだけが Post-hoc test にかけられます Post-hoc test は 正規化されて等しい分散であるという過程で選んだ One-way test で行った場合に 妥当な結果が得られる 有意差があると認められた化合物ピークについて 各条件のピークアバンダンスの平均を ペアで比較していきます Tukey の方が SNK よりも conservative な結果になります Post-hoc tests は MPP の One-way test で行うことができます Page 82
Post-hoc Tukey Test ANOVA で有意差が認められた化合物ピーク X の 5 つの条件について 以下の帰無仮説を立てます H 0 : µ 1 = µ 2 = µ 3 = µ 4 = µ 5 ここで 各条件での化合物ピークのアバンダンス平均を以下の通りとします X 1 = 32.1 X 2 = 40.2 X 3 = 41.1 X 4 = 44.1 X 5 = 58.3 それぞれの pairwise q to critical value q (for group) を計算し比較します 5 vs. 1: significant (reject H 0 : µ 5 = µ 1 ) 5 vs. 2: significant 5 vs. 3: significant 5 vs. 4: significant 4 vs. 1: significant 4 vs. 2: not significant (does not reject H 0 : µ 4 = µ 2 ) 4 vs. 3: not necessary 3 vs. 1: significant 3 vs. 2: not necessary 2 vs. 1: significant Final results: 32.1 40.2 41.1 44.1 58.3 or µ1 µ2= µ3= µ4 µ5 Page 83
Post-hoc Group サマリー結果 青い Box は 2 つの条件で有意差が認められた化合物ピークの数になります オレンジ色の Box は 2 つの条件で有意差が認められなかった化合物ピークの数になります Box をクリックした後に Union または Intersection いずれかをクリックすると ボックスに含まれる化合物ピークの Entity リストを作成することができます Page 84
統計解析 N-way ANOVA Page 85
2-way ANOVA 2 変数の効果を確認するための検定 (Tests for effects of two parameters) 各サンプルは 2 つのパラメータから得られた値を持つ ( 例 :Treatment type and Time) 化合物ピークの変動は Treatment type Time 両者の相互作用によるもの?? 各化合物ピークについて 3 つの p-values が計算されます Generate p-value for effect of treatment Generate p-value for effect of time Generate p-value for effect of interaction between treatment and time (change in expression influenced by both parameters) Page 86
2-way ANOVA Design T I M E 0 wks 2 wks 6 wks n=3 n=3 n=3 n=3 n=3 n=3 Page 87
Acceptable Designs for Analysis in MPP ( 必要なサンプル数 ) バランスの取れた Design: 各条件で 5 回ずつサンプルされている All three p-values calculated No Drug Drug A Drug B Time 0 5 5 5 Time 1 5 5 5 Time 2 5 5 5 Time 3 5 5 5 バランスが取れていない Design: 条件によりサンプル数がバラバラ All three p-values calculated No Drug Drug A Drug B Time 0 3 4 2 Time 1 7 8 4 Time 2 9 11 5 Time 3 6 8 4 繰り返しのない Design: 各条件とも 1 サンプルしかデータが得られていない Interaction p-values will not be calculated No Drug Drug A Drug B Time 0 1 1 1 Time 1 1 1 1 Time 2 1 1 1 Time 3 1 1 1 サンプル数が 0 の条件がある : Test will not be performed No Drug Drug A Drug B Time 0 7 7 0 Time 1 7 8 4 Time 2 9 11 5 Time 3 6 8 4 Page 88
2-way Test Results Venn 図で 必要な条件を満たす部分をクリックして その条件を満たす化合物ピークを Entity List として保存できます Page 89
3-way ANOVA 3 変数の効果を確認するための検定 各サンプルは 3 つのパラメータから得られた値を持つ ( 例 :Treatment type, Time and Gender) 化合物ピークの変動は 1) treatment types, 2) different time points, 3) different gender, 4) interaction of treatment-time, 5) interaction of treatment-gender, 6) interaction of time-gender 7) or the interaction between treatment-time-gender のどれによって引き起こされているか? 各化合物ピークについて 上記の 7 つのそれぞれの p-values が計算されます Page 90
3-way ANOVA Results 各化合物ピークで, 7 つの p-values が計算されます 7 つの Entity Lists が作成され 各条件 相互作用の p-value がそれぞれ含まれています Empty lists will not be saved Page 91
Fold Change Fold change は 2 つの条件における化合物ピークの強度レベルを比較して違いを判別する測定基準です ユーザーは 2 倍 (2-fold) といったような閾値を設定することができます Fold Change では それぞれの化合物ピークに対して 条件 1 のアバンダンス平均に対する 条件 2 のアバンダンス平均の比で表わされます 化合物ピークのピークが 2 つの条件で増えたか減ったかを表示することができます Page 92
Fold Change による entity の絞り込み Next 3 群比較で A 対 B B 対 C C 対 A において強度比が一定数以上変化している entity を残します チェックボックスは全て入れてください Next Next Fold Change により entity が絞り込まれました Fold Change パラメーターはデフォルトで 2.0 になっていますが この数値を大きくすると より化合物数が絞られます スライダーではきりのいい値になりませんので (3.0 ではなく 3.019 などとなる ) 値をキー入力し Enter キーを押すことでフィルター値が反映されます Page 93
2 群間比較を Scatter Plot で表示する 2 Tea 2 に特徴的 Tea 1 に特徴的 Scatter Plot は 2 群間の比較しか出来ませんが シンプルで理解しやすい表示方法です X 軸 y 軸はそれぞれサンプル群の中から選択し プロット画面右下方向のものほど x 軸群に特徴的 プロット画面左上方向のものほど y 軸群に特徴的な成分であることを示しています 右クリックで zoom mode を選択し マウスをドラッグさせれば選択した領域の拡大を行うことができます 初期設定では Selection Mode になっているため マウスをドラッグさせると Entity の選択を行うことができます 選択した Entity は Create entity list from selection (2) から 別リストにまとめることが可能です Page 94
Volcano Plot(1/3) Next >> 比較する 2 つの Condition を指定します Next >> Page 95
P-value ( 上ほど小さい = 有意差がある ) Volcano Plot(2/3) 結果の表示 (Volcano Plot) Next >> サンプル群 1 に多い サンプル群 2 に多い Volcano Plot は t 検定と Fold Change を同時に行えるので二群比較に便利な機能です 三群以上の比較には使用することが出来ません Cut-off 値を調整できます Page 96
Volcano Plot(3/3) Page 97
クラスター分析とは? クラスターは 似たグループ を集めて視覚化する統計解析の手法です A クラスター間の距離 ( 類似度 ) を樹形図 ( ツリー ) で表したものを デンドログラム と呼びます ツリーの高さが各クラスタ間の距離となり このようなクラスターを 階層型クラスタリング といいます C B D D B C A Page 98
Clustering Clustering は 教師なしの分類 の方法と呼ばれており データセットのパターンを表示する方法です Clustering は 化合物ピークを類似度の高いグループに分けます entity-level の clustering から 同じクラスタに属する化合物ピークは何らかの関連があると推察することができます sample level の clustering から サンプルレベルの Quality Control が行え 異なる条件で違いを示す化合物ピークを見つけることができます Page 99
階層型クラスタツリーの例 : 似たコンポーネントを集める 1 クラスタツリー中の 1 つ 1 つのマスが 各データファイルに含まれるコンポーネント ( 化合物ピーク ) を表します コンポーネントのアバンダンス ( 強度 ) は色で表示されています Low High 3 似た変動パターンを示すデータファイル ( サンプル ) 同士を近くに配置して ツリー ( 線 ) でつないでいます ツリーの高さが サンプルの類似度を表しています 4 特定のグループの特徴的なコンポネントが一まとまり ( クラスター ) に表示されます 横方向はコンポーネント ( 化合物ピーク ) 2 似た変動を示すコンポーネント同士を近くに配置して ツリー ( 線 ) でつないでいます ツリーの高さが コンポーネントの類似度を表しています グループ A B C D 縦方向はデータファイル ( サンプル ) Page 100
クラスタの作成で考慮する点 1) 何をクラスタで一緒にまとめたいか? 2) どの 類似度 を選択するか? 3) どのクラスタアルゴリズムで計算するか? Page 101
階層型クラスタリングの長所と短所 長所 : 全ての関連性ツリーが構築されるため K-means や自己組織化マップ (SOM) PCA に基づいたクラスタリング手法よりも詳細な情報が得られます 短所 : 類似度指標の算出法によっては 解析初期段階の小さな誤差が大きな差として出力される恐れがあります クラスター毎の entity list を直接出力できない為 ツリーからマニュアルで出力する必要があります Page 102
K-means クラスタリングの長所と短所 長所 : 計算速度が最も速いクラスタリング手法で メモリ使用量も最小で済みます 短所 : クラスターの数が適切でないと 正しく分類されない可能性があります クラスター間の関連性 及び同一クラスター内の化合物間の関連性について情報が得られません Page 103
クラスタを作成するために どのような類似度を選択するか 類似度の指標は Entity や Condition の近さを数学的に計算して算出されます 指標は類似度の計算式によって異なります ( 同じサンプルでも ) 全体のトレンドを強調する指標もあれば 大きさを強調する指標もあります 類似度の指標は以下の組み合わせの類似度の度合によって割り当てられます Entity の変動プロファイルの組み合わせ Sample/Condition の変動プロファイルの組み合わせ Page 104
MPP で使用できる類似度の指標 それぞれの類似度は以下の 2 種類のいずれかの値を持ち 類似度を数値化します 距離 (0 から無限大 ) 相関 (-1 to 1) MPPで使用できる類似度 (Similarity) Euclidian Squared Euclidian Manhattan Chebyshev Differential Pearson Absolute Pearson Centered Pearson Uncentered Page 105
類似度 類似度の指標は適切なものを選択する必要があります 例 カテゴリデータへ Euclidian 距離を当てはめるのは適切ではない 高度に歪んだ分布に対して相関の類似度を当てはめると 誤った結果をもたらすことがある Page 106
クラスタ分析 (1/6) k-means: あらかじめクラスタ数 (k) を指定して Entity を分類します Hierarchical: 階層型クラスタツリーを作成します Self Organization Map: 自己組織マップで Entity を分類します Page 107
クラスタ分析 (2/6) Finish Page 108
クラスタ分析 (3/6) 次々ページで説明 サイズ調整します Page 109 サイズ調整します
クラスタ分析 (4/6) 選んだ部分が拡大されます 110
クラスタ分析 (5/6) Properties を選択します 次に Create Classification でクラスター数を確認し OK 押します Entity clusters color threshold を調整して 大まかなクラスターに色分けされていることを確認します Page 111
クラスタ分析 (6/6) ダブルクリックすると各クラスタに分類された結果が表示されます Page 112
表示色やレイアウトを変更したいのですが クラスター分析結果の画面上で右クリックし Properties を選択してください Row Headers を Compound に設定すると 分析結果の右側に化合物情報が表示されます Color Range を設定することで 強度比の色を変えることが出来ます Rendering タブ中の Row Header Width をスライドさせることで 表示させる化合物情報の幅を設定することが出来ます Page 113
データの準備 実験計画を検討する 目的 仮説など ChemStation, MassHunter でデータを取る 統計的有意差による Entity 抽出 t- 検定 ANOVA 解析 PCA( 主成分分析 ) 分けて見つける 階層型クラスタ分析 条件を満たす Entity を探す (Venn 図 ) データファイルの読み込み Entity List の作成 ピークアライメント (Entity の作成 ) グループ定義 IDBrowser ( 化合物の推定 ) 推定する Class Prediction ( 判別分析 ) Entity のフィルター ( ノイズ除去 ) 詳細のクロマトグラム マススペクトルを解析する Entity List の出力 ChemStation, MassHunter での解析 Page 114
ID Browser による化合物推定 MPP でライブラリサーチを行う機能です (Mass Hunter も同じ機能を有しています ) Entity のマススペクトル 化学構造式 ( データベースインストール時のみ使用可能 ) Entity とライブラリのマススペクトルの同時表示 ライブラリのマススペクトル 検索結果 Page 115
効率よく entity (=compound) を ID するには この化合物のみ ID したい ID Browser は 現在開いている entity list の全 entity を METLIN+ 組成式計算で ID します Entity 数が数十であれば計算時間は 10 秒程度で済みますが 左図の様に 100-1000 以上の entity となると化合物を 1 つ ID する度に全 entity を読み込ませていては 解析が非効率なものとなります そこで マウスをドラッグさせて興味のある化合物のみを選択し ( 緑色に変わります ) Create entity list のアイコンをクリックすることで ID Browser に持ち込む化合物を絞ることが効率の良い解析のコツになります Page 116
ID Browser の設定 Next Finish デフォルトの設定では 1) DB は METLIN で 5ppm 以内の精度で保持時間を加味せず質量のみで検索 2) 組成式は右図の構成元素で計算 となっております DB 検索結果と組成式結果が違うということを避けるために DB の Torerance は 2ppm 程度にした方が良いでしょう Page 117
ID Browser の実行結果 DB 検索 及び組成式計算が終了すると Compound List が表示されます ここには組成式 CAS 番号 化合物名などが表示されます また この Compound List は MassHunter Qual. のものと同じもので Cef ファイルの中には化合物名 組成式 CAS 番号などの情報が含まれています よって MassHunter Qual. 上から Find by Molecular Feature Find by Formula 等の機能を使用して Compound List を作成した後 Identify compounds > Search Database や Generate Formula を行い Compound List に名前や組成式を付けた状態で File > Export > as cef を実行して MPP の標準形式である.cef ファイルを作成すると MPP の Entity に保持時間 質量だけでなく名前や ID 情報も annotation として付いてくるので entity の絞込みが楽になります 後述する Pathway 解析は CAS 番号を基に代謝マップに当てはめていくので DB に CAS 番号が含まれていない場合は Manual Identification 機能を使い CAS 番号を入力します ( 次ページ参照 ) Page 118
Manual Identification の実行 ID Browser 上で Compound を選び 右クリックをすると Add/Edit Manual Identification が選択できます ここで現れるウィンドウで CAS ID を指定するとその番号が Compound List に張り付くので Save and Return を実行すれば マニュアルで ID した結果をパスウェイ解析に持ち込むことができます Page 119
Class Prediction ( 判別分析 ) sample class prediction model 作成のためには再現性の良い Entity を選ぶことが重要です Page 120
Class Prediction ( 判別分析 1/8) Page 121
Class Prediction ( 判別分析 1/8) Page 122
Class Prediction ( 判別分析 2/8) アルゴリズムを選択して Next をクリックします Page 123
Class Prediction ( 判別分析 3/8) Page 124
Class Prediction ( 判別分析 4/8) Page 125
Class Prediction ( 判別分析 5/8) 判別したい未知サンプルを選択します Page 126
Class Prediction ( 判別分析 5/8) Page 127
Class Prediction ( 判別分析 6/8) Page 128
Class Prediction ( 判別分析 7/8) Page 129
Class Prediction ( 判別分析 8/8) Page 130
Class Prediction ( 判別分析 ) Page 131
Class Prediction ( 判別分析 ) 判別モデルを選択します例 :Naïve Bayes Page 132
Class Prediction ( 判別分析 ) 判別したい未知サンプルを選択します Page 133
Class Prediction ( 判別分析 ) Page 134
Class Prediction ( 判別分析 ) Page 135
Class Prediction ( 判別分析 ) Page 136
判別モデルのアルゴリズム (1) -Decision Tree ( 決定木 )- Entity Sample 1 Sample 2 Sample 3 Entity1 243@2.49min 2200 1000 2500 Entity2 117@5.58min 1800 1500 2900 No Entity 1 >2000? Yes Sample 2 Yes Entity 2 >2000? No Sample 3 Sample 1 Page 137
判別モデルのアルゴリズム (2) -Support Vector Machine ( サポートベクターマシン, SVM)- Condition 1 Condition 3 Condition 2 サポートベクターマシンは各点からのマージンを最大化する超平面 (separation plane) を学習する方法です Page 138
判別モデルのアルゴリズム (3) -Naïve Bayes ( 単純ベイズ )- ベイズ分類器は連続した値 ( イオン強度など ) カテゴリー値 ( アンケートの 1. 悪い ~5. 良い ) の両方を扱うことが可能で 複数のクラスに分類することができるアルゴリズムです この判別アルゴリズムはサンプルが各クラスに属する確率を予測します ベイズ分類器モデルは各化合物に対する既知データの分布関数に基づいて構築され 学習した確率密度関数に基づいてデータポイントを分類します Entity 1 Condition 1 Entity 2 Max probability? Condition 2 Entity 3 Condition 3 入力分布関数確率 ( 各化合物の強度 ) 出力 ( 予測クラス = 最大確率を持つcondition) Page 139
判別モデルのアルゴリズム (4) -Neural Network ( ニューラルネットワーク )- Entity 1 Condition 1 Entity 2 Entity 3 Max score? Condition 2 Entity 4 Condition 3 Entity 5 入力 ( 各化合物の強度 ) Neurons 出力 ( 予測クラス = 最大スコアを持つ condition) Page 140
判別モデルのアルゴリズム (5) -Partial Least Square Discrimination (PLS 回帰分析 )- PLS 回帰分析のゴールは 化合物強度からクラスを予測することです PLS 回帰分析は化合物とクラスを直交成分と各化合物毎のローディングとして分解します Entity 1 Entity 2 Condition 1 Entity 3 Max score? Condition 2 Entity 4 Entity 5 ローディング ( 重み ) スコア Condition 3 入力 ( 各化合物の強度 ) 出力 ( 予測クラス = 最大スコアを持つ condition) Page 141
データの準備 実験計画を検討する 目的 仮説など ChemStation, MassHunter でデータを取る 統計的有意差による Entity 抽出 t- 検定 ANOVA 解析 PCA( 主成分分析 ) 分けて見つける 階層型クラスタ分析 条件を満たす Entity を探す (Venn 図 ) データファイルの読み込み Entity List の作成 ピークアライメント (Entity の作成 ) グループ定義 IDBrowser ( 化合物の推定 ) 推定する Class Prediction ( 判別分析 ) Entity のフィルター ( ノイズ除去 ) 詳細のクロマトグラム マススペクトルを解析する Entity List の出力 ChemStation, MassHunter での解析 Page 142
MassHunter 上での確認 検索や化合物の絞り込み結果が得られたら 結果の xxx.cef を作成します MassHunter Qual ソフトを開き 該当データを開いた後に 上記 xxx.cef を開いて実行するとリストされた化合物の マスクロマトグラム マススペクトルが表示されます Page 143
化合物抽出条件 これらの条件に基づいて マスクロマトグラム マススペクトルを抽出します 144
便利な機能 Page 145
便利な機能 1:Create Entity List 選択された Entity の Entity List を作成 興味ある Entity を選択します 右クリックして Zoom Mode も使えます 選択した 5 Entities List が作成されました Page 146
便利な機能 2:Find Similar Entities Compound や Mass のタイトルクリックしてソートし例 :Caffeine を選択します Page 147
便利な機能 2:Find Similar Entities Minimum, Maximum を調整して 似た挙動の Entities を選択します Page 148
便利な機能 2:Find Similar Entities Caffeine と似た挙動の 16 Entities が抽出されました Page 149
便利な機能 3: Data Spreadsheet 解析結果を Excel に出力する場合は Data Spreadsheet を選択し 右クリックから Select All Sheet を選び コピーします 強度は log 表記されていますので 1.0 は検出されなかった データ抽出されなかったことを示しています Page 150
便利な機能 4: ディレクトリとバックアップ Mass Profiler Professional では.doc や.xls ファイルの様に windows 上で experiment を削除することはできません ( 厳密には C:\Program Files\Agilent\MassHunter\Workstaion\MassProfilerPro\app\Data\files\gxuser に Experiment は保存されてはいますが 名前から判断できないファイル名になっています ) Experiment の削除は Mass Profiler Professional 上から行なってください また experiment を保存し 後日別の PC で解析を行なう場合やバックアップには Project Export Project から.tar ファイルとして保存してください Page 151
便利な機能 5:Venn 図 Venn 図を表示する 最大 4Entity リストから集合の考え方で絞込みできます Page 152
便利な機能 6:MPP のインストール方法 Use proxy のチェックボックスは記入せず proxy も空欄のまま Order ID を入力し OK を押します Page 153
便利な機能 7-1: Filter On Parameters 事前に Experiment Grouping で Parameter type が Numeric のパラメーターを作成します 仮に ブルーマウンテンの活性を 1 とした場合 キリマンジャロが 2 モカが 3 として その活性と相関する Entyty を探す例とします Page 154
便利な機能 7-2: Filter On Parameters Analysis から Filter on parameter を選択します Entity List Interpretation 相関を探したい Parameter Similarity Metric を選択します ピアソン相関係数は線形の相関解析なので 非線形の相関を解析したい場合はスピアマン順位相関係数を使用します Page 155
便利な機能 7-3: Filter On Parameters Cutoff 値のレンジは 1 に近いと相関 0 で相関なし -1 に近いと逆相関です Next ボタンで次に進み 名前を確認して Finish ボタンで Entity List を保存します Page 156