Microsoft Word - 1 color Normalization Document _Agilent version_ .doc

color 実験の Normalization color 実験で得られた複数のアレイデータを相互比較するためには Normalization( 正規化 ) が必要です 2 つのサンプルを異なる色素でラベル化し競合ハイブリダイゼーションさせる 2color 実験では基本的に Dye Normalization( 色素補正 ) が適用されますが color 実験ではデータの特徴と実験の目的 ( 実験デザイン ) を考慮して適切な Normalization 方法を選択する必要がありますここでは color 実験の Normalization の基本的な考え方を理解するために GeneSpring GX の設定を例として代表的な2つの Normalization シナリオを紹介します Normalization Step Normalization を行う Step は大きく分類すると Data Transformation Per Chip Normalization Per Gene Normalization の 3 種類あります - Data Transformation の例としてはバックグランド補正の結果生じたデータのマイナス (-) 値をプラス (+) 値に変換することが挙げられます - Per Chip Normalization はアレイ間のシグナル強度の系統的な誤差を補正して生物学的な変動を抽出することが目的です - Per Gene Normalization はサンプル間の遺伝子発現の絶対値ではなく発現パターンの違いに着目して解析し生物学的な意味を引き出すために行います実験デザインにあわせた設定をする必要がありますこれらの Normalization Step 中には様々な Normalization のアルゴリズムが存在します下記に Normalization Step に含まれる代表的な Normalization アルゴリズムを示します実験デザインに応じて適切な Normalization アルゴリズムを含んだ Step を組み合わせ Normalization シナリオを作成します Data Transformation Set measurements less than 0.0 to 0.0 バックグランド補正の結果生じ生物学的に意味のない負 ( マイナス ) の値を引き上げますこの設定では 0.0 以下の数値を 0.0 の値に置き換えます Per Chip Normalization Normalize to a median or percentile アレイごとに測定値の median または特定の percentile の値をにそろえます Normalize to Positive Control Genes アレイごとにポジティブコントロールの測定値の median で補正しますこの補正はポジティブコントロールのターゲットとプローブがいかなる条件下でも一定量のハイブリダイゼーションを示しかつハイブリダイゼーションの効率がポジティブコントロールの遺伝子群とその他の遺伝子群で同等であるという前提に基づいています

Per Gene Normalization Normalize to median - 発現の絶対量にかかわらず発現量の変化 ( 発現パターン ) に着目して解析する場合に使用します明確なコントロールサンプルが存在しない場合に使用します Normalize to specific samples - コントロールサンプルに対する各遺伝子の発現量の増減に着目して解析する場合に使用します代表的な Normalization シナリオ例例明確なコントロールサンプルが存在しない実験デザインの場合. Data Transformation: Set measurements less than 0.0 to 0.0 2. Per Chip: Normalize to 0 percentile 3. Per Gene: Normalize to median Data Transformation バックグラウンド値を差し引いた結果測定値がマイナス値になる場合がありますマイナス値は実験値として意味がなくまた得られた数値を対数変換することができなくなります発現をしていない意味の数値である 0 に引き上げると数値計算上問題となるので (0 除算 ) 0 に代わり 0.0 まで数値を引き上げます Per Chip Normalization 図に示した Raw Data の分布を表したヒストグラム ( シグナル強度を縦軸においたヒストグラム ) では他の Sample に比べて Sample (S) のシグナル強度が全体的に高くなっていますこの場合 sample の真の遺伝子発現が全体的に高いことも考えられますがこの仮定が妥当なものとみなされない場合はこのシグナル強度の違いは RN 抽出ハイブリ染色洗浄スキャニングのムラなどの実験誤差による影響だと考えられます Per Chip Normalization は枚のアレイ全体のシグナルレベルを補正し実験誤差による影響をキャンセルすることで生物学的な変動を抽出することを目的とした Normalization です Per Chip: Normalize to median or percentile は多数の遺伝子を網羅的に搭載したアレイデータを使った場合大多数の遺伝子の発現量に変化がなくその Median 値 ( 中央値 ) は各アレイ間でほとんど変動しないという仮定に基づいていますその仮定をもとに各アレイでの発現強度の Median 値を使い全遺伝子の発現強度 ( シグナル強度 ) を割って補正を行いますいわゆるグローバルノーマライゼーションになりますこの Normalization の結果 Median がとなる Normalization 値が算出され各アレイ (Sample) 間のシグナル強度を相互比較することが可能になります ( 図 ) 2

Median ( 0 percentile) S S 2 S 3 S Raw Data S S 2 S 3 S Per Chip: Normalization to median 図. Per Chip: Normalize to median (0 percentile) 対象となる生物種の遺伝子を網羅することを目的としてデザインされたアレイでは搭載されているプローブ数に比べて実験に用いる Sample で真に発現している遺伝子が少ない場合がありますこの場合真に発現していない遺伝子プローブがシグナル強度が低い領域に多数存在しその割合の違いが median の値に影響を与えますこの影響を避けるには発現していないとみなされる遺伝子に absent のフラグがたったプローブを除いて median を計算する方法がありますまたフラグが自動的に付かない数値化ソフトウェアを使用している場合は各 Sample で適切な percentile( 例 :70 percentile) 値を検討してもよいでしょう ( 参考 ) 比較したいサンプル間で遺伝子の発現量の median 値が一定であるという仮定が成立しない場合 Per Chip: Normalize to median or percentile は適切なアルゴリズムではありません仮定が成立しない例として下記の場合が考えられます. 遺伝子数が少なすぎる (Median が信頼できない ) 2. 特定の遺伝子のみを意図的に集めたテーマアレイ ( 大部分の遺伝子の発現が変化する ) 3. 大多数の遺伝子の発現を変えるような状態あるいは処理を行ったこのような場合には Per Chip Normalization: Normalize to Positive Control Genes が選択肢のひとつとして考えられます Positive Control Gene はハウスキーピング遺伝子に代表される遺伝子群 ( 常に一定のレベルで発現していることが期待される遺伝子群 ) や一定量に調製されたスパイクコントロールサンプルに対応するプローブなどがありますただしこの方法は個々の Positive Control Gene の発現レベルが変動した場合結果に大きな影響を与えますハウスキーピング遺伝子群を用いる場合はできるだけ多くの Positive Control Genes を設定しその Median 値を使うとより保守的な 3

Normalization になります Per Gene Normalization Per Chip Normalization の後にサンプル間の遺伝子の発現量の違いではなく発現パターンの変化に注目して生物学的な意味を抽出するのを助ける目的で行います発現量の多少にかかわらず同じときに発現量が増えたり減ったりしている遺伝子は機能的に近い関係にある 2 同じ転写制御の元にある 3 同じカスケードの下流にあるといった仮定にもとづいて解析を行う場合に有効です逆にこの Normalization によりすべての遺伝子がの周りの変動に収束するので発現量の絶対値に注目した解析を行う場合はこの Normalization Step は必要ないもしくは不適切な場合があります Per Gene Normalization: Normalize to Median は特にコントロールサンプルが存在しない実験デザインの場合に用います Per Gene Normalization: Normalize to Median の計算例を図 2 で示します図 2 はつの Sample 中での遺伝子と遺伝子の動きを示しています遺伝子では S の値が遺伝子では S3 の値が median になりますよって遺伝子では S の Per Chip Normalization 後の Normalized 値で各 Sample の値を遺伝子では S3 の Normalized 値で各 Sample の Normalized 値を割ります結果として遺伝子では S の値が遺伝子では S3 の値がとなります Per Chip Normalization を適用した段階では発現量の絶対レベルによって Normalized 値が示されます次に Per Gene Normalization: Normalize to Median を適用すると全ての遺伝子がの周りの変動に収束してきます 3 (Median) 2 2 3 (Median) S S 2 S 3 S S 明確なコントロールサンプルが存在しない場合 S S 2 S 3 S S Per Gene Normalization: Normalize to median 図 2. Per Gene: Normalize to median

例 2 コントロールサンプルに対する比較実験の場合. Data Transformation: Set measurements less than 0.0 to 0.0 2. Per Chip: Normalize to 0 percentile 3. Per Gene Normalization: Normalize to Specific Samples コントロールサンプルに対する比較実験の場合は Step3 で Per Gene Normalization: Normalize to Specific Samples を適用しますコントロールサンプルの各遺伝子の Per Chip Normalization 後の Normalized 値で全 Sample の Normalized 値を割りますコントロールサンプルの Normalized 値はになりますそれ以外の Sample でより大きな ( 小さな )Normalized 値を得ればその Sample ではコントロールサンプルよりも発現が高い ( 低い ) ということができます Per Gene Normalization: Normalize to Specific Samples の例を図 3 に示しますこの例では S がコントロールサンプルであり遺伝子ともに S の値で各 Sample の値を割りますその結果遺伝子は S の値がになっています Median もしくは Specific Sample のどちらを使用した場合も Per Gene Normalization の適用により全ての遺伝子の Normalized 値はの周りに収束してきます S S 2 S 3 S S S S 2 S 3 S S S が明確なコントロールサンプルの場合 Per Gene Normalization: Normalize to Specific Samples 図 3. Per Gene: Normalize to Specific Samples お問い合わせ先 : アジレントテクノロジー株式会社 GeneSpringサポート担当 GeneSpringテクニカルサポートURL:http://www.chem.agilent.com/cag/bsp/sig/support/j/TechSupport.asp E-mail: genespring_jp_support@agilent.com