マイクロアレイデータ 解 析 (4 日 目 5 日 目 6 日 目 ) アレイデータのファイルや 実 習 の 連 絡 事 項 を 共 有 できる wiki を 用 意 しました http://bit.ly/microarray2015 4 日 目 ⅰ) Excel によるデータ 解 析 1. 全 サンプルのデータを 1 つのワークシートにまとめる 行 番 号 とプローブ 番 号 の 対 応 関 係 はどのサンプルも 同 じ したがってサンプル X のデー タの 隣 にサンプルYのデータをコピー&ペーストすれば1 枚 のワークシートにまとまる 上 記 を 繰 り 返 して 全 サンプルの gprocessedsignal, giswellabovebg の 値 を 1 枚 のワ ークシートにまとめる この 状 態 で 一 度 ファイルを 保 存 しておくこと 最 初 のサンプルで 残 す 列 : FeatureNum - スポットの 番 号 ControlType - コントロールのスポットかどうか? ProbeName - プローブ 名 GeneName - 遺 伝 子 名 SystematicName - 遺 伝 子 名 gprocessedsignal - green(cy-3)のシグナル 強 度 giswellabovebg - シグナルがバックより 十 分 高 いか? 第 2 サンプル 以 降 で 残 す 列 : gprocessedsignal giswellabovebg 2. 発 現 量 が 少 なくアレイで 検 出 できなかったものは giswellabovebg の 値 が 0 とな っている 今 回 は 全 てのサンプルで giswellabovebg の 値 が 1 となっているもののみ を 解 析 の 対 象 とする また ControlType が 0 以 外 のものはコントロールのプローブな ので 解 析 の 対 象 からはずす 各 自 関 数 を 利 用 したり 並 べ 替 え 機 能 を 用 いて 解 析 の 対 象 となる 行 を 抽 出 すること 3. X-Y プロット サンプル X の gprocessedsignal の 値 ( 以 下 X)を 横 軸 サ ン プ ル Y の gprocessedsignal の 値 ( 以 下 Y)を 縦 軸 にプロット 1
4. MA プロット log10(xy)を 横 軸 log2(y/x)を 縦 軸 にプロット 縦 軸 が 0 とはどういう 意 味 か? 発 現 量 に 変 化 なし 縦 軸 が 1 とはどういう 意 味 か? 発 現 量 が 2 倍 に 上 昇 縦 軸 が-1 とはどういう 意 味 か? 発 現 量 が 半 分 に 減 少 5. 解 析 replicate 間 で X-Y プロットおよび MA プロットを 作 成 mock-1 対 mock-2 fold change が 1 以 上 のものは 全 体 の 何 %か fold change が-1 以 下 のものは 全 体 の 何 %か fold change が 0.1 以 上 のものは 全 体 の 何 %か fold change が-0.1 以 下 のものは 全 体 の 何 %か 異 なるサンプル 間 で X-Y プロットおよび MA プロットを 作 成 mock-1(または mock-2) 対 RNA で X-Y プロットおよび MA プロットを 作 成 fold change が 1 以 上 のものは 全 体 の 何 %か fold change が-1 以 下 のものは 全 体 の 何 %か fold change が 0.1 以 上 のものは 全 体 の 何 %か fold change が-0.1 以 下 のものは 全 体 の 何 %か mock-1 対 2OMe-3 で X-Y プロットおよび MA プロットを 作 成 mock-1 対 2OMe-5 で X-Y プロットおよび MA プロットを 作 成 ( 以 下 同 様 ) 1. 参 考 :アレイ 間 の normalization (75%tile 法 ) アレイ 間 の 全 体 的 なシグナル 強 度 の 差 を 補 正 するために 必 要 な 操 作 で 方 法 もいくつか ある ここでは 75%tile 法 でおこなう 各 サンプルごとに コントロールを 除 く 全 プロ ーブでの 発 現 量 の 値 を 順 番 に 並 べ 替 え 順 位 75%に 位 置 するもの( 発 現 量 が 高 いほうか ら 数 えて 25% 目 の 遺 伝 子 )の 値 を 求 める この 75%tile の 値 は 通 常 サンプルごとに 異 な るが それらの 相 乗 平 均 値 a を 求 める 各 サンプルごとに 全 プローブの 値 に(a / そ のサンプルにおける 75%tile 値 )を 掛 ける 全 サンプルで 75%tile の 値 を a に 揃 える 1. 参 考 :アレイ 間 の normalization (quantile) 余 裕 がある 人 は Excel で 実 装 シグナル 強 度 の 分 布 を サンプル 間 で 強 制 的 に 合 わせてしまう normalization の 手 法 各 サンプルごとに コントロールを 除 く 全 プローブでの 発 現 量 の 値 を 順 番 に 並 べ 替 える 1 位 になっているプローブでシグナル 値 の 相 乗 平 均 を 求 め その 値 で 置 き 換 える(log2 を 求 めて 相 加 平 均 を 取 るのが 簡 単 ) 2 位 以 下 も 同 様 に 同 順 位 のプローブでシグナル 値 の 相 乗 平 均 を 取 って 値 を 置 き 換 える 結 果 全 サンプルで 分 布 が 同 一 になる 例 ) 発 現 量 が n 位 の log2(シグナル 値 ) が (-0.4, 0.1, 0.2, -0.3)なら (-0.1, -0.1, -0.1, -0.1) に 置 き 換 えてしまう 2
5 日 目 ⅱ) GeneSpring GX による 解 析 0. GeneSpring GX のインストール 講 師 からライセンスコードを 受 け 取 り GeneSpring GX をインストールする 詳 細 は wiki を 参 照 なお 帰 る 前 に 必 ずライセンスを Surrender すること 忘 れると 別 の 端 末 で 使 えなくなる Automatic Software Update の 画 面 が 出 る 場 合 があるが 今 回 の 実 習 では 必 要 ないので Cancel を 選 択 ( 実 行 するとかなり 時 間 がかかり ディスク 容 量 も 消 費 する) 1. データの 読 み 込 み GeneSpring GX を 起 動 ( 初 回 は 時 間 がかかる) Project New Project 適 当 な 名 前 をつける Create new experiment Experiment name 適 当 な 名 前 をつける Analysis type Expression Experiment type Agilent Expression Single Color Workflow type Data Import Wizard 3
Experiment notes メモ 空 欄 でも 可 Load Data Choose Filesから 数 値 データ(TXT)を 全 部 選 択 8 班 分 /home08/sirna/microarray/2015-06-12/* 途 中 で 初 回 のみ Technology Agilent 何 とかが not found. などというエラーがでる 場 合 があるが Yes と 答 えれば Agilent の 1 色 法 の 解 析 に 必 要 なファイルが 自 動 的 にダ ウンロードされる Use spot information in data files to flag the data のみにチェック 以 下 推 奨 設 定 Feature is not positive and significant Not Detected Feature is not Uniform Compromised Feature is not above background Not Detected Feature is Saturated Compromised Feature is population outlier Compromised Normailzation algorithm Quantile Baseline Options Do not perform baseline transformation 2. サンプル 名 の 入 力 replicate の 指 定 画 面 右 側 の Experiment Setup タブ Experiment Grouping Add Parameter Parameter name ( 例 ) sample name などと 入 れておく Samples に 表 示 されているデータファイルに 対 応 するサンプル 名 を Parameter Values に 入 力 していく(mock, RNA, ) 同 じ Parameter Value を 入 力 したものが 自 動 的 に replicate として 扱 われる( 後 で 平 均 される) 続 いて 画 面 右 側 の Experiment Setup タブ Create Interpretation 先 ほど 入 力 したパラメータをチェックして Next Categorical にチェック Average over replicates in conditions は Avaraged をチェック Use Measurements Flagged は Detected のみチェック(Not Detected または Compromised のフラグが 立 っているものは 使 用 しない) この 操 作 で replicate 間 の 平 均 の 値 が 算 出 され 以 降 で はその 値 を 利 用 して 解 析 を 進 めることができる 3. バックグラウンドに 近 い 値 や 異 常 な 値 を 除 去 画 面 右 側 の Quality Control タブ Filter Probesets by Flags Next Acceptable Flags: Detected のみチェック at least [8] out of 8 samples have acceptable values =1サンプルでもNot detectedまたはcompromisedと 判 定 された 値 があるものは 除 外 4
4. X-Y プロット MA プロットを Excel と 同 様 に 作 成 する GeneSpring GX における MA プロットでは たとえば X-Axis に Wild Type Y-Axis に mock を 選 択 すると Wild Type のサンプルで 増 加 している 遺 伝 子 が 上 方 (> 0)に 減 少 している 遺 伝 子 が 下 方 (< 0)にプロットされる 5. 注 目 している 遺 伝 子 の 抽 出 遺 伝 子 (アクセッション 番 号 )リストを 読 み 込 み その 遺 伝 子 に 色 をつける 遺 伝 子 リストの 例 : Accession NM_003380 NM_014616 NM_000368 NM_177402 1 行 目 にタイトル 2 行 目 以 降 にアクセッション 番 号 を 1 行 につき1 個 記 載 上 記 をテキストファイルに 保 存 する Import entity list from file ボタンを 押 す Choose file 遺 伝 子 リストのテキストファイルを 選 択 Choose file column to match 読 み 込 ませた 遺 伝 子 リストの 1 行 目 Choose technology column to match Genbank Accession (アレイのプローブ ID や 遺 伝 子 名 など 他 の 項 目 のリストを 読 むことも 可 能 ) 5
画 面 左 側 の Analysis フォルダ 内 に Imported Lists フォルダができ その 中 に 読 み 込 ん だリストが 保 存 されている それを 選 択 すると リスト 内 の 遺 伝 子 のみがプロットされ る この 状 態 で 3. バックに 近 い 値 や 異 常 な 値 を 除 去 と 同 じ 操 作 をおこなう すべての 点 を 選 択 した 状 態 で All Entities 内 の Filtered on Flags [Detected]を 選 択 す ると 全 体 のなかでリスト 内 の 遺 伝 子 がどこにプロットされているかわかる 6
6. sirna の seed 部 分 (*)と 相 補 的 な 配 列 が 3ʹ UTR に 存 在 する 遺 伝 子 は sirna の 標 的 となりうることが 報 告 されている 今 回 の 実 験 で RNA の seed マッチする 遺 伝 子 がど のように 変 動 しているか 検 証 せよ ⅲ) 参 考 1. 入 力 した 配 列 を 3ʹ UTR にもつ 遺 伝 子 (アクセッション 番 号 )のリストを 表 示 するペ ージ:http://atlas.rnai.jp/seedmatch/ 6 日 目 iii) 統 計 解 析 ソフト R を 用 いたデータ 解 析 R はオープンソースの 統 計 解 析 ソフトで さまざまな OS で 利 用 可 能 Excel や GeneSpring GX と 異 なりコマンドラインからの 操 作 が 基 本 となるが 大 量 のデー タを 高 速 に 扱 え グラフの 描 画 機 能 も 強 力 である 実 習 では wiki に 掲 載 されているサンプルコードをもとに 各 種 プロットを 描 画 する 7