ポストゲノム生命科学方法論 榊原担当の第 回 慶應義塾大学生命情報学科 榊原康文
遺伝子発現プロファイルの解析手法 クラスタリング Unsupervsed 階層クラスタリング,k-means 法, 自己組織化マップ SOM 識別 Supervsed 線形識別関数,k- 近傍法, サポートベクターマシン ブール関数, ニューラルネットワーク
遺伝子発現データの識別 マイクロアレイの遺伝子発現データを つのクラスに分類 : 例 がん細胞の遺伝子発現データと正常細胞の発現データの識別 例 遺伝子発現データによるがん診断 正常細胞 識別 : 識別規則 関数 を学習する 腫瘍細胞? 予測 : 未知のサンプルを識別する
さまざまな識別の問題 例 メタボリックシンドローム : 内臓脂肪型肥満に高血糖 高血圧 高脂血症のうち つ以上を合併した状態 正常の男子 識別の属性 : 腹囲, 血圧, 中性脂肪, HDL コレステロール, 血糖 症候群の男子 識別関数 : 85cm, 30/85mmHg, 50mg/dL, 40mg/dL, 0mg/dL サンプルから統計的に見出したもの分子メカニズム的な根拠があるわけではない
さまざまな識別問題と識別関数の学習と予測 化合物の分類 標的タンパクへの結合 タンパク質の分類 タンパク質の機能分類 脳波形の分類 脳のシグナルの検出 などなど 学習データと識別関数を用いた予測 統計的手法 学習データ :つのクラス 正と負のクラス にすでに分類されている遺伝子発現データの集合学習 : 学習データを用いて発現データを正と負のクラスに正確に分類する識別関数を学習予測 : 学習された識別関数を用いて, 未分類 未知 の発現データを識別してそのクラス 正または負 を予測
識別の例 : ターゲットタンパク質 受容体 を固定 化合物 入力データ : コーディング サポートベクターマシン SVM 作用するクラス 作用しないクラス 学習 化合物の分類 大量の結合データ
Hwang H et al., Neurofeedback-based motor magery tranng for bran computer nterface BCI, J Neurosc Methods 79:50 56, 009. コマンドの指令 Bran-Machne Interface BMI パターン認識 脳波の計測 Magnetoencephalography MEG Electroencephalography EEG Functonal magnetc resonance magng fmri
BMI におけるパターン識別 : 脳波パターン 0., 3. 統計モデル 無し 脳波の特徴量コマンド [ コマンド ] の実行 脳波パターン 脳波の特徴量 -0.5, 0.0 統計モデル 無し コマンド コマンド実行無し
テンプレートマッチング法 : 遺伝子発現データの識別 代表ベクトル テンプレート, プロトタイプ をクラス平均として, 入力ベクトルと各クラスの代表ベクトルとの間の距離を計算して, 最も近いクラスに識別 クラス 正常細胞 クラス 腫瘍細胞 ー クラス 平均? クラス 平均 未知サンプル
テンプレートマッチング法と線形識別関数 クラス 平均クラス 平均テンプレートマッチング法 : 実は, クラス間の境界に線 超平面 を引いて, 識別をすることと同じ 線形識別関数線形識別関数 超平面 等距離 0,, 境界線は, つのクラスの領域の間の ユークリッド距離の二乗 間の距離 : のクラス平均と点 0 0
線形識別 閾値 関数 n 次元空間上の線形識別関数 : n 次元ベクトル :,, n 重み係数ベクトル : w w,,w n 閾値係数 : b w 0 g w w n j w b 線形識別関数による分類 :, g 0 f, g 0 j j n n のとき のとき b g w w b g 0 0 ー g 0
テンプレートマッチング法 マハラノビス距離 テンプレートマッチング法 : データの分散を考慮して距離を計算 マハラノビス距離 ユークリッド距離 マハラノビス距離 : 次曲線になる d クラス 平均 クラス 平均
識別規則の つの方向 単純なテンプレート法から, テンプレート 代表ベクトル の 数を増やす k- 近傍法 : テンプレートの数を増やし, 最も近いk 個のテンプレートが属するクラスの多数決を取る サポートベクターマシン : テンプレートの数を増やし, テンプレート間に線形識別関数を引く
テンプレートマッチング法 : テンプレートを増やす 代表ベクトルを複数に増やす 入力ベクトルを最も近い代表ベクトルが属するクラスに分類 等距離にある折線 クラス の複数の代表ベクトル クラス の複数の代表ベクトル
- 近傍法 : - 近傍法 すべてのサンプルをテンプレートとする 入力ベクトルを最も近いサンプルベクトルが属するクラスに分類 等距離にある折線 クラス のサンプルベクトル クラス のサンプルベクトル
k- 近傍法 : k- 近傍法 入力ベクトルを最も近い k 個のサンプルベクトルを選択し, k 個の中で最も多いクラスに分類 k3 の場合 : クラス のサンプルベクトル クラス のサンプルベクトル
サポートベクターマシン 複数のサンプルベクトル サポートベクター からの距離 マージン を最大にする線形識別関数を引く クラス の 線形識別関数 超平面 サポートベクトル p サポートベクトルでない 0 サポートベクトルでない p q クラス のサポートベクトル クラス 平均ベクトル クラス 平均ベクトル マージンを最大化
サポートベクターマシンサポートベクターマシンの学習 : サポートベクターからマージンを最大にする線形識別関数を求める, b w f すなわち, つの代表ベクトルの場合 : b w w b w f b w w w,, 閾値重みベクトル線形識別関数 : とするただし, とすると, サポートベクター : サポートベクターの場合 :,,,, 3 b wp wq wp wp b q p p w q p p
識別関数の学習問題 : 線形識別関数の学習 学習データが与えられたときに, どのように適切な識別関数を学習するのか? 学習データ g w w b 0
線形識別関数の学習アルゴリズムパーセプトロンのアルゴリズム ; ; ; 0 ; ma 0;,0; 0, }, {,,, },,,,, { 0 0 を正しく識別するまでここで, 学習サンプル untl for end end f then f to for repeat S k k R y b b y w w b w y m R b w y y y S k k k k k k j j j j j j m m m n
学習された重み係数と識別関数 パーセプトロンのアルゴリズムによって学習されたサンプル S を正しく識別する重み係数は, サンプルベクトルの線形結合で表される : 線形識別関数 m y w b y b y b w g m m のときのとき 0 0, 0, g g f ベクトルの内積 },,,, { m m m y y S
サポートベクターマシン法 SVM サポートベクターマシンの3つの特徴 カーネル関数 : ベクトルの内積の効率的計算 線形分離不可能な場合の高次元空間への写像 汎化理論 高い予測精度 マージン最大化 3 線形学習マシンの最適化 : 凸 次計画問題, ラグランジュ未定乗数法
線形識別 閾値 関数 線形分離可能な学習パターンと決定境界の例 線形分離不可能な学習パターンの例
サポートベクターマシン法 SVM 学習データを高次元へマッピング F カーネル関数 線形分離不可能な場合 高次元 超空間 へマッピング,,,
カーネル関数の種類 線形カーネル : 多項式カーネル : 3 RBFradal bass functon カーネル : y y K, k c y y K, ep, y y K 前ページの例は,c0, k の場合の多項式カーネルとなる c, k は自由パラメータ ハイパーパラメータ RBF カーネルを持つヒルベルト空間は十分豊かな非線形関数を含んでいる は自由パラメータ ハイパーパラメータ
さまざまな種類のデータからの特徴抽出 n 個の遺伝子がスポットされたマイクロアレイデータ n 次元ベクトル :,, n gene gene gene n 3 特徴 ベクトル で表されたデータに関しては, 様々な解析手法が存在する クラスタリング, 線形識別関数, 主成分分析 PCA, など 非数値的な, 構造的なデータ から, どのように特徴ベクトルを抽出するか? 4 DNA 配列やアミノ酸配列 タンパク質, ペプチドなどの配列, タンパク質立体構造, 糖鎖, 低分子化合物, などの種々のデータ
配列データのベクトル化 配列データから n 次元の実数値ベクトルへの変換 : * R n : w GGCAATTGA n, 0, 3, 0.5 カウントベクトル : 最も単純なベクトル化 配列中の各塩基 アミノ酸 の出現頻度をベクトルとする すなわち, 塩基やアミノ酸 組成のベクトルとなる 例 DNA 配列の場合 : : GGCAATTGA 3,,3, 4 次元ベクトル A の出現回数,C の出現回数,G の出現回数,T の出現回数 例 アミノ酸配列の場合 : 0 次元ベクトル : ALTDTGLST,0,,0,0,,0,0,0,,0,0,0,0,0,,3,0,0,0 A,C,D,E,F,G,H,I,K,L,M,N,P,Q,R,S,T,V,W,Y カウントベクトルは, 配列の特徴を十分に表したベクトルであるか? 類似した配列と異なる配列をカウントベクトルで分類できるか?
配列データのベクトル化 文字列ベクトル k- スペクトラムベクトル : すべての長さ k 文字列の出現頻度を数えてベクトル化する 例 DNA 配列の - スペクトラムベクトル : 6 次元ベクトル AA,AC,AG,AT,CA,CC,CG,CT,GA,GC,GG,GT,TA,TC,TG,TT : GGCAATTGA, 0, 0,,, 0, 0, 0,,,, 0, 0, 0,, 例 アミノ酸配列の 3- スペクトラムベクトル :0 3 8000 次元ベクトル : ALTDTGLST 0, 0,,,,,, 0 AAA,AAC,,ALT,,DTG,,YYY k- スペクトラムベクトルは, カウントベクトルよりも特徴ベクトルとして精度 は高い 結構いろんな問題をうまく解けてしまう
文字列ベクトルの問題点 : 配列データのベクトル化 ベクトルの次元数が指数関数的に増加してしまう 例えば, アミノ酸の k- スペクトラムベクトルの次元数は,0 k 次元 ベクトルの内積であれば次元数が増加しても効率よく計算 する手法が存在する 配列データの特徴ベクトルを直接扱わないで, その内積を計算する 3 文字列ベクトルのカーネル関数と効率的計算 文字列カーネル関数
文字列カーネル関数 ベクトルの内積であれば次元数が指数関数的に増加しても効率よく計算する手法が存在するベクトルの内積を計算する時には, 必ずしもベクトルのすべての次元数の要素を直接取り扱う必要は無い 例えば, スペクトラムベクトルでは, 与えられた配列中に現れない文 字列のベクトル値は 0 となり, その要素の内積を計算しても 0 となる ため, 内積を計算する時には省略することができる : GGCAATTGA, 0, 0,,, 0, 0, 0,,,, 0, 0, 0,, AA,AC,AG,AT,CA,CC,CG, TT 3 文字列の カーネル関数 の定義 : つの配列 v と w に対して K v, w v w を満たす関数 K
文字列カーネルを用いたサポートベクターマシン 配列データから特徴ベクトルへ変換 したベクトル空間上で定義される線形識別関数 特徴ベクトルの内積 : カーネル関数 3 文字列カーネル関数を用いた線形識別関数による識別と予測 : b w v K y b w v y w g m m,, w v w v K
カーネル関数の計算 : スペクトラムカーネル k- スペクトラムカーネル K k v,w: k- スペクトラムベクトルの内積 3 つの配列 v, w から長さ k のすべての部分文字列を切り出しそれぞれ lst k v, lst k w とする 内積を表す変数 nnerproduct を用意して,0 に初期化する lst k v の中の各文字列に対して, lst k w 中に同じ文字列が存在する場合に nnerproduct を 増加する v GCATATA, lst 3 v { GCA, CAT, ATA, TAT, ATA}, nnerproduct GCA lst CAT lst ATA lst TAT lst ATA lst 3 3 3 3 3 nnerproduct w CATACAT, 0; v nnerproduct v nnerproduct v nnerproduct v nnerproduct v nnerproduct 4; k 3 0; ; ; 0; ; lst 3 w { CAT, ATA, TAC, ACA, CAT}
カーネル関数の計算 : スペクトラムカーネル DNA 配列の場合では, k- スペクトラムベクトルの次元数 は 4 k のため,k- スペクトラムベクトルの内積の直接の計算 では,4 k 時間かかる 上記の例の k 3 の場合,4 3 64 次元 上記の k- スペクトラムカーネルのアルゴリズムの計算時間 は, O v w 上記の例の場合, 両方の配列中に現れた長さ 3 の文字列は全部 で 6 種類, したがって 64-658 種類の次元数を省略することが できた 3 O v w の計算時間で計算する効率的なアルゴリズム が存在する
カーネル関数の応用 : リモートホモログの検出 BLAST などの相同性検索では, 検出できないリモートホモロジー superfamly の検出 文字列カーネル関数を用いた検出 配列の比較では検出できないような, 進化関係にある遠縁配列 リモートホモログ の検索 一般に, 配列間に 30% の一致が認められれば, それは相同性がある. ところが,5~0% の一致率でも, 立体構造や機能の一致が見られる リモートホモログの考え 配列相同性の非常に低い複数のタンパク質が共通の立体構造をとる例 グロビンフォールドなど が数多く知られており, これらのタンパク質群はリモートホモログと呼ばれている 例 ATP bndng proten と chaperone proten は, アミノ酸配列の相同性は非常に低いため通常の配列比較では相互の関連が見出せないが, 両者の 3 次元構造上の類似性は非常に高く, また機能的にも関連が強い
SCOP データベース タンパク質の立体構造を階層的に分類した代表的なデータベース タンパク質の立体構造を形状を中心に, 人手で, 階層的に, 分類したデータベース SCOP における構造類似性の評価は, タンパク質単位でなくドメイン単位で行われている点が特徴 Root: SCOP Class: class class m Fold: Superfamly: fold fold fold n superfamly superfamly superfamly superfamly j Famly: famly famly famly3
SCOP の分類 SCOP データベース class: 構成している主要な二次構造による分類 all α, all β, α/β, αβ, その他 マルチドメイン, 膜タンパク質, 小さいタンパク質, コイルドコイル, ペプチド, 人工タンパク質, 低解像度の構造 common fold: 二次構造の構成, その空間的な配置が共通しているもの superfamly: 配列の一致度は高くないが, 構造や機能が共通の進化的起源をもっていると判断されるもの famly: 配列一致度が 30% 以上, もしくは構造や機能が非常に似ているもの 具体例 Root: scop Class: All alpha protens [46456] Fold: Globn-lke [46457] core: 6 helces; folded leaf, partly opened Superfamly: Globn-lke [46458] Famly: Globns [46463] Heme-bndng proten Proten: Hemoglobn, alpha-chan [46486]
SCOP データベース α ヘリックスと β シートが入り交じった構成 α ヘリックスと β シートが分離した構成
SCOP の分類 例題 SCOP データベース Common fold: Globn-lke 中の superfamly Globn-lke: alpha-helcal ferredon: contans two Fe4-S4 clusters Superfamly: Globn-lke 中の famly Truncated hemoglobn: lack the frst hel A Nerve tssue mn-hemoglobn neural globn: Globns: lack the frst hel but otherwse s more smlar to conventonal globns than the truncated ones Heme-bndng proten Phycocyann-lke phycoblsome protens: olgomers of two dfferent types of globn-lke subunts contanng two etra helces at the N-termnus bnds a bln chromophore
階層別のタンパク質の検索手法 Fold: 次構造予測手法 ニューラルネットワーク, など Superfamly:PSI-BLAST, 隠れマルコフモデル, など 文字列カーネル関数とサポートベクターマシン 3 Famly:BLAST, などの相同性検索 superfamly 内の類似性 リモートホモロジーの検出 文字列カーネル関数 サポートベクターマシン superfamly superfamly famly famly famly3 famly 内の相同性検索 アライメント BLAST
リモートホモログの検出実験 SCOP データベースを用いたリモートホモロジーの検出の実験 文字列カーネル SVM 隠れマルコフモデル PSI-BLAST