バイオインフォマティクスⅠ

ポストゲノム生命科学方法論榊原担当の第回慶應義塾大学生命情報学科榊原康文

遺伝子発現プロファイルの解析手法クラスタリング Unsupervsed 階層クラスタリング,k-means 法, 自己組織化マップ SOM 識別 Supervsed 線形識別関数,k- 近傍法, サポートベクターマシンブール関数, ニューラルネットワーク

遺伝子発現データの識別マイクロアレイの遺伝子発現データをつのクラスに分類 : 例がん細胞の遺伝子発現データと正常細胞の発現データの識別例遺伝子発現データによるがん診断正常細胞識別 : 識別規則関数を学習する腫瘍細胞? 予測 : 未知のサンプルを識別する

さまざまな識別の問題例メタボリックシンドローム : 内臓脂肪型肥満に高血糖高血圧高脂血症のうちつ以上を合併した状態正常の男子識別の属性 : 腹囲, 血圧, 中性脂肪, HDL コレステロール, 血糖症候群の男子識別関数 : 85cm, 30/85mmHg, 50mg/dL, 40mg/dL, 0mg/dL サンプルから統計的に見出したもの分子メカニズム的な根拠があるわけではない

さまざまな識別問題と識別関数の学習と予測化合物の分類標的タンパクへの結合タンパク質の分類タンパク質の機能分類脳波形の分類脳のシグナルの検出などなど学習データと識別関数を用いた予測統計的手法学習データ :つのクラス正と負のクラスにすでに分類されている遺伝子発現データの集合学習 : 学習データを用いて発現データを正と負のクラスに正確に分類する識別関数を学習予測 : 学習された識別関数を用いて, 未分類未知の発現データを識別してそのクラス正または負を予測

識別の例 : ターゲットタンパク質受容体を固定化合物入力データ : コーディングサポートベクターマシン SVM 作用するクラス作用しないクラス学習化合物の分類大量の結合データ

Hwang H et al., Neurofeedback-based motor magery tranng for bran computer nterface BCI, J Neurosc Methods 79:50 56, 009. コマンドの指令 Bran-Machne Interface BMI パターン認識脳波の計測 Magnetoencephalography MEG Electroencephalography EEG Functonal magnetc resonance magng fmri

BMI におけるパターン識別 : 脳波パターン 0., 3. 統計モデル無し脳波の特徴量コマンド [ コマンド ] の実行脳波パターン脳波の特徴量 -0.5, 0.0 統計モデル無しコマンドコマンド実行無し

テンプレートマッチング法 : 遺伝子発現データの識別代表ベクトルテンプレート, プロトタイプをクラス平均として, 入力ベクトルと各クラスの代表ベクトルとの間の距離を計算して, 最も近いクラスに識別クラス正常細胞クラス腫瘍細胞ークラス平均? クラス平均未知サンプル

テンプレートマッチング法と線形識別関数クラス平均クラス平均テンプレートマッチング法 : 実は, クラス間の境界に線超平面を引いて, 識別をすることと同じ線形識別関数線形識別関数超平面等距離 0,, 境界線は, つのクラスの領域の間のユークリッド距離の二乗間の距離 : のクラス平均と点 0 0

線形識別閾値関数 n 次元空間上の線形識別関数 : n 次元ベクトル :,, n 重み係数ベクトル : w w,,w n 閾値係数 : b w 0 g w w n j w b 線形識別関数による分類 :, g 0 f, g 0 j j n n のときのとき b g w w b g 0 0 ー g 0

テンプレートマッチング法マハラノビス距離テンプレートマッチング法 : データの分散を考慮して距離を計算マハラノビス距離ユークリッド距離マハラノビス距離 : 次曲線になる d クラス平均クラス平均

識別規則のつの方向単純なテンプレート法から, テンプレート代表ベクトルの数を増やす k- 近傍法 : テンプレートの数を増やし, 最も近いk 個のテンプレートが属するクラスの多数決を取るサポートベクターマシン : テンプレートの数を増やし, テンプレート間に線形識別関数を引く

テンプレートマッチング法 : テンプレートを増やす代表ベクトルを複数に増やす入力ベクトルを最も近い代表ベクトルが属するクラスに分類等距離にある折線クラスの複数の代表ベクトルクラスの複数の代表ベクトル

- 近傍法 : - 近傍法すべてのサンプルをテンプレートとする入力ベクトルを最も近いサンプルベクトルが属するクラスに分類等距離にある折線クラスのサンプルベクトルクラスのサンプルベクトル

k- 近傍法 : k- 近傍法入力ベクトルを最も近い k 個のサンプルベクトルを選択し, k 個の中で最も多いクラスに分類 k3 の場合 : クラスのサンプルベクトルクラスのサンプルベクトル

サポートベクターマシン複数のサンプルベクトルサポートベクターからの距離マージンを最大にする線形識別関数を引くクラスの線形識別関数超平面サポートベクトル p サポートベクトルでない 0 サポートベクトルでない p q クラスのサポートベクトルクラス平均ベクトルクラス平均ベクトルマージンを最大化

サポートベクターマシンサポートベクターマシンの学習 : サポートベクターからマージンを最大にする線形識別関数を求める, b w f すなわち, つの代表ベクトルの場合 : b w w b w f b w w w,, 閾値重みベクトル線形識別関数 : とするただし, とすると, サポートベクター : サポートベクターの場合 :,,,, 3 b wp wq wp wp b q p p w q p p

識別関数の学習問題 : 線形識別関数の学習学習データが与えられたときに, どのように適切な識別関数を学習するのか? 学習データ g w w b 0

線形識別関数の学習アルゴリズムパーセプトロンのアルゴリズム ; ; ; 0 ; ma 0;,0; 0, }, {,,, },,,,, { 0 0 を正しく識別するまでここで, 学習サンプル untl for end end f then f to for repeat S k k R y b b y w w b w y m R b w y y y S k k k k k k j j j j j j m m m n

学習された重み係数と識別関数パーセプトロンのアルゴリズムによって学習されたサンプル S を正しく識別する重み係数は, サンプルベクトルの線形結合で表される : 線形識別関数 m y w b y b y b w g m m のときのとき 0 0, 0, g g f ベクトルの内積 },,,, { m m m y y S

サポートベクターマシン法 SVM サポートベクターマシンの3つの特徴カーネル関数 : ベクトルの内積の効率的計算線形分離不可能な場合の高次元空間への写像汎化理論高い予測精度マージン最大化 3 線形学習マシンの最適化 : 凸次計画問題, ラグランジュ未定乗数法

線形識別閾値関数線形分離可能な学習パターンと決定境界の例線形分離不可能な学習パターンの例

サポートベクターマシン法 SVM 学習データを高次元へマッピング F カーネル関数線形分離不可能な場合高次元超空間へマッピング,,,

カーネル関数の種類線形カーネル : 多項式カーネル : 3 RBFradal bass functon カーネル : y y K, k c y y K, ep, y y K 前ページの例は,c0, k の場合の多項式カーネルとなる c, k は自由パラメータハイパーパラメータ RBF カーネルを持つヒルベルト空間は十分豊かな非線形関数を含んでいるは自由パラメータハイパーパラメータ

さまざまな種類のデータからの特徴抽出 n 個の遺伝子がスポットされたマイクロアレイデータ n 次元ベクトル :,, n gene gene gene n 3 特徴ベクトルで表されたデータに関しては, 様々な解析手法が存在するクラスタリング, 線形識別関数, 主成分分析 PCA, など非数値的な, 構造的なデータから, どのように特徴ベクトルを抽出するか? 4 DNA 配列やアミノ酸配列タンパク質, ペプチドなどの配列, タンパク質立体構造, 糖鎖, 低分子化合物, などの種々のデータ

配列データのベクトル化配列データから n 次元の実数値ベクトルへの変換 : * R n : w GGCAATTGA n, 0, 3, 0.5 カウントベクトル : 最も単純なベクトル化配列中の各塩基アミノ酸の出現頻度をベクトルとするすなわち, 塩基やアミノ酸組成のベクトルとなる例 DNA 配列の場合 : : GGCAATTGA 3,,3, 4 次元ベクトル A の出現回数,C の出現回数,G の出現回数,T の出現回数例アミノ酸配列の場合 : 0 次元ベクトル : ALTDTGLST,0,,0,0,,0,0,0,,0,0,0,0,0,,3,0,0,0 A,C,D,E,F,G,H,I,K,L,M,N,P,Q,R,S,T,V,W,Y カウントベクトルは, 配列の特徴を十分に表したベクトルであるか? 類似した配列と異なる配列をカウントベクトルで分類できるか?

配列データのベクトル化文字列ベクトル k- スペクトラムベクトル : すべての長さ k 文字列の出現頻度を数えてベクトル化する例 DNA 配列の - スペクトラムベクトル : 6 次元ベクトル AA,AC,AG,AT,CA,CC,CG,CT,GA,GC,GG,GT,TA,TC,TG,TT : GGCAATTGA, 0, 0,,, 0, 0, 0,,,, 0, 0, 0,, 例アミノ酸配列の 3- スペクトラムベクトル :0 3 8000 次元ベクトル : ALTDTGLST 0, 0,,,,,, 0 AAA,AAC,,ALT,,DTG,,YYY k- スペクトラムベクトルは, カウントベクトルよりも特徴ベクトルとして精度は高い結構いろんな問題をうまく解けてしまう

文字列ベクトルの問題点 : 配列データのベクトル化ベクトルの次元数が指数関数的に増加してしまう例えば, アミノ酸の k- スペクトラムベクトルの次元数は,0 k 次元ベクトルの内積であれば次元数が増加しても効率よく計算する手法が存在する配列データの特徴ベクトルを直接扱わないで, その内積を計算する 3 文字列ベクトルのカーネル関数と効率的計算文字列カーネル関数

文字列カーネル関数ベクトルの内積であれば次元数が指数関数的に増加しても効率よく計算する手法が存在するベクトルの内積を計算する時には, 必ずしもベクトルのすべての次元数の要素を直接取り扱う必要は無い例えば, スペクトラムベクトルでは, 与えられた配列中に現れない文字列のベクトル値は 0 となり, その要素の内積を計算しても 0 となるため, 内積を計算する時には省略することができる : GGCAATTGA, 0, 0,,, 0, 0, 0,,,, 0, 0, 0,, AA,AC,AG,AT,CA,CC,CG, TT 3 文字列のカーネル関数の定義 : つの配列 v と w に対して K v, w v w を満たす関数 K

文字列カーネルを用いたサポートベクターマシン配列データから特徴ベクトルへ変換したベクトル空間上で定義される線形識別関数特徴ベクトルの内積 : カーネル関数 3 文字列カーネル関数を用いた線形識別関数による識別と予測 : b w v K y b w v y w g m m,, w v w v K

カーネル関数の計算 : スペクトラムカーネル k- スペクトラムカーネル K k v,w: k- スペクトラムベクトルの内積 3 つの配列 v, w から長さ k のすべての部分文字列を切り出しそれぞれ lst k v, lst k w とする内積を表す変数 nnerproduct を用意して,0 に初期化する lst k v の中の各文字列に対して, lst k w 中に同じ文字列が存在する場合に nnerproduct を増加する v GCATATA, lst 3 v { GCA, CAT, ATA, TAT, ATA}, nnerproduct GCA lst CAT lst ATA lst TAT lst ATA lst 3 3 3 3 3 nnerproduct w CATACAT, 0; v nnerproduct v nnerproduct v nnerproduct v nnerproduct v nnerproduct 4; k 3 0; ; ; 0; ; lst 3 w { CAT, ATA, TAC, ACA, CAT}

カーネル関数の計算 : スペクトラムカーネル DNA 配列の場合では, k- スペクトラムベクトルの次元数は 4 k のため,k- スペクトラムベクトルの内積の直接の計算では,4 k 時間かかる上記の例の k 3 の場合,4 3 64 次元上記の k- スペクトラムカーネルのアルゴリズムの計算時間は, O v w 上記の例の場合, 両方の配列中に現れた長さ 3 の文字列は全部で 6 種類, したがって 64-658 種類の次元数を省略することができた 3 O v w の計算時間で計算する効率的なアルゴリズムが存在する

カーネル関数の応用 : リモートホモログの検出 BLAST などの相同性検索では, 検出できないリモートホモロジー superfamly の検出文字列カーネル関数を用いた検出配列の比較では検出できないような, 進化関係にある遠縁配列リモートホモログの検索一般に, 配列間に 30% の一致が認められれば, それは相同性がある. ところが,5~0% の一致率でも, 立体構造や機能の一致が見られるリモートホモログの考え配列相同性の非常に低い複数のタンパク質が共通の立体構造をとる例グロビンフォールドなどが数多く知られており, これらのタンパク質群はリモートホモログと呼ばれている例 ATP bndng proten と chaperone proten は, アミノ酸配列の相同性は非常に低いため通常の配列比較では相互の関連が見出せないが, 両者の 3 次元構造上の類似性は非常に高く, また機能的にも関連が強い

SCOP データベースタンパク質の立体構造を階層的に分類した代表的なデータベースタンパク質の立体構造を形状を中心に, 人手で, 階層的に, 分類したデータベース SCOP における構造類似性の評価は, タンパク質単位でなくドメイン単位で行われている点が特徴 Root: SCOP Class: class class m Fold: Superfamly: fold fold fold n superfamly superfamly superfamly superfamly j Famly: famly famly famly3

SCOP の分類 SCOP データベース class: 構成している主要な二次構造による分類 all α, all β, α/β, αβ, その他マルチドメイン, 膜タンパク質, 小さいタンパク質, コイルドコイル, ペプチド, 人工タンパク質, 低解像度の構造 common fold: 二次構造の構成, その空間的な配置が共通しているもの superfamly: 配列の一致度は高くないが, 構造や機能が共通の進化的起源をもっていると判断されるもの famly: 配列一致度が 30% 以上, もしくは構造や機能が非常に似ているもの具体例 Root: scop Class: All alpha protens [46456] Fold: Globn-lke [46457] core: 6 helces; folded leaf, partly opened Superfamly: Globn-lke [46458] Famly: Globns [46463] Heme-bndng proten Proten: Hemoglobn, alpha-chan [46486]

SCOP データベース α ヘリックスと β シートが入り交じった構成 α ヘリックスと β シートが分離した構成

SCOP の分類例題 SCOP データベース Common fold: Globn-lke 中の superfamly Globn-lke: alpha-helcal ferredon: contans two Fe4-S4 clusters Superfamly: Globn-lke 中の famly Truncated hemoglobn: lack the frst hel A Nerve tssue mn-hemoglobn neural globn: Globns: lack the frst hel but otherwse s more smlar to conventonal globns than the truncated ones Heme-bndng proten Phycocyann-lke phycoblsome protens: olgomers of two dfferent types of globn-lke subunts contanng two etra helces at the N-termnus bnds a bln chromophore

階層別のタンパク質の検索手法 Fold: 次構造予測手法ニューラルネットワーク, など Superfamly:PSI-BLAST, 隠れマルコフモデル, など文字列カーネル関数とサポートベクターマシン 3 Famly:BLAST, などの相同性検索 superfamly 内の類似性リモートホモロジーの検出文字列カーネル関数サポートベクターマシン superfamly superfamly famly famly famly3 famly 内の相同性検索アライメント BLAST

リモートホモログの検出実験 SCOP データベースを用いたリモートホモロジーの検出の実験文字列カーネル SVM 隠れマルコフモデル PSI-BLAST