バイオインフォマティクスⅠ

Similar documents
バイオインフォマティクスⅠ

データサイエンス講座第 3 回機械学習その 2 ロジスティクス回帰 カーネル法とサポートベクターマシン アンサンブル学習

Microsoft PowerPoint - H17-5時限(パターン認識).ppt

0 部分的最小二乗回帰 Partial Least Squares Regression PLS 明治大学理 学部応用化学科 データ化学 学研究室 弘昌

Microsoft PowerPoint - 3rd-jikken-vscreen [互換モード]

PowerPoint Presentation

Microsoft PowerPoint - pr_12_template-bs.pptx

カーネル法

ファイナンスのための数学基礎 第1回 オリエンテーション、ベクトル

ボルツマンマシンの高速化

0 スペクトル 時系列データの前処理 法 平滑化 ( スムージング ) と微分 明治大学理 学部応用化学科 データ化学 学研究室 弘昌

標準的な健診・保健指導の在り方に関する検討会

画像類似度測定の初歩的な手法の検証

0 21 カラー反射率 slope aspect 図 2.9: 復元結果例 2.4 画像生成技術としての計算フォトグラフィ 3 次元情報を復元することにより, 画像生成 ( レンダリング ) に応用することが可能である. 近年, コンピュータにより, カメラで直接得られない画像を生成する技術分野が生

NGSデータ解析入門Webセミナー

09.pptx

模擬試験問題(第1章~第3章)

Microsoft PowerPoint - 10.pptx

[] 1

DVIOUT-SS_Ma

進捗状況の確認 1. gj も gjp も動いた 2. gj は動いた 3. gj も動かない 2

Microsoft PowerPoint - BIセンターセミナー2013.pptx[読み取り専用]

Microsoft PowerPoint - H21生物計算化学2.ppt

周期時系列の統計解析 (3) 移動平均とフーリエ変換 nino 2017 年 12 月 18 日 移動平均は, 周期時系列における特定の周期成分の消去や不規則変動 ( ノイズ ) の低減に汎用されている統計手法である. ここでは, 周期時系列をコサイン関数で近似し, その移動平均により周期成分の振幅

PowerPoint プレゼンテーション

生物物理 Vol. 45 No. 1 (2005) だけ正確なアラインメントが必要な方 (4) 立体構造とアミノ酸配列の関係, あるいは立体構造と機能との関係に興味がある方 2. おもなサービス 2.1 ペアワイズ3Dアラインメントこれは2つの構造をアラインメントする基本的な機能であり,MATRAS

Microsoft PowerPoint - mp11-02.pptx

PowerPoint Presentation

バイオインフォマティクスⅠ

多変量解析 ~ 重回帰分析 ~ 2006 年 4 月 21 日 ( 金 ) 南慶典

CourseDescriptions_

Presentation Title

13章 回帰分析

7-1(DNA配列から遺伝子を探す).ppt

Microsoft PowerPoint - 9.pptx

平成 年 月 7 日 ( 土 第 75 回数学教育実践研究会アスティ 45 ビル F セミナールーム A 札幌医科大学 年 P ab, を正の定数とする 平面上において ( a, を中心とする円 Q 4 C と (, b を中心とする円 C が 原点 O で外接している また P を円 C 上の点と

Qlucore_seminar_slide_180604

PowerPoint プレゼンテーション

例 e 指数関数的に減衰する信号を h( a < + a a すると, それらのラプラス変換は, H ( ) { e } e インパルス応答が h( a < ( ただし a >, U( ) { } となるシステムにステップ信号 ( y( のラプラス変換 Y () は, Y ( ) H ( ) X (

第6章 実験モード解析

の活性化が背景となるヒト悪性腫瘍の治療薬開発につながる 図4 研究である 研究内容 私たちは図3に示すようなyeast two hybrid 法を用いて AKT分子に結合する細胞内分子のスクリーニングを行った この結果 これまで機能の分からなかったプロトオンコジン TCL1がAKTと結合し多量体を形

Probit , Mixed logit

Kullback-Leibler 情報量を用いた亜種マルウェアの同定 電気通信大学 中村燎太 松宮遼 高橋一志 大山恵弘 1

目次 ガウス過程 (Gaussian Process; GP) 序論 GPによる回帰 GPによる識別 GP 状態空間モデル 概括 GP 状態空間モデルによる音楽ムードの推定

多次元レーザー分光で探る凝縮分子系の超高速動力学

ベイズ統計入門

Microsoft PowerPoint - 3.ppt [互換モード]

アルゴリズム入門

Microsoft PowerPoint - 100826上西説明PPT.ppt

ただ太っているだけではメタボリックシンドロームとは呼びません 脂肪細胞はアディポネクチンなどの善玉因子と TNF-αや IL-6 などという悪玉因子を分泌します 内臓肥満になる と 内臓の脂肪細胞から悪玉因子がたくさんでてきてしまい インスリン抵抗性につながり高血糖をもたらします さらに脂質異常症

プログラミング基礎

補足 中学で学習したフレミング左手の法則 ( 電 磁 力 ) と関連付けると覚えやすい 電磁力は電流と磁界の外積で表される 力 F 磁 電磁力 F li 右ねじの回転の向き電 li ( l は導線の長さ ) 補足 有向線分とベクトル有向線分 : 矢印の位

特殊なケースでの定式化技法

モデリングとは

航空機の運動方程式

Kumamoto University Center for Multimedia and Information Technologies Lab. 熊本大学アプリケーション実験 ~ 実環境における無線 LAN 受信電波強度を用いた位置推定手法の検討 ~ InKIAI 宮崎県美郷

第13章  テキストのクラスター分析

画像解析論(2) 講義内容

切片 ( 定数項 ) ダミー 以下の単回帰モデルを考えよう これは賃金と就業年数の関係を分析している : ( 賃金関数 ) ここで Y i = α + β X i + u i, i =1,, n, u i ~ i.i.d. N(0, σ 2 ) Y i : 賃金の対数値, X i : 就業年数. (

,995,972 6,992,875 1,158 4,383,372 4,380,511 2,612,600 2,612, ,433,188 3,330, ,880,573 2,779, , ,

コンピュータ応用・演習 情報処理システム

核内受容体遺伝子の分子生物学

山梨県生活習慣病実態調査の状況 1 調査目的平成 20 年 4 月に施行される医療制度改革において生活習慣病対策が一つの大きな柱となっている このため 糖尿病等生活習慣病の有病者 予備群の減少を図るために健康増進計画を見直し メタボリックシンドロームの概念を導入した 糖尿病等生活習慣病の有病者や予備

分子系統解析における様々な問題について 田辺晶史

配付資料 自習用テキスト 解析サンプル配布ページ 2

AI技術の紹介とセンサーデータ解析への応用

8. 自由曲線と曲面の概要 陽関数 陰関数 f x f x x y y y f f x y z g x y z パラメータ表現された 次元曲線 パラメータ表現は xyx 毎のパラメータによる陽関数表現 形状普遍性 座標独立性 曲線上の点を直接に計算可能 多価の曲線も表現可能 gx 低次の多項式は 計

テンソル ( その ) テンソル ( その ) スカラー ( 階のテンソル ) スカラー ( 階のテンソル ) 階数 ベクトル ( 階のテンソル ) ベクトル ( 階のテンソル ) 行列表現 シンボリック表現 [ ]

PrimerArray® Analysis Tool Ver.2.2

2008 年度下期未踏 IT 人材発掘 育成事業採択案件評価書 1. 担当 PM 田中二郎 PM ( 筑波大学大学院システム情報工学研究科教授 ) 2. 採択者氏名チーフクリエータ : 矢口裕明 ( 東京大学大学院情報理工学系研究科創造情報学専攻博士課程三年次学生 ) コクリエータ : なし 3.

KEGG.ppt

Transcription:

ポストゲノム生命科学方法論 榊原担当の第 回 慶應義塾大学生命情報学科 榊原康文

遺伝子発現プロファイルの解析手法 クラスタリング Unsupervsed 階層クラスタリング,k-means 法, 自己組織化マップ SOM 識別 Supervsed 線形識別関数,k- 近傍法, サポートベクターマシン ブール関数, ニューラルネットワーク

遺伝子発現データの識別 マイクロアレイの遺伝子発現データを つのクラスに分類 : 例 がん細胞の遺伝子発現データと正常細胞の発現データの識別 例 遺伝子発現データによるがん診断 正常細胞 識別 : 識別規則 関数 を学習する 腫瘍細胞? 予測 : 未知のサンプルを識別する

さまざまな識別の問題 例 メタボリックシンドローム : 内臓脂肪型肥満に高血糖 高血圧 高脂血症のうち つ以上を合併した状態 正常の男子 識別の属性 : 腹囲, 血圧, 中性脂肪, HDL コレステロール, 血糖 症候群の男子 識別関数 : 85cm, 30/85mmHg, 50mg/dL, 40mg/dL, 0mg/dL サンプルから統計的に見出したもの分子メカニズム的な根拠があるわけではない

さまざまな識別問題と識別関数の学習と予測 化合物の分類 標的タンパクへの結合 タンパク質の分類 タンパク質の機能分類 脳波形の分類 脳のシグナルの検出 などなど 学習データと識別関数を用いた予測 統計的手法 学習データ :つのクラス 正と負のクラス にすでに分類されている遺伝子発現データの集合学習 : 学習データを用いて発現データを正と負のクラスに正確に分類する識別関数を学習予測 : 学習された識別関数を用いて, 未分類 未知 の発現データを識別してそのクラス 正または負 を予測

識別の例 : ターゲットタンパク質 受容体 を固定 化合物 入力データ : コーディング サポートベクターマシン SVM 作用するクラス 作用しないクラス 学習 化合物の分類 大量の結合データ

Hwang H et al., Neurofeedback-based motor magery tranng for bran computer nterface BCI, J Neurosc Methods 79:50 56, 009. コマンドの指令 Bran-Machne Interface BMI パターン認識 脳波の計測 Magnetoencephalography MEG Electroencephalography EEG Functonal magnetc resonance magng fmri

BMI におけるパターン識別 : 脳波パターン 0., 3. 統計モデル 無し 脳波の特徴量コマンド [ コマンド ] の実行 脳波パターン 脳波の特徴量 -0.5, 0.0 統計モデル 無し コマンド コマンド実行無し

テンプレートマッチング法 : 遺伝子発現データの識別 代表ベクトル テンプレート, プロトタイプ をクラス平均として, 入力ベクトルと各クラスの代表ベクトルとの間の距離を計算して, 最も近いクラスに識別 クラス 正常細胞 クラス 腫瘍細胞 ー クラス 平均? クラス 平均 未知サンプル

テンプレートマッチング法と線形識別関数 クラス 平均クラス 平均テンプレートマッチング法 : 実は, クラス間の境界に線 超平面 を引いて, 識別をすることと同じ 線形識別関数線形識別関数 超平面 等距離 0,, 境界線は, つのクラスの領域の間の ユークリッド距離の二乗 間の距離 : のクラス平均と点 0 0

線形識別 閾値 関数 n 次元空間上の線形識別関数 : n 次元ベクトル :,, n 重み係数ベクトル : w w,,w n 閾値係数 : b w 0 g w w n j w b 線形識別関数による分類 :, g 0 f, g 0 j j n n のとき のとき b g w w b g 0 0 ー g 0

テンプレートマッチング法 マハラノビス距離 テンプレートマッチング法 : データの分散を考慮して距離を計算 マハラノビス距離 ユークリッド距離 マハラノビス距離 : 次曲線になる d クラス 平均 クラス 平均

識別規則の つの方向 単純なテンプレート法から, テンプレート 代表ベクトル の 数を増やす k- 近傍法 : テンプレートの数を増やし, 最も近いk 個のテンプレートが属するクラスの多数決を取る サポートベクターマシン : テンプレートの数を増やし, テンプレート間に線形識別関数を引く

テンプレートマッチング法 : テンプレートを増やす 代表ベクトルを複数に増やす 入力ベクトルを最も近い代表ベクトルが属するクラスに分類 等距離にある折線 クラス の複数の代表ベクトル クラス の複数の代表ベクトル

- 近傍法 : - 近傍法 すべてのサンプルをテンプレートとする 入力ベクトルを最も近いサンプルベクトルが属するクラスに分類 等距離にある折線 クラス のサンプルベクトル クラス のサンプルベクトル

k- 近傍法 : k- 近傍法 入力ベクトルを最も近い k 個のサンプルベクトルを選択し, k 個の中で最も多いクラスに分類 k3 の場合 : クラス のサンプルベクトル クラス のサンプルベクトル

サポートベクターマシン 複数のサンプルベクトル サポートベクター からの距離 マージン を最大にする線形識別関数を引く クラス の 線形識別関数 超平面 サポートベクトル p サポートベクトルでない 0 サポートベクトルでない p q クラス のサポートベクトル クラス 平均ベクトル クラス 平均ベクトル マージンを最大化

サポートベクターマシンサポートベクターマシンの学習 : サポートベクターからマージンを最大にする線形識別関数を求める, b w f すなわち, つの代表ベクトルの場合 : b w w b w f b w w w,, 閾値重みベクトル線形識別関数 : とするただし, とすると, サポートベクター : サポートベクターの場合 :,,,, 3 b wp wq wp wp b q p p w q p p

識別関数の学習問題 : 線形識別関数の学習 学習データが与えられたときに, どのように適切な識別関数を学習するのか? 学習データ g w w b 0

線形識別関数の学習アルゴリズムパーセプトロンのアルゴリズム ; ; ; 0 ; ma 0;,0; 0, }, {,,, },,,,, { 0 0 を正しく識別するまでここで, 学習サンプル untl for end end f then f to for repeat S k k R y b b y w w b w y m R b w y y y S k k k k k k j j j j j j m m m n

学習された重み係数と識別関数 パーセプトロンのアルゴリズムによって学習されたサンプル S を正しく識別する重み係数は, サンプルベクトルの線形結合で表される : 線形識別関数 m y w b y b y b w g m m のときのとき 0 0, 0, g g f ベクトルの内積 },,,, { m m m y y S

サポートベクターマシン法 SVM サポートベクターマシンの3つの特徴 カーネル関数 : ベクトルの内積の効率的計算 線形分離不可能な場合の高次元空間への写像 汎化理論 高い予測精度 マージン最大化 3 線形学習マシンの最適化 : 凸 次計画問題, ラグランジュ未定乗数法

線形識別 閾値 関数 線形分離可能な学習パターンと決定境界の例 線形分離不可能な学習パターンの例

サポートベクターマシン法 SVM 学習データを高次元へマッピング F カーネル関数 線形分離不可能な場合 高次元 超空間 へマッピング,,,

カーネル関数の種類 線形カーネル : 多項式カーネル : 3 RBFradal bass functon カーネル : y y K, k c y y K, ep, y y K 前ページの例は,c0, k の場合の多項式カーネルとなる c, k は自由パラメータ ハイパーパラメータ RBF カーネルを持つヒルベルト空間は十分豊かな非線形関数を含んでいる は自由パラメータ ハイパーパラメータ

さまざまな種類のデータからの特徴抽出 n 個の遺伝子がスポットされたマイクロアレイデータ n 次元ベクトル :,, n gene gene gene n 3 特徴 ベクトル で表されたデータに関しては, 様々な解析手法が存在する クラスタリング, 線形識別関数, 主成分分析 PCA, など 非数値的な, 構造的なデータ から, どのように特徴ベクトルを抽出するか? 4 DNA 配列やアミノ酸配列 タンパク質, ペプチドなどの配列, タンパク質立体構造, 糖鎖, 低分子化合物, などの種々のデータ

配列データのベクトル化 配列データから n 次元の実数値ベクトルへの変換 : * R n : w GGCAATTGA n, 0, 3, 0.5 カウントベクトル : 最も単純なベクトル化 配列中の各塩基 アミノ酸 の出現頻度をベクトルとする すなわち, 塩基やアミノ酸 組成のベクトルとなる 例 DNA 配列の場合 : : GGCAATTGA 3,,3, 4 次元ベクトル A の出現回数,C の出現回数,G の出現回数,T の出現回数 例 アミノ酸配列の場合 : 0 次元ベクトル : ALTDTGLST,0,,0,0,,0,0,0,,0,0,0,0,0,,3,0,0,0 A,C,D,E,F,G,H,I,K,L,M,N,P,Q,R,S,T,V,W,Y カウントベクトルは, 配列の特徴を十分に表したベクトルであるか? 類似した配列と異なる配列をカウントベクトルで分類できるか?

配列データのベクトル化 文字列ベクトル k- スペクトラムベクトル : すべての長さ k 文字列の出現頻度を数えてベクトル化する 例 DNA 配列の - スペクトラムベクトル : 6 次元ベクトル AA,AC,AG,AT,CA,CC,CG,CT,GA,GC,GG,GT,TA,TC,TG,TT : GGCAATTGA, 0, 0,,, 0, 0, 0,,,, 0, 0, 0,, 例 アミノ酸配列の 3- スペクトラムベクトル :0 3 8000 次元ベクトル : ALTDTGLST 0, 0,,,,,, 0 AAA,AAC,,ALT,,DTG,,YYY k- スペクトラムベクトルは, カウントベクトルよりも特徴ベクトルとして精度 は高い 結構いろんな問題をうまく解けてしまう

文字列ベクトルの問題点 : 配列データのベクトル化 ベクトルの次元数が指数関数的に増加してしまう 例えば, アミノ酸の k- スペクトラムベクトルの次元数は,0 k 次元 ベクトルの内積であれば次元数が増加しても効率よく計算 する手法が存在する 配列データの特徴ベクトルを直接扱わないで, その内積を計算する 3 文字列ベクトルのカーネル関数と効率的計算 文字列カーネル関数

文字列カーネル関数 ベクトルの内積であれば次元数が指数関数的に増加しても効率よく計算する手法が存在するベクトルの内積を計算する時には, 必ずしもベクトルのすべての次元数の要素を直接取り扱う必要は無い 例えば, スペクトラムベクトルでは, 与えられた配列中に現れない文 字列のベクトル値は 0 となり, その要素の内積を計算しても 0 となる ため, 内積を計算する時には省略することができる : GGCAATTGA, 0, 0,,, 0, 0, 0,,,, 0, 0, 0,, AA,AC,AG,AT,CA,CC,CG, TT 3 文字列の カーネル関数 の定義 : つの配列 v と w に対して K v, w v w を満たす関数 K

文字列カーネルを用いたサポートベクターマシン 配列データから特徴ベクトルへ変換 したベクトル空間上で定義される線形識別関数 特徴ベクトルの内積 : カーネル関数 3 文字列カーネル関数を用いた線形識別関数による識別と予測 : b w v K y b w v y w g m m,, w v w v K

カーネル関数の計算 : スペクトラムカーネル k- スペクトラムカーネル K k v,w: k- スペクトラムベクトルの内積 3 つの配列 v, w から長さ k のすべての部分文字列を切り出しそれぞれ lst k v, lst k w とする 内積を表す変数 nnerproduct を用意して,0 に初期化する lst k v の中の各文字列に対して, lst k w 中に同じ文字列が存在する場合に nnerproduct を 増加する v GCATATA, lst 3 v { GCA, CAT, ATA, TAT, ATA}, nnerproduct GCA lst CAT lst ATA lst TAT lst ATA lst 3 3 3 3 3 nnerproduct w CATACAT, 0; v nnerproduct v nnerproduct v nnerproduct v nnerproduct v nnerproduct 4; k 3 0; ; ; 0; ; lst 3 w { CAT, ATA, TAC, ACA, CAT}

カーネル関数の計算 : スペクトラムカーネル DNA 配列の場合では, k- スペクトラムベクトルの次元数 は 4 k のため,k- スペクトラムベクトルの内積の直接の計算 では,4 k 時間かかる 上記の例の k 3 の場合,4 3 64 次元 上記の k- スペクトラムカーネルのアルゴリズムの計算時間 は, O v w 上記の例の場合, 両方の配列中に現れた長さ 3 の文字列は全部 で 6 種類, したがって 64-658 種類の次元数を省略することが できた 3 O v w の計算時間で計算する効率的なアルゴリズム が存在する

カーネル関数の応用 : リモートホモログの検出 BLAST などの相同性検索では, 検出できないリモートホモロジー superfamly の検出 文字列カーネル関数を用いた検出 配列の比較では検出できないような, 進化関係にある遠縁配列 リモートホモログ の検索 一般に, 配列間に 30% の一致が認められれば, それは相同性がある. ところが,5~0% の一致率でも, 立体構造や機能の一致が見られる リモートホモログの考え 配列相同性の非常に低い複数のタンパク質が共通の立体構造をとる例 グロビンフォールドなど が数多く知られており, これらのタンパク質群はリモートホモログと呼ばれている 例 ATP bndng proten と chaperone proten は, アミノ酸配列の相同性は非常に低いため通常の配列比較では相互の関連が見出せないが, 両者の 3 次元構造上の類似性は非常に高く, また機能的にも関連が強い

SCOP データベース タンパク質の立体構造を階層的に分類した代表的なデータベース タンパク質の立体構造を形状を中心に, 人手で, 階層的に, 分類したデータベース SCOP における構造類似性の評価は, タンパク質単位でなくドメイン単位で行われている点が特徴 Root: SCOP Class: class class m Fold: Superfamly: fold fold fold n superfamly superfamly superfamly superfamly j Famly: famly famly famly3

SCOP の分類 SCOP データベース class: 構成している主要な二次構造による分類 all α, all β, α/β, αβ, その他 マルチドメイン, 膜タンパク質, 小さいタンパク質, コイルドコイル, ペプチド, 人工タンパク質, 低解像度の構造 common fold: 二次構造の構成, その空間的な配置が共通しているもの superfamly: 配列の一致度は高くないが, 構造や機能が共通の進化的起源をもっていると判断されるもの famly: 配列一致度が 30% 以上, もしくは構造や機能が非常に似ているもの 具体例 Root: scop Class: All alpha protens [46456] Fold: Globn-lke [46457] core: 6 helces; folded leaf, partly opened Superfamly: Globn-lke [46458] Famly: Globns [46463] Heme-bndng proten Proten: Hemoglobn, alpha-chan [46486]

SCOP データベース α ヘリックスと β シートが入り交じった構成 α ヘリックスと β シートが分離した構成

SCOP の分類 例題 SCOP データベース Common fold: Globn-lke 中の superfamly Globn-lke: alpha-helcal ferredon: contans two Fe4-S4 clusters Superfamly: Globn-lke 中の famly Truncated hemoglobn: lack the frst hel A Nerve tssue mn-hemoglobn neural globn: Globns: lack the frst hel but otherwse s more smlar to conventonal globns than the truncated ones Heme-bndng proten Phycocyann-lke phycoblsome protens: olgomers of two dfferent types of globn-lke subunts contanng two etra helces at the N-termnus bnds a bln chromophore

階層別のタンパク質の検索手法 Fold: 次構造予測手法 ニューラルネットワーク, など Superfamly:PSI-BLAST, 隠れマルコフモデル, など 文字列カーネル関数とサポートベクターマシン 3 Famly:BLAST, などの相同性検索 superfamly 内の類似性 リモートホモロジーの検出 文字列カーネル関数 サポートベクターマシン superfamly superfamly famly famly famly3 famly 内の相同性検索 アライメント BLAST

リモートホモログの検出実験 SCOP データベースを用いたリモートホモロジーの検出の実験 文字列カーネル SVM 隠れマルコフモデル PSI-BLAST