遺伝子発現データの クラスタリングの理論的背景

Similar documents
Perl + α. : DNA, mrna,,

2

13FG-生物-問題_H1.indd

表紙/151708H

syoku10_10.indd

狂牛病調査第2巻1章,2章.doc

スライド 1

1_alignment.ppt

問 1. 次の文章を読み 以下の設問 (1)~(3) に答えよ タンパク質 X の N 末端にヒスチジンタグを付加し これを大腸菌で大量発現して精製する実験を計画している (1) その準備として 遺伝子 x を PCR で増幅し T7 プロモーターを持つベクター (pet28a) の NdeI と

™·”õ/sec3_p63_84/fiü“eflÅ

Microsoft PowerPoint - molsim-okamoto-07I

人工知能補足_池村

PowerPoint プレゼンテーション

Microsoft PowerPoint - ã…’ã‡¤ã…ƒã‡¯ã†®ä¸ŒçŁ„2018

2

ナノの技術をバイオに応用

目次 CONTENTS PRESS RELEASE GALLERY ~3 細胞機能を 在に制御 改変する技術 Nano-heater による細胞熱 学エンジニアリング Technology to Manipulate Cellular Functions Using a Nano-hea

B0B820DFD845F9DE49256B7D0002B34

スライド 1

スライド 1

3. 生化学的検査 >> 3C. 低分子窒素化合物 >> 3C045. 検体採取 患者の検査前準備 検体採取のタイミング 記号添加物 ( キャップ色等 ) 採取材料採取量測定材料ネ丸底プレイン ( 白 ) 尿 9 ml 注 外 N60 セイカ 検体ラベル ( 単項目オーダー時 ) ホンハ

Tox

本文/A6143I

7-1(DNA配列から遺伝子を探す).ppt

Saito R.

筆答専門試験科目 ( 午前 ) 融合理工学系 30 大修 時間 9:30~11:00 注意事項 1. 設問は 問題 1 から 問題 2 まで 2 題ある 2.2 題すべてについて解答すること 1

HOE901 A S S Gly Ile Val Glu Gln Cys Cys Thr Ser Ile Cys Ser Leu Tyr Gln Leu Glu Asn Tyr Cys Gly

(別添)安全性未審査の組換えDNA技術応用食品の検査方法_NIHS 最終版_YF

日本化学療法学会雑誌第57巻第1号

ウェブ23Brev2

untitled

ŁRŁ¸•ñŁŁŁ‘

,328 C 6426 H 9900 N 1700 O 2008 S , ,

ウイルス進化_池村

Microsoft PowerPoint - protein1.ppt [互換モード]

本日の道筋 1. 生命体を構成する細胞 2. 遺伝情報の継承 3. 遺伝情報からタンパク質へ 4. 生体内での情報の流れ 5. ゲノムと遺伝子産物の解明と技術 6. 遺伝子多型 遺伝病 関連解析 7. トランスクリプトーム解析 ヒト遺伝子アノテーションデータベース 生化学 発生学 2

Microsoft PowerPoint - BIセンターセミナー2013.pptx[読み取り専用]

資料

Microsoft Word -

37-4.indd

バイオインフォマティクスⅠ

バイオ医薬品における特許の現状

スライド 1

高齢者の口蓋垂に生じた扁平上皮乳頭腫の1例

Microsoft PowerPoint 説明資料(きのこを活用してGABA富化素材を作る)林産試験場

文系(問題編)

Microsoft PowerPoint 熊大 城野.ppt

2. 背景タンパク質を構成するアミノ酸には L-アミノ酸と D-アミノ酸の 2 つの鏡像異性体が存在します ( 図 1) これまで生物は L-アミノ酸のみを選択的に利用していると考えられてきました ところが分析技術の進歩と共に 生物の体内に少量ながらも D-アミノ酸が存在することが分かってきました

PowerPoint プレゼンテーション

生物学入門

MB-lecture12.pptx

Polyoxometalateが有するcysteine検出能の検討及びジスルフィド結合形成反応への展開

2

<4D F736F F F696E74202D203692B98EE691E58A C946E8D758E74205B8CDD8AB B83685D>

014E83AC26AFE ACA001C23F

(12・6No.3)予稿集資料(福岡大学 福田)-1

生物学入門

東京都健康安全研究センター研究年報

DA RA

Microsoft PowerPoint - プレゼンテーション1

日本化学療法学会雑誌第66巻第2号

Nov12_2009.pptx

質量分析計を用いて腸内細菌叢が産生するD-アミノ酸を新発見―高感度ハイスループット・キラルアミノ酸解析でD-アミノ酸研究に新展開―

Slide 1

タンパク質の合成と 構造 機能 7 章 +24 頁 転写と翻訳リボソーム遺伝子の調節タンパク質の構造弱い結合とタンパク質の機能

Microsoft PowerPoint - 基礎生物学A-6-メンデル遺伝.pptx

セリン OH 基は極性をもつ 親水的である トレオニン OH 基は極性をもつ 親水的である チロシン OH 基は極性をもつ 親水的である 解離してマイナスの電荷を帯びる 4 側鎖 アラニン 疎水的である グリシンの次に単純 グリシン もっとも単純な構造のアミノ酸 α 炭素が不斉炭素でないので唯一立体

Microsoft Word - 第23ニューラル.doc

2

スライド 1

ISSN No.441 March RNA TOPICS

10 高分子化学 10.1 高分子序論炭素分子が共有結合で結びついていると 高分子化学物という 例えば ポリエチレンや PET ナイロン繊維などの人工物やセルロース たんぱく質などの生体化合物である 黒鉛は高分子に数えないのが普通である 多くの高分子は 小さな繰り返しの単位が 結びつき 高分子となっ

Vol (??? 1959) DNA Analysis of Evolutionary Lineage by Self-organizing map Kentaro Nishimuta, 1 Ikuo Yoshihara, 2 Kunihito Yamamori 2 a

Microsoft PowerPoint - seiri1(08).ppt

FMO法のリガンド-タンパク質相互作用解析への応用

新技術説明会 様式例

NGSデータ解析入門Webセミナー

コンピュータ応用・演習 情報処理システム

研究成果報告書


memo

Microsoft PowerPoint _生物配列解析基礎_3回目.pptx

Microsoft Word - ボツリヌス病原体検査マニュアル docx

津村漢方雑誌表紙_ol.ai


α κ λ α β β β β α

1.9 一般的名称に係る文書 1.9 一般的名称に係る文書 国際一般名 (INN) thrombomodulin alfa(r-inn List54, WHO Drug Information, Vol.19, No.3, 2005) 一般的名称 (JAN) 一般的名称 (J

untitled


PowerPoint Presentation

色覚(初組4).pm

生物有機化学

2 研 究 背 景 食 肉 は 量 的 生 産 を 目 的 とした 時 代 から 質 的 生 産 に 切 り 替 わった しかし 食 肉 品 質 には 多 数 の 要 素 が 関 係 し(タンパク 質 脂 肪 糖 熟 成 など) 食 品 の 中 でも 評 価 が 難 しいとされる そこで 諸 々の

<4D F736F F F696E74202D2091E682508FCD E836D8E5F82C6835E E8EBF205B8CDD8AB B83685D>

小角散乱を用いて多機能タンパク質の 機能発現の分子機構を探る


石井研雑誌会 No M2 小倉一将 構造学的に見た Electron bifurcation はじめに Electron bifurcation は酵素反応の一種であり 酸化還元的な発エルゴン反応と吸エルゴン反応が共役するシステムのことを指す フラビンや鉄硫黄クラスターなど様々な電子伝達

生物学入門

PowerPoint プレゼンテーション

PowerPoint プレゼンテーション

Transcription:

自己組織化マップ Self-Organization Map (SOM)

自己組織化マップとは? K 平均アルゴリズムは あらかじめクラスター数 K を設定し 互いに近い値を持った各要素が同一クラスターに所属するように所属クラスターを決めてゆく 自己組織化マップは互いに近い値を持った各要素が近くなるように低い次元上にマップする 自己組織化マップは 1988 年に Kohonen が提案した (Kohonen 1934-)

自己組織化とは? (Wikipedia より ) 大脳皮質の視覚野をモデル化したニューラルネットの一種 教師なし学習によるクラスタリングの手法の一つ 次元削減による可視化の手法の一つ

生物の神経細胞の構造をモデル化 樹状突起 軸索 細胞体 神経末端 ( 基礎分子生物学 3 学生作成資料より ) 神経細胞 すなわちニューロンが情報処理の単位 樹状突起がニューロンに対する入力 軸索がニューロンからの出力 計算機上では各ニューロンをノード 軸索をエッジとして表す

似た情報が入力されると 脳の似た細胞が反応する?

SOM (Self Organization Map) 自己組織化マップ 多次元情報を低い次元にマッピングする データが近いもの同士がマッピングでも近くなるように配置する X(1) = (9.5, 3.2, 7.5, 9.7, 6.1) X(2) = (2.1, 2.9, 2.1, 3.1, 1.1) X(3) = (2.2, 2.7, 2.3, 3.0, 1.2)

SOM のネットワーク構造 出力層 出力ノード 重み 1.7 入力層 入力ノード 1 2 1.2 2.3 入力データ

入力データの提示 距離の計算 出力層 (a) 0.7 1.5 入力層 入力ノード 1 2 入力データ 1.2 2.3 距離 = (1.2 0.7) 2 + (2.3 1.5) 2 = 0.89

最小距離ノード j min の特定 出力層 j min (b) 1.1 1.9 入力層 入力ノード 1 2 入力データ 1.2 2.3

近傍ノード N jmin の特定 N jmin (c) 出力層 j min 1.1 1.9 2.1 2.5 入力層 入力ノード 1 2 入力データ 1.2 2.3

近傍ノード N jmin の重みの更新 N jmin (d) 出力層 j min 1.15 2.1 1.65 2.4 入力層 入力ノード 1 2 入力データ 1.2 2.3 入力ノード 1 と j min の新しい重み w 1,jmin = 1.1 + η(1.2-1.1) η=0.5 なら 1.15 となる入力データと重みの差

次々と入力データを変えて提示 出力層 w 入力層 入力ノード 1 2 入力データ入力データ入力データ 3.9 2.1 2.2 2.5 1.2 0.3 入力層から出力層への重み w を逐次変えてゆく N jmin の範囲を狭めてゆく η を小さくしてゆく 最終的には各入力データが所属する出力層のノードは最小距離ノードとなる

SOM による二次元へのマッピング # d1 d2 d3 0 4.0 5.0 2.0 1 4.1 5.2 2.3 2 70.0 70.0 70.0 3 4.3 5.0 2.1 4 20.0 21.0 22.0 5 3.8 5.3 2.0 6 1.0 2.0 3.0 7 5.0 4.0 3.0 8 1.0 3.0 3.0 9 1.0 2.1 3.1 10 5.1 4.1 3.1 11 1.1 3.1 3.1 12 50.0 34.0 13.0 13 45.0 32.0 15.0 14 49.0 51.0 21.0 15 3.9 5.0 2.1 16 21.0 22.0 23.0 17 23.0 24.0 25.0 18 25.0 26.0 27.0 19 4.5 5.1 2.2 (a) 3 19 7 10 2 0,15 5 1 11 16 14 8 6 17 9 4 13 18 12 (b)

遺伝子の発現のプロセス DNA ATG 遺伝子 TAA 転写 mrna AUG UAA 翻訳 タンパク質

タンパク質合成ー翻訳 コドン アミノ酸 タンパク質 システイン セリン スレオニン スレオニン trna mrna ACC ACGAGUACA UGCUCAUGUUGG

遺伝暗号表 UUU Phe (F) UCU Ser (S) UAU Tyr (Y) UGU Cys (C) UUC Phe (F) UCC Ser (S) UAC Tyr (Y) UGC Cys (C) UUA Leu (L) UCA Ser (S) UAA * UGA * UUG Leu (L) UCG Ser (S) UAG * UGG Trp (W) CUU Leu (L) CCU Pro (P) CAU His (H) CGU Arg (R) CUC Leu (L) CCC Pro (P) CAC His (H) CGC Arg (R) CUA Leu (L) CCA Pro (P) CAA Gln (Q) CGA Arg (R) CUG Leu (L) CCG Pro (P) CAG Gln (Q) CGG Arg (R) AUU Ile (I) ACU Thr (T) AAU Asn (N) AGU Ser (S) AUC Ile (I) ACC Thr (T) AAC Asn (N) AGC Ser (S) AUA Ile (I) ACA Thr (T) AAA Lys (K) AGA Arg (R) AUG Met (M) ACG Thr (T) AAG Lys (K) AGG Arg (R) GUU Val (V) GCU Ala (A) GAU Asp (D) GGU Gly (G) GUC Val (V) GCC Ala (A) GAC Asp (D) GGC Gly (G) GUA Val (V) GCA Ala (A) GAA Glu (E) GGA Gly (G) GUG Val (V) GCG Ala (A) GAG Glu (E) GGG Gly (G)

コドン使用の解析 遺伝子 A: atg acg agt acg taa 遺伝子 B: atg aac tac aac tag 遺伝子 C: atg aat aat aat taa.. atg=0.25, acg=0.5, agt=0.25 atg=0.25, aac=0.5, tac=0.25 atg=0.25, aat=0.75 各遺伝子のコドン使用は 61 次元のベクトルとして表現される aaa aac aag aat aca acg act.. 遺伝子 A=(0.0, 0.0, 0.0, 0.0, 0.5, 0.0, 0.0,..) 遺伝子 B=(0.0, 0.5, 0.0, 0.0, 0.0, 0.0, 0.0,..) 遺伝子 C=(0.0, 0.0, 0.0, 0.75,0.0, 0.0, 0.0,..) 様々な生物種の遺伝子のコドン使用を一斉に SOM にかけると

SOM によるコドン使用の解析 50 45 40 35 30 25 20 15 Bbur Bsub Buch Ctra Ecoli Hinf Hpyl Mgen Mtub Paer Tpal Vcho 10 5 0 0 5 10 15 20 25 30 35 40 45 50

Perl による SOM の実装 http://www.bioinfo.sfc.keio.ac.jp/class/bioin fo-a の本日の授業の箇所よりファイルをダウンロードし 解凍 ファイルを各自の作業ディレクトリに配置 RS_data_handler.pm 多次元データを扱うパッケージ rslib_som.pm SOM に有用な関数群 test1.pl 上記関数の使用サンプル testdata1.txt テストデータ

初期設定 #!/usr/bin/env perl use strict; use warnings; require Exporter; use RS_data_handler; use rslib_som qw(find_winner neighbour); *::X_LEN = 10; # 横のノード数 *::Y_LEN = 10; # 縦のノード数

データの読み込み # ファイル中のデータを扱うためのオブジェクト my $data_obj = new RS_data_handler "./testdata1.txt"; print Dimension:, $data_obj->dim(), n ; # データの次元数 print "Some input data: n"; for my $i (0..29){ # 次々と入力データを廻してデータラベルを $label データを @data に格納 my($label, @data) = $data_obj->next_data(); print join(" t", $label, @data), " n"; } print "All data: n"; # 全てのデータを一度に取り出す for my $data_ref (@{$data_obj->all_data()}){ my($label, @data) = @$data_ref; print join(" t", $label, @data), " n"; }

重みをランダムに振る my @w; # 入力層のノード $i から出力層 $j への重みは $w[$j]->[$i] として実装 # $j の X 座標は $x % $::X_LEN # $j の Y 座標は int($x / $::X_LEN) for(my $j = 0; $j < $::X_LEN * $::Y_LEN;$j ++){ for(my $i = 0;$i < $data_obj->dim();$i ++){ $w[$j]->[$i] = rand(); } }

最小距離ノードの決定 my($label, @data) = $data_obj->next_data(); my $min_j = find_winner( @data, @w); print "$min_j n";

近傍ユニットの特定 my @neighbours = neighbour($min_j, $range, $::X_LEN, $::Y_LEN); print "Neighbours: ", join(",", @neighbours), " n";

各データの最終的な 所属ノード ( 出力層 ) の出力 for my $data_ref (@{$data_obj->all_data()}){ } my($label, @data) = @$data_ref; my $min_j = find_winner( @data, @w); my $x = $min_j % $::X_LEN; my $y = int($min_j / $::X_LEN); print join(" t", $label, $min_j, $x, $y, @data), " n";