YAKUGAKU ZASSHI 128(11) (2008) 2008 The Pharmaceutical Society of Japan 1525 Reviews バイオデータベースリテラシーと制御領域配列を利用した新規創薬ターゲットの探索 宮崎 智 Bio-databas

Similar documents
画像類似度測定の初歩的な手法の検証

Untitled

国立遺伝学研究所におけるDNAデータバンク:DDBJ

A Constructive Approach to Gene Expression Dynamics

Microsoft Word - 1 color Normalization Document _Agilent version_ .doc

ChIP-seq

NGSデータ解析入門Webセミナー

生命情報学

ダンゴムシの 交替性転向反応に 関する研究 3A15 今野直輝

国際塩基配列データベース n DNA のデータベース GenBank ( アメリカ :Na,onal Center for Biotechnology Informa,on, NCBI が運営 ) EMBL ( ヨーロッパ : 欧州生命情報学研究所が運営 ) DDBJ ( 日本 : 国立遺伝研内の日

AJACS_komachi.key

論文題目  腸管分化に関わるmiRNAの探索とその発現制御解析


核内受容体遺伝子の分子生物学

DEIM Forum 2010 A Web Abstract Classification Method for Revie

人工知能補足_池村

1 Web [2] Web [3] [4] [5], [6] [7] [8] S.W. [9] 3. MeetingShelf Web MeetingShelf MeetingShelf (1) (2) (3) (4) (5) Web MeetingShelf

修士論文予稿集の雛型

図 B 細胞受容体を介した NF-κB 活性化モデル

Microsoft Word - PRESS_

バイオインフォマティクスⅠ

多変量解析 ~ 重回帰分析 ~ 2006 年 4 月 21 日 ( 金 ) 南慶典

Microsoft PowerPoint - 【配布・WEB公開用】SAS発表資料.pptx

理科教育学研究

1_alignment.ppt

KEGG.ppt

二項ソフトクラスタリング分析例 この資料では Visual Mining Studio のアイコン Dyadic Soft Clustering を使って 二項ソフトクラスタリング 分析をする方法を説明します 二項ソフトクラスタリングは一般的には PLSI, PLSA などの名前で知られています 株

問 題

<4D F736F F D208EC08CB18C7689E68A E F193F18D8095AA957A C C839395AA957A814590B38B4B95AA957A2E646F63>

ビジネス統計 統計基礎とエクセル分析 正誤表

Hi-level 生物 II( 国公立二次私大対応 ) DNA 1.DNA の構造, 半保存的複製 1.DNA の構造, 半保存的複製 1.DNA の構造 ア.DNA の二重らせんモデル ( ワトソンとクリック,1953 年 ) 塩基 A: アデニン T: チミン G: グアニン C: シトシン U

IPSJ SIG Technical Report Vol.2014-IOT-27 No.14 Vol.2014-SPT-11 No /10/10 1,a) 2 zabbix Consideration of a system to support understanding of f

様々なミクロ計量モデル†

Microsoft Word - å“Ÿåłžå¸°173.docx

スライド 1

1. はじめに 1. はじめに 1-1. KaPPA-Average とは KaPPA-Average は KaPPA-View( でマイクロアレイデータを解析する際に便利なデータ変換ソフトウェアです 一般のマイクロアレイでは 一つのプロー

Microsoft Word - lec_student-chp3_1-representative

5_motif 公開版.ppt

生命情報学

研究成果報告書

論文の内容の要旨

Probit , Mixed logit

コンピュータ応用・演習 情報処理システム

測量試補 重要事項

Excelによる統計分析検定_知識編_小塚明_1_4章.indd

IPSJ SIG Technical Report Vol.2009-BIO-17 No /5/26 DNA 1 1 DNA DNA DNA DNA Correcting read errors on DNA sequences determined by Pyrosequencing


Microsoft PowerPoint - pr_12_template-bs.pptx

GWB

平均値 () 次のデータは, ある高校生 7 人が ヵ月にカレーライスを食べた回数 x を調べたものである 0,8,4,6,9,5,7 ( 回 ) このデータの平均値 x を求めよ () 右の表から, テレビをみた時間 x の平均値を求めよ 階級 ( 分 ) 階級値度数 x( 分 ) f( 人 )

Kumamoto University Center for Multimedia and Information Technologies Lab. 熊本大学アプリケーション実験 ~ 実環境における無線 LAN 受信電波強度を用いた位置推定手法の検討 ~ InKIAI 宮崎県美郷

機能ゲノム学(第6回)

スライド 1

阿部Doc

149 (Newell [5]) Newell [5], [1], [1], [11] Li,Ryu, and Song [2], [11] Li,Ryu, and Song [2], [1] 1) 2) ( ) ( ) 3) T : 2 a : 3 a 1 :

THE INSTITUTE OF ELECTRONICS, INFORMATION AND COMMUNICATION ENGINEERS IEICE Technical Report IN ( ),

PowerPoint Presentation

データ科学2.pptx

オートマトン 形式言語及び演習 1. 有限オートマトンとは 酒井正彦 形式言語 言語とは : 文字列の集合例 : 偶数個の 1 の後に 0 を持つ列からなる集合 {0, 110, 11110,

TF-IDF TDF-IDF TDF-IDF Extracting Impression of Sightseeing Spots from Blogs for Supporting Selection of Spots to Visit in Travel Sat

v 1 v 2 e g ˆ Š Œ Ž p š ~ m n u { i 1, i 2, i 3, i 4 } { i 1, i 5 } v 1 v 2 v 3 v 4 v 5 v 6 { i 1, i 2, i 4 } { i 1, i 2, i 3, i 5 } { i 1, i 3, i 4 }

<4D F736F F D208EC08CB18C7689E68A E F AA957A82C682948C9F92E82E646F63>

PowerPoint プレゼンテーション

DEIM Forum 2015 F8-4 Twitter Twitter 1. SNS

1

Microsoft PowerPoint - ●SWIM_ _INET掲載用.pptx

キャッシュポイズニング攻撃対策

<4D F736F F F696E74202D2092B7924A5F835E E8EBF918A8CDD8DEC B835E B835891E3955C934993FC82E88CFB82512E707074>

Excelによる統計分析検定_知識編_小塚明_5_9章.indd

GWB

配付資料 自習用テキスト 解析サンプル配布ページ 2

Microsoft Word - apstattext04.docx

RSS Higher Certificate in Statistics, Specimen A Module 3: Basic Statistical Methods Solutions Question 1 (i) 帰無仮説 : 200C と 250C において鉄鋼の破壊応力の母平均には違いはな

             論文の内容の要旨

Microsoft PowerPoint - sc7.ppt [互換モード]

母平均 母分散 母標準偏差は, が連続的な場合も含めて, すべての個体の特性値 のすべての実現値 の平均 分散 標準偏差であると考えてよい 有限母集団で が離散的な場合, まさにその意味になるが, そうでない場合も, このように理解してよい 5 母数 母集団から定まる定数のこと 母平均, 母分散,

プロジェクト概要 ー ヒト全遺伝子 データベース(H-InvDB)の概要と進展

KEGG_PATHWAY.ppt

ヒトゲノム情報を用いた創薬標的としての新規ペプチドリガンドライブラリー PharmaGPEP TM Ver2S のご紹介 株式会社ファルマデザイン

untitled

Fig. 3 Flow diagram of image processing. Black rectangle in the photo indicates the processing area (128 x 32 pixels).

毎回変動し, 必ずしも良い結果を出力するとは限らない. 理由の一つとして,GS 法は配列データごとに, ランダムに与えた初期値に基づいて類似部分配列の位置を確率的に更新している為, 計算途中でそれらの位置が常に変動し, 結果が安定しないという問題が発生する. 本稿では, この問題を解決する為に, 配

<4D F736F F D20838C837C815B836789DB91E890E096BE2E646F6378>

技術資料 JARI Research Journal OpenFOAM を用いた沿道大気質モデルの開発 Development of a Roadside Air Quality Model with OpenFOAM 木村真 *1 Shin KIMURA 伊藤晃佳 *2 Akiy

本文.indd


の活性化が背景となるヒト悪性腫瘍の治療薬開発につながる 図4 研究である 研究内容 私たちは図3に示すようなyeast two hybrid 法を用いて AKT分子に結合する細胞内分子のスクリーニングを行った この結果 これまで機能の分からなかったプロトオンコジン TCL1がAKTと結合し多量体を形

日心TWS

Untitled

Microsoft PowerPoint BI_lec

nagasaki_GMT2015_key09

2. Apple iphoto 1 Google Picasa 2 Calendar for Everything [1] PLUM [2] LifelogViewer 3 1 Apple iphoto, 2 Goo

21 A contents organization method for information sharing systems

Medical3

横浜市環境科学研究所

(Microsoft PowerPoint - \203|\203X\203^\201[\224\255\225\\\227p\216\221\227\ ppt)

<4D F736F F D208FAC8A778D5A8A778F4B8E7793B CC81698E5A909495D2816A2E646F6378>

我々のビッグデータ処理の新しい産業応用 広告やゲーム レコメンだけではない 個別化医療 ( ライフサイエンス ): 精神神経系疾患 ( うつ病 総合失調症 ) の網羅的ゲノム診断法の開発 全人類のゲノム解析と個別化医療実現を目標 ゲノム育種 ( グリーンサイエンス ): ブルーベリー オオムギ イネ

第 1 回バイオメトリクス研究会 ( 早稲田大学 ) THE INSTITUTE OF ELECTRONICS, INFORMATION AND COMMUNICATION ENGINEERS Proceedings of Biometrics Workshop,169

16_.....E...._.I.v2006

Transcription:

YAKUGAKU ZASSHI 18(11) 155 1535 (008) 008 The Pharmaceutical Society of Japan 155 Reviews バイオデータベースリテラシーと制御領域配列を利用した新規創薬ターゲットの探索 宮崎 智 Bio-database Literacy and Its Application with Cis-regulatory Modules to Find Novel Drug Target Proteins Satoru MIYAZAKI Department of Medicinal and Life Science, Faculty of Pharmaceutical Sciences, Tokyo University of Science, 641 Yamazaki, Noda City 78 85, Japan (Received June 3, 008) We have expected Bioinformatics as tools to extract new knowledge from whole genome sequences of various organisms. In the post-genome era, to ˆnd some knowledge of the gene regulation including locations of cis-regulatory elements, modules and those combinations became one of the big challenges on Bioinformatics ˆeld. Because, it is di cult and ine cient to determine all possible combinations of cis-regulatory elements by bio-chemical approach. However, computational ways might allow us to ˆnd out all cis-elements within a time frame. In this review, we introduce the current status of public available databases on Internet comparing our original database for the cis-modules. We also explain our new mathematical measurement to characterize sequence patterns for cis-elements of each transcription factors and its application to predict the gene expression regulation network. Key words bioinformatics; cis-regulatory element; drug target gene search; bio-database 1. 公開データベースの現状各種生物のゲノム配列の決定とインターネットがより一般的になってきたことが重なり, 公的資金によるプロジェクトの成果としての生物学的データが多くインターネット上に公開されている. そうしたデータの多くは無償であり, 利用制限がないものがほとんどであるが, データ形式が統一されている訳ではなく, プロジェクト期間の終了とともに閉鎖されるサイトがある. したがって, 安定的な運用が期待できない場合があり, 利用の観点からは問題が残っている. また,Google などの検索エンジンで, 遺伝子 などのキーワードを入れて検索した場合には, 数十万件のサイトがヒットしてしまうなどの事態になっており, 利用者に適切なサイトをうまく見付ける仕組みが急務となっている. 質の高いデータベースを見付ける 1 つの方法と 東京理科大学薬学部生命創薬科学科 ( 78 85 野田市山崎 641 e-mail: smiyazak@rs.noda.tus.ac.jp 本総説は, 日本薬学会第 18 年会シンポジウム S1 で発表したものを中心に記述したものである. Nucleic Acid Research が毎年 1 月に特集しているデータベース特集 (http://nar.oxfordjournals.org/ content/vol36/suppl_1/index.dtl) を参照する方法がある. また, 筆者らは,NCBI の提供している文献データベース (Pubmed:http://www.ncbi.nlm.nih. gov/pubmed/) のアブストラクト全体に対して, そこに記述されているデータベース名とその引用回数をまとめている. この結果をみると,Pubmed でよく用いられているのは 190 種ぐらいのデータベースであることが分かる. 逆に言えば, これらは, 様々な生物系の研究者に利用されているという点において, 第 3 者的な評価があり, 信頼性の高いデータを提供しているデータベースであると言えよう. Table 1 は, これらの 190 種のデータベースの中で, 特に, 転写制御に係わる情報を提供しているものをまとめたものである. 公開データベースの現状を語る際に取り上げておきたいもう 1 つの事柄は実際のそれらのデータベースを利用するときの留意点である. われわれは, 先の Nucleic Acid Research などの文献で利用できそうなデータベースとその URL を見付けることが可

156 Vol. 18 (008) Table 1. Useful databases related to gene regulation on INTERNET データベース名データ種内容対象生物種 EPD 配列データ転写開始点 プロモータ領域 転写制御 転写因子真核生物 Regulon DB 配列データ転写制御 転写制御領域 転写因子大腸菌 K-1 株 EcoCyc ネットワークデータ JASPAR 配列データプロモータ領域 転写制御 転写制御 転写制御領域 ゲノム 代謝バスウェイ 酵素 シグナル伝達バスウェイ PlantCARE 配列データプロモータ領域 転写制御 エンハンサー領域 リブレッサー領域植物 大腸菌 K-1 株 CORG 配列比較データ転写制御 転写制御領域 ゲノム脊椎動物 EpoDB 統合データ転写制御領域 遺伝子発現 タンパク質 赤血球 発生 分化脊椎動物 PLMItRNA 配列データ転写制御 転写制御領域 ミトコンドリア trna 植物 TRANSFAC 配列データプロモータ領域 転写制御 転写因子 SCPD 配列データプロモータ領域 転写制御 転写因子酵母 ootfd 配列データプロモータ領域 転写制御 転写因子 能であるが, 実際にその URL にアクセスしてみると, 文献上で見付けたデータベースがそのまま公開されていないことが多いのである. 文献上で報告されるのは, あるプロジェクトがその成果の全体を取りまとめるために構築したデータベースである. しかし, 公開サイトではそのデータベースがいくつかに細分されて複数のデータセットとなっている場合や, そのプロジェクトが自らのデータを解析するために使った外部のデータベースのコピーが含まれていることがある. そのために, 文献によって得たデータベース名が, 公開サイトではそのまま用いられていないことがあることに加え, オリジナル以外のデータもあり, 利用者 ( 特に初心者 ) は注意が必要である.. バイオインフォマティクスによる転写制御研究 -1 シスエレメント配列構造の規則性と進化ポストゲノム時代になって, 研究者の興味が, ゲノム配列中の遺伝子探索から, 転写制御のメカニズム探索や遺伝子ネットワークの予測など, 遺伝子や分子間の相互作用に移ってきている. 生化学的な実験を基に, 転写因子が認識する塩基配列 ( シスエレメント ) の解明が進行している. こうした配列は, JASPER 1,) や TransFAC といったデータベースにまとめられて提供されている. 各々の転写因子が認識するシスエレメント配列は 1 パターンではなく, 様々な配列パターンを認識す Fig. 1. Cis-regulatory Element and its Typical Data Fomat ることが明らかになっており,Fig. 1 に示したように,``MYC'' という名前の転写因子は CACGTG という配列をはじめ, CACGTC や CACACG など, 様々なパターンの配列に結合する. そして, 列毎に配列パターンを比較した場合, 一応のコンセンサス配列は得られるものの, 各列における塩基にはかなりのゆらぎがあり, これらの配列パターンの汎用的な共通性ルールは分かっていないと言える. また, 現在では 1500 以上のタンパク質と DNA の複合体の構造が X 線結晶解析などの手法で解かれているが, これらの構造を詳しく調べてみても, 相互作用しているアミノ酸残基と塩基のペアの間には厳密な対応関係はみられていない. また同じ相互作用ペアでも, その塩基とアミノ酸残基の空間的な位置関係は様々である. 3) すなわち, アミノ酸残基と

No. 11 157 塩基の相互認識にもかなりの冗長性と柔軟性があると言える. 転写因子のターゲットを予測するには, 実験的に結合することが知られている塩基配列を集めて共通なパターン ( コンセンサス配列 ) を見付け, それを配列モチーフあるいは重み行列という形で表現し, 類似の配列を検索するという方法が現在最も広く用いられている. しかし, 転写制御研究は比較的新しい分野であり, 明らかとなっているシスエレメント配列パターンがまだ十分にはないため, これらの方法では予測精度が悪く, 転写因子が結合するシスエレメントを特定することは困難な状態にある. また, シスエレメント配列はわずか数塩基から数十塩基程度の非常に短い配列であることも, ゲノム上に多数の予測結合部位を生み出す原因となっており, ターゲットとなる配列の予測を困難にしている. われわれは, 転写因子とそれらが結合するシスエレメント配列の間に十分な規則性を見い出していないが, 転写因子とシスエレメントの間にある相互認識のルールがシスエレメントの文字列中に隠されている可能性に着目している. もし, シスエレメント配列に潜む規則性が明らかになれば, ゲノム上に存在する未知のシスエレメント配列を精度よく予測することが可能となり, ひいては転写制御機構の解明につながると考えられる. 1 つの方法として, 情報量の概念を応用することでシスエレメント配列を数量化し, 網羅的に比較 解析することで転写因子のシスエレメント配列認識 における規則性を探ったので報告したい. -1-1. データの取得データは, 多細胞生物の転写因子結合部位データベースである The JASPAR database 1,) (version 3.0) から取得した. JASPAR では 138 種の転写因子の結合配列パターンが LOGO 形式やプロファイル形式によって公開されている. そのうち 14 種の転写因子については, LOGO やプロファイルを作成する際に用いられた結合配列パターンが取得可能であった.JASPAR からダウンロードしたシスエレメント配列データは, 14 種の転写因子それぞれに対して結合配列パターンが FASTA 形式でまとめられていた. 取得したシスエレメント配列データは小文字英字と大文字英字で記されている (Fig. ). 小文字英字を含めた部分は実験的に転写因子が結合することが明らかになった配列を示しており, 大文字英字部分は配列パターン中で最も保存されている部分を示す. 本研究では, 転写因子が結合するための特に重要な情報を有していると考えられている, 大文字英字で記された配列部分を解析に用いることにした. 取得した配列データは, 重複を除き, 大文字で表された塩基配列をまとめ,14 レコードとした. 例えば,AGL3 という転写因子が結合するシスエレメント配列は,JASPAR データベース中に 97 配列存在していたが, そのうち大文字英字で記されている配列部分だけを取り出し, 重複している配列を省くと 63 パターンの配列となる. そこで, その 63 パターンの配列を 1 つのテキストにまとめ,1 レコー Fig.. Raw Data in JASPAR Database

158 Vol. 18 (008) Fig. 3. Re-formatted Data from JASPAR and Trans FAC Database ドとした (Fig. 3). 各々のレコードを構成しているシスエレメント配列パターンは,3 114 配列あり, 配列の長さは 4 塩基長であった. また, これらのデータを構成する生物種は,Antirrhinum majus( キンギョソウ ),Arabidopsis thaliana( シロイヌナズナ ),Drosophila melanogaster( キイロショウジョウバエ ),Gallus gallus( ニワトリ ), Halocynthia roretzi( マボヤ ),Homo Sapiens( ヒト ),Hordeum vulgare( オオムギ ),Mus musculus ( ハツカネズミ ),Nicotiana sp.( タバコ ),Petunia hybrida( ペチュニア ),Pisum sativum( グリーンピース ),Rattus norvegicus( ドブネズミ ),Triticum aestivum( コムギ ),Xenopus laevis( アフリカツメガエル ),Zea mays( トウモロコシ ) の 15 種であった. -1-. シスエレメントの数量化 -1--1. シャノンエントロピーの計算各転写因子が結合するシスエレメント配列それぞれについて, シャノンエントロピー 4) を計算する. 任意の配列におけるシャノエントロピー (S) を以下の式により与える. 5,6) S=- i=a, T, G, C P i log P i (1) このとき,P i はシャノンエントロピーを計算しようとするシスエレメント配列中における A, T, G, C それぞれの出現確率をさす. 例として, CCATATATAG という配列のシャノンエントロピーの計算例を以下に示す. 配列中の A, T, G, C 各塩基の出現確率 (P A,P T,P G,P C ) は, それぞれ P A = 4 P T = 3 P G = 1 P C = である. したがって, この配列のシャノンエントロ ピー (S) は, S=( - 4 4 ( + - 3 3 +( - 1 log 1 ( + - =1.8464 となる. シャノンエントロピーは乱雑さを表す尺度であるため, この値を計算することによって, その配列中における塩基の出現の偏りを知ることができる. シャノンエントロピーをシスエレメント配列に適用する場合, 塩基は 4 種類であるため, シャノンエントロピーは 0 S の値を取る. エントロピーの値が 0 に近いほど, その配列中における塩基の出現は大きく偏っていることを意味し, に近いほど, その配列中では 4 つの塩基が均等に出現していることを意味する. -1--. 相互情報量の計算次に,14 レコードの各レコード内で, 考えられるすべての パターン配列間において相互情報量 4) を計算した. 例えば,Fig. 3 に示したような AGL3 のレコードの場合,63 パターンの配列があるため, すべての 配列の組み合わせは 63 C =1953 通り考えられ, そのすべての組み合わせについて相互情報量を計算した. 計算はすべて Perl 言語でプログラムを組むことによって計算した. 任意の 配列 X,Y 間における相互情報量 (I) 5) を以下の式により与える. I(X ; Y)= i=a, T, G, C j=a, T, G, C P ij log ( P ij P i P j) () このとき,P i,p j はそれぞれ配列 X, 配列 Y における A, T, G, C それぞれの出現確率である. また, P ij は各位置における配列 X と配列 Y の塩基の組み合わせ (A-A, A-T, C-C) の出現確率である. 以下にその計算例を示す. 配列 X:CCATATATAG 配列 Y:CCATGTGTAG の相互情報量を求める場合, 配列 X, 配列 Y における各塩基の出現確率 [P(X), P(Y)] は, それぞれ,

No. 11 159 P(X A )= 4 P(X C )= P(Y A )= P(Y C )= P(X T )= 3 P(Y T )= 3 P(X G )= 1 P(Y G )= 3 である. また, 各位置における配列 X と配列 Y の 各塩基の同時出現確率 [P(X ; Y)] は, P(X A ; Y A )= P(X T ; Y T )= 3 P(X C ; Y C )= P(X A ; Y G )= P(X G ; Y G )= 1 である. したがって, この配列 X, 配列 Y の相互 情報量 (I) は, I= log 4 + log 4 3 + 3 となる. 3 1 log 3 3 + 1 log 1 3 + log =1.571 相互情報量は つの情報源 (X,Y) 間の関連性 の度合いを示すものであり, つの系が共有してい る情報を表している. 配列解析においてはシスエレメント配列 X と Y における塩基の出現における従属関係の有無を示す値になる. シスエレメント配列 X と Y の塩基の出現に全く関連がない場合, 相互情報量は 0 になる. また, シスエレメント配列 X の塩基が決まれば, シスエレメント配列 Y の塩基が完全に決まるという従属関係がある場合, 相互情報量は最大値である を取る. 相互情報量は, 配列 X と配列 Y の間で共有されている情報の量であり, 結合する転写因子が配列 X と配列 Y を どの 程度同じ配列としてみなしているのか という指標になる. -1--3. エントロピー進化率 (Entropy Evolutional Rate: EER) の計算相互情報量を計算することによって, 各転写因子が結合する配列の冗長度を数値化することはできたが, 相互情報量の大きさはシャノンエントロピーの大きさに依存するため, 解析する際にすべてのシスエレメント配列を等しく扱うことができない. 例えば, 配列 A と配列 B, そして配列 C と配列 D の相互情報量を考えてみる.I(A ; B)=0.8, そして I(C ; D)=0.4 であるので, 配列 C, D よりも配列 A, B の方が共有されている情報が多いと思われがちである. しかし, 配列 C と配列 D のシャノンエントロピーはもともと小さいため, 完全に情報が共有されている場合だとしても相互情報量の値が小さくなる場合がある (Fig. 4). そこで, 相互情報量を正規化した値である EER 6 8) を利用した.EER は つの情報源のエントロピーを足し合わせたものに対して, そのうちどの位を相互情報量が占めているのかという値を示す. このような正規化した値を利用することで, つの情報源の関連度合いを正しく評価し, シャノンエントロピーの大きさの違いに左右されない解析が可能となる.EER は Eq.(1) と Eq.() を用いた, 以下の式により与える. I(X ; Y) EER(X ; Y)=( S(X)+S(Y)-I(X ; Y)) (3) このとき EER は,0 EER 1 の値を取る. 以下に配列 X と配列 Y の EER 計算例を示す. 配列 X:CCATATATAG 配列 Y:CCATGTGTAG Eq.(1) に従って, 配列 X, 配列 Y それぞれのシャノンエントロピー (S) を計算すると, Fig. 4. Matual Eneropy and its Concept

1530 Vol. 18 (008) S(X)=( - 4 +( - 1 =1.846 S(Y)=( - +( - 3 4 ( + - 3 3 1 ( + - ( + - 3 3 3 ( + - =1.971 である. さらに,Eq.() により, 配列 X と配列 Y の相互情報量 (I) は, I= log 4 + log 4 3 + 3 3 1 log 3 3 + 1 log 1 3 + log =1.571 である. よって, 配列 X と配列 Y の EER は Eq. (3) より, I(X ; Y) EER(X ; Y)=( S(X)+S(Y)-I(X ; Y)) 1.571 =( 1.846+1.971-1.571) =0.6994 となる. 比較した 配列間の EER 値が 0 に近いほど, 配列 X と配列 Y における塩基の出現には関連性がないことを意味し,EER が 1 に近いほど, 配列 X と Y の塩基の出現には従属関係が存在することを意味する. そして,EER が つの配列の関連度合いを示すことから,EER は転写因子のシスエレメント配列の認識に対する柔軟性の度合いを示していると考えることができる. -1-3. 頻度分布の作成各々の転写因子が結合するシスエレメント配列パターン ( 各レコード ) を網羅的に比較するために, 転写因子毎に, それぞれの結合するシスエレメント配列パターンから得られた EER 値を 0.1 の階級幅で頻度分布化した. 各レコードによって得られる EER 値の個数は, m C 個と異なるため, 縦軸はその階級に入る EER 値の個数を m C で割った相対値を示すようにした. シスエレメント配列パターン間で従属関係がみられるものが多い場合は, グラフは右寄りになり, 従属関係があまりみられない場合グラフは左寄りになる. EER がシスエレメント配列の冗長度を表すことから, この頻度分布は転写因子のシスエレメント配列認識に対する柔軟度を表したものであると言える. -1-4. クラスタ解析各転写因子のシスエレメント配列認識に対する柔軟度を比較するために, 作成した頻度分布の類似性を基にユークリッドの距離 ウォード法による階層的クラスタリングを行った. 階層的クラスタリングとは, 個体間の類似度あるいは非類似度 ( 距離 ) に基づいて, 最も似ている個体から順次に集めてクラスタを作って行く方法で, クラスタリングを行うことによって, シスエレメント配列の認識に対する柔軟性の度合いが似ている転写因子同士を知ることができる. そこでクラスタ解析を 14 レコードのデータすべてを用いて行った. また,DNA 結合ドメインの種類毎や生物種毎でもクラスタ解析を実行した. 各頻度分布の形状を, 頻度分布の各階級における EER の相対値 ポイントと隣接する階級間の傾き 9 ポイントの合計 19 次元ベクトルによって表した. Figure 5 における頻度分布では,EER の相対値 ポイントは, の部分を示しており, 階級間の傾きは実線で示した部分を指す. 比較する要素に頻度分布の階級間の傾きを加えることで, 頻度分布の形状がより類似しているものをクラスタリングすることができる. 9) ここで, 頻度分布 a と頻度分布 b 間のユークリッド距離 (D) は以下の式により与える. D(a, b)= n i=1 (a i b i ) (4) このとき,i は各階級における EER の相対値 ポイントと, 隣接する階級間の傾き 9 ポイントを示す. したがって,n=19 となる. -1-4-1. シスエレメント配列構造の進化系統関係 JASPAR から 3 レコード以上のデータが得

No. 11 1531 Fig. 5. Frequent Distribution of EER られた生物種 8 種 (Arabidopsis thaliana, Antirrhinum majus, Zea mays, Drosophila melanogaster, Pisum sativum, Rattus norvegicus, Mus musculus, Homo sapiens) について, 生物種別に相対頻度分布を作成し, 各階級値と傾きをベクトルとして分子系統樹を作成した. 転写因子が持つ DNA 結合ドメインの種類とシスエレメント配列の認識パターンの関連性を考察するために,DNA 結合ドメイン名をラベルにして, すべての頻度分布を用いたクラスタ解析を行った. その結果を Fig. 6 に示す. 作成されたデンドログラムをみると, 一部のクラスタでは類似した DNA 結合ドメインがまとまる例がみられた. しかし, すべてのクラスタにおいて DNA 結合ドメインとシスエレメント配列の認識パターンに関連性を示唆できるには至らなかった. ところで, 同種の DNA 結合ドメインを持つ転写因子でも, 認識するシスエレメント配列の長さやパターンが全く異なっている. そこで, 同種の DNA 結合ドメインが認識するシスエレメント配列パターンには, 何か規則性がないか解析することにした.5 個以上のデータが存在している 11 種の DNA 結合ドメイン (bhlh, bhlh-zip, bzip, ETS, FORKHEAD, HMG, HOMEO, MADS, NUCLEAR RECEPTOR, REL, ZN-FINGER CH) に対して, 種類毎にクラスタ解析を行った. 一例として bhlh のクラスタ解析結果を Fig. 7 に示す. この結果をみると, いくつかのドメインに関しては, 同一の生物種のシスエレメント配列パターンが近隣にクラスタリングされる傾向がみられた.bHLH の例では,Homo Sapiens 同士がクラス タを作り, その上位に Mus musculus のクラスタが形成されている. こうしたことより, 各 DNA 結合ドメインが許容できるシスエレメント配列の冗長度は, 生物種によって異なることが考えられた. 次に,6 種の生物種 (Arabidopsis thaliana, Drosophila melanogaster, Homo Sapiens, Mus musculus, Rattus norbegicus, Zea mays) について, 生物種別のクラスタ解析について解説する.Homo Sapiens の解析結果を Fig. 8 に示す. 生物種毎にクラスタリングを行った場合, 全体でクラスタリングを行った場合よりも,DNA 結合ドメインが類似するもの同士が近隣にクラスタを作り易い傾向がみられた. 以上の結果より, 生物種や DNA 結合ドメインの違いによって, 転写因子が認識できるシスエレメント配列のゆらぎの許容度には差異があると考えられ, シスエレメントの配列パターンを生物種や DNA 結合ドメインによって特徴付けられる可能性が示唆された. 3. 新規創薬ターゲット分子の予測に向けて 3-1. 遺伝子上流領域の配列構造前章では, 個々のシスエレメントパターンの特徴を ゆらぎ の面から考察した. 本章では, 全ゲノム配列上でのシスエレメント配列の分布について報告する. シスエレメントの分布を考える前に, 遺伝子上流配列の塩基の出現パターンについて解説しよう. ヒトの完全長 cdna と全ゲノム配列を基に, ヒトの遺伝子マップを作成し, 解析している H-invitational データベース (http://www.h-invitational.jp/) を利用して, ヒトの遺伝子配列約 30000 件についてその上流配列 (000 塩基 ) を取得して解析を行っている. するとこれらの配列中の GC 含量は意外に低いことが分かる. また,A,T,G,C 各々の塩基の出現確率について調べると, 上流配列でかなりのばらつきがあることが分かる.30000 件の配列において,A, T, G, C の出現確率がほぼ均等であると思われるものは, 半数程度であり, 残りの半数については, どれかの塩基の出現確率が極端に高くなる傾向がみられた (Fig. 9). 次に, 先の JASPAR データベースに登録されているシスエレメント配列を上流配列にマップしてみる. これらは単に, シスエレメントと上流配列のアライメントを行っただけであるので, その配列がシスエレメントとしての機能を有してい

153 Vol. 18 (008) Fig. 6. Clustering of DNA Binding Domains of Transcription Factors るかどうかは分からない. そこでここでは, マップされたシスエレメント配列を シスエレメント様配列 と呼ぶことにする. 結果をみると, ある遺伝子上流では, 何種類もシスエレメント様配列がタンデムに存在している場合や, ある遺伝子配列上流では, 数種のシスエレメント様配列が離散的に見付かる場合など, シスエレメント様配列の存在パターンは, 各上流配列でかなりのばらつきがあることが分かった. 逆にいえば, 各々の遺伝子は, その上流配列の塩基構成が特徴的である可能性が示唆されてい るとも言える. また, 各上流配列の各塩基の出現頻度を用いて, あるシスエレメト配列がその上流配列に見付かる確率の期待値と実際にマッピングを行ったあとで, あるシスエレメントがマップされた事後確率を比較してみると, ほとんどすべてのシスエレント配列において, 事後確率が期待値の確率よりもはるかに小さいということが分かった. この つの確率の差について, 有意水準 5% における統計的検定の結果, 有意差が認められた. すなわち, シスエレメントは,

No. 11 1533 Fig. 7. Clustering of Species by Cis-elements for bhlh Domain 5 0 の短い配列であり, ゲノム上の至るところで偶然に見付かる可能性が高いように思われがちであるが, 実際には, 配列長から予測されるランダム性はさほど高くなく, 必要な場所を選んで存在しているように思われる. 3-. シスエレメントのパターンによる局在性予測前節で示唆されたようなシスエレメント配列の存在パターンの制約性から, 遺伝子上流配列による, 遺伝子あるいはそれにコードされたタンパク質の機能予測について提案してみよう. 前述した H- invitational データベースでは, 予測された遺伝子について, その遺伝子がコードしているタンパク質 Fig. 8. Clustering of DNA Binding Domains in Human

1534 Vol. 18 (008) Fig. 9. Frequent Distribution of Upstream Sequences by Shannon Entropy Table. Examples of cis-regulatory element sequence and protein localization Cis element Transcription factor Cytoplasm Cytoskeleton ER Ext cell matrix Localization in a cell Golgi Mitochondria Nucleus Peroxisome tgacctttgcccag COUP-TF 0 0 0 1 0 0 0 0 0 ggagacaccatt HLF 0 0 0 0 0 0 0 0 1 attaattaggtcag RO Ralfa- 0 0 0 0 0 0 1 0 0 Plasma memb の局在化情報も持っている. こうした局在情報を持つ 3830 個の遺伝子について, 局在性と上流配列中のシスエレメントの間の関係をまとめてみた.Table は,3830 遺伝子の上流に見付かったシスエレメントからそれを認識する転写因子について, 下流遺伝子にコードされたタンパク質の局在性をまとめたものである. この Table の 行目の第 列をみると, 例えば, ミトコンドリアに移行するタンパク質では, その遺伝子の 61 個で上流に AML-1 に認識されるシスエレメントがあることが分かる. 局在性とシスエレメントの間には, 特別な関係があるように見受けられないが, この調査の中で, その出現 頻度が極めて低く, 局在場所が 1 対 1 に対応しているシスエレメントが 3 種あることが判明した. このことから, ただちにシスエレメントを用いて局在性予測を行うことはできないが, 非常に稀にしかみつからないシスエレメントがあり, それらは下流タンパク質の局在場所の判別の指標となる可能性があることが分かる. また本稿では触れていないが, 上流配列中のシスエレメントの分布によって遺伝子ネットワークを予測する試みが行われてきている.3-1. 節で述べたように, 上流配列の塩基組成にかなりの差があることから考えると, シスエレメントの有無を指標にした遺伝子ネットワークの予測法の開発が

No. 11 1535 おおいに期待できると思われる. REFERENCES 1) Sndelin A., Alkema W., Engstrom P., Wasserman W. W., Lenhard B., Nucleic Acids Res., 3, D91 D94 (004). ) Wasserman W. W., Sndelin A., Nat. Rev. Genet., 5, 76 87(004). 3) Sarai A., Kouno H., Seibutubuturi, 47(3), 160 166 (007). 4) Shannon C. E., Bell Syst. Tech. J., 7, pp. 79 43, 63 656 (1948). 5) Ohya M., Trans. IEICE, E(7), 556 560 (1989). 6) Ohya M., Sato K., Rep. Math Phys., 46, 419 47 (000). 7) Ohya M., Densi Johothusingakukaishi, 71(3), 95 97 (1988). 8) Miyazaki S., Sugawara H., Ohya M., Genes Genet. Syst., 71, 33 37 (1996). 9) Michaels G. S., Carry D. B., Askenazi M., Fuhrman S., Wen X., Somogyi R., Pac. Symp. Biocomput., 3, 4 53 (1998).