Ⅶ データベース Ⅶ-1.データベースの 定 義 コンピュータで 情 報 処 理 を 行 いやすいように 体 系 的 に 整 理 蓄 積 し 統 合 化 されたデータの 集 合 体 のこと 一 般 にデータベースは 利 用 者 が データを 共 有 して 利 用 するため データベース 管 理 システム(DBMS) と 呼 ばれるソフトウェアによって 管 理 されている DBMSは コンピュータが 行 うデータ 処 理 を 抽 象 化 することにより その 複 雑 なシステムをユーザから 隠 す 働 きをもつ また ハードウェアを 有 効 利 用 することで データ 操 作 の 効 率 を 最 大 限 に 引 き 出 し 操 作 を 容 易 にする Ⅶ-2.データモデル (1) 階 層 型 モデル 互 いに 重 複 するものを 取 り 除 き レコード 群 を 階 層 的 に 上 下 に 関 連 づけた 木 構 造 としてモデル 化 し たもの 子 レコードと 親 レコードは1 対 1の 関 係 しかもてない (2) 網 型 モデル 階 層 型 モデルを 拡 張 し 子 レコードと 親 レコードの 関 係 が1 対 1の 制 限 を 受 けないようにしたもの (3) 関 係 型 モデル 集 合 と 関 係 を 基 礎 にした 数 学 的 モデルで データ 項 目 を2 次 元 の 表 形 式 にモデル 化 したもの デー タ 項 目 の 関 係 に 基 づき 複 数 のデータファイルを 関 連 づけて 取 り 扱 う 現 在 最 も 普 及 しているモデ ル 網 型 モデル 階 層 型 モデル 関 係 表 1 関 係 表 2 対 応 関 係 型 モデル Ⅶ-3.データベース 言 語 データベースの 構 造 を 定 義 したり データを 更 新 あるいは 検 索 するための 専 用 の 言 語 プログラム 言 語 とは 独 立 した 言 語 体 系 を 持 つが プログラム 言 語 とのインタフェースも 備 えている 代 表 的 なものとして IBMが 開 発 した SQL という 言 語 がある 最 近 のデータベースは Webで 提 供 されるため 利 用 者 がデー タベース 言 語 を 意 識 することは ほとんどなくなっている Ⅶ-4. 次 世 代 のデータベース 1 オブジェクト 指 向 型 データベース(OODB, Object Oriented Databese) 操 作 の 対 象 となるデータの 機 能 や 意 味 を 重 視 して 扱 う 考 え 方 を 取 り 入 れたデータベース 階 層 によ ってデータ 構 造 を 表 現 し データとその 処 理 を 一 括 して 取 り 扱 う バイオインフォマティクス 分 野 へ の 適 応 性 が 高 い タンパク 質 をコードしていない 配 列 領 域 遺 伝 子 タンパク 質 立 体 構 造 タンパク 質 をコードしている 配 列 領 域 アミノ 酸 配 列 23
2 マルチメディアデータベース(MMDB, Multi Media Database) マルチメディアデータ( 文 字 図 形 画 像 音 声 など)を 一 括 管 理 できるデータベース メディア の 違 いを 吸 収 するために オブジェクト 指 向 データベースの 形 態 をとることが 多 い 3 分 散 データベース ネットワーク 上 に 分 散 して 存 在 する 複 数 のコンピュータシステムに 存 在 するデータベースを 仮 想 的 に 一 つのデータベースと 見 なして 利 用 することができるようにしたもの サーバの 負 荷 軽 減 障 害 の 局 所 化 などの 利 点 がある 4 ハイパーテキストデータベース キーワードを 選 択 することにより リンクされたテキストが 表 示 され そのテキスト 内 のキーワー ドにより さらに 別 のテキストが 表 示 されるといった テキストとテキストとのリンクにより 構 成 さ れるネットワーク 構 造 のデータベースのこと 利 用 者 は 読 みたい 場 所 からリンクをたどり シーム レスに 情 報 を 利 用 できる Ⅶ-5. 生 物 情 報 データベース (1) 生 物 情 報 データベースとは 生 物 情 報 データベースに 明 確 な 定 義 は 無 いが データ 量 や 系 統 性 利 用 度 などから 以 下 のような ものが 代 表 的 なものと 考 えられる 塩 基 配 列 データベース(GenBank EMBL DDBJ) アミノ 酸 配 列 データベース(Swiss-Plot PIR PRF) 立 体 構 造 データベース(PDB) 文 献 情 報 データベース(MEDLINE Chemical Abstract) (2) 生 物 情 報 データベースの 歴 史 ~1969 文 献 データベース Chemical Abstract(1907~) MEDLINE(1966~) 1970 PDB (X 線 結 晶 解 析 のデータから 始 まる) 1979~1983 GenBank EMBL PIR PRF 1990 GDB(ヒト 遺 伝 子 地 図 データベース) TRANSFAC( 転 写 因 子 データベース) 1992 ゲノムネット 1995~ Web 化 が 進 行 (3) 新 しいデータベース 1 特 定 の 生 物 種 に 関 するもの BSORF : 枯 草 菌 GenoBase : 大 腸 菌 SGD : 酵 母 菌 CyanoBase : 藍 藻 NEXTDB : 線 虫 FlyBase : ショウジョウバエ MGD : マウス GDB : ヒト BioCyc : 微 生 物 を 中 心 としたデータベース 2 新 しい 技 術 や 視 点 に 基 づいたもの GEO SMD : マクロアレイによる 遺 伝 子 発 現 データベース BODYMAP : ヒトやマウスのcDNA 発 現 データベース MBGD COG : 比 較 ゲノム 学 のためのデータベース その 他 多 数! 3 統 合 データベース ゲノムネット Entrez KEGG ExPASy 統 合 データベースの 作 成 には すべてのデータを 設 計 された 一 定 の 仕 様 に 従 って 格 納 し 高 度 なデータ の 加 工 を 可 能 とする 強 い 統 合 と 個 々のデータベースはそのままに 必 要 な 参 照 情 報 を 整 備 し ある 種 のメニューを 付 加 することにより 統 合 的 検 索 や 表 示 を 可 能 とする 弱 い 統 合 の2 種 類 がある 前 者 の 代 表 と してはGDB 後 者 としてはゲノムネットが 上 げられる 一 般 に 記 述 形 式 の 異 なる 多 種 類 のデータベースを 迅 速 に 収 容 するのに 都 合 がよく 参 照 という 手 順 がWebの 表 現 方 式 と 相 性 がよいことから 弱 い 統 合 を 持 たせた ものが 多 い 24
データベース 分 類 例 説 明 塩 基 配 列 GenBank 世 界 的 遺 伝 子 配 列 データベース DDBJ 日 本 DNAデータバンク( 遺 伝 研 ) EMBL 欧 州 分 子 生 物 学 研 究 所 MGDB マウスのゲノムデータベース GSX マウスの 遺 伝 子 発 現 データベース NDB 核 酸 データベース タンパク 質 配 列 Swiss-Prot 代 表 的 なアミノ 酸 配 列 データベース TrEMBL Swiss-Protに 対 する 機 能 注 釈 付 き 配 列 の 補 足 TrEMBLnew TrEMBL 登 録 待 ちデータ 毎 週 更 新 PIR Protein Information Resource 立 体 構 造 PDB タンパク 質 立 体 構 造 データバンク MMDB 分 子 モデリングデータベース for small molecule 低 分 子 化 合 物 の 結 晶 構 造 酵 素 と 化 合 物 LIGAND 化 合 物 と 化 学 反 応 配 列 モチーフ PROSITE 配 列 モチーフ BLOCKS PROSITEの 局 所 的 アラインメント PRINTS BLOCKSの 上 位 集 合 Pfam タンパク 質 ファミリーのデータベース ProDom タンパク 質 ドメイン 代 謝 パスウェイと 合 成 物 Pathway 代 謝 経 路 の 地 図 分 子 病 OMIM ヒトのメンデル 遺 伝 性 疾 患 に 関 するデータベース 生 物 医 学 文 献 PubMed 簡 易 型 の 無 料 文 献 検 索 システム Medline 医 学 関 連 文 献 データベース( 有 料 ) ベクター UniVec ベクター 配 列 の 同 定 変 異 蛋 白 PMD 変 異 タンパク 質 データベース 遺 伝 子 発 現 GEO Gene Expression Omnibus アミノ 酸 の 指 標 Aaindex アミノ 酸 の 物 理 化 学 的 指 標 のデータベース タンパク 質 文 献 LITDB タンパク 質 とペプチドに 関 する 文 献 遺 伝 子 カタログ GENES 生 命 システム 情 報 統 合 データベース バイオインフォマティクスで 利 用 される 代 表 的 なデータベース アプリケーション 配 列 検 索 配 列 提 出 情 報 検 索 連 鎖 解 析 ポータルサイト 構 造 検 索 可 視 化 タンパク 質 間 相 互 作 用 遺 伝 子 発 現 プロファイル 翻 訳 領 域 探 索 例 BLAST, BLASTN, CLUSTALW, FASTA, MOTIF, PBLAST,TBLASTIN AceDB, Audit, BankIt, Sakura, Sequin, WebIN Entrez, DBGET, IDEAS LocusLink KEGG CD, DALI, SCOP, Searchlite, Structure Explorer, VAST CAD, Cn3D, Mage, RasMol/WebMol SWISS-PROTViewer BRITE Expression ORF Finder ゲノム 研 究 に 用 いられるアプリケーションの 例 25
生 命 科 学 関 連 サイトの 例 <2005.6.1 現 在 > 1. 統 合 化 システム ゲノムネット (http://www.genome.ad.jp/japanese/) - 京 都 大 学 化 学 研 究 所 Entrez (http://www.ncbi.nlm.nih.gov/entrez/) - 米 国 立 バイオテクノロジー 情 報 センター 2. 配 列 データベース GenBank (http://www.ncbi.nlm.nih.gov/genbank/index.html) - DNAデータベース( 米 国 ) 欧 州 分 子 生 物 学 研 究 機 構 (EMBL) (http://www.embl-heidelberg.de/) - DNAデータベース( 欧 州 ) 国 立 遺 伝 学 研 究 所 日 本 DNAデータバンク(http://www.ddbj.nig.ac.jp/Welcome-j.html) ヒトゲノムセンター( 東 大 医 科 研 ) (http://www.hgc.ims.u-tokyo.ac.jp/japanese/) ヒトゲノム 情 報 (http://www.ncbi.nih.gov/genome/guide/human/) マウスゲノム 遺 伝 子 情 報 (http://www.ncbi.nih.gov/genome/guide/mouse/) 3. 配 列 解 析 農 業 生 物 資 源 研 究 所 配 列 サーチ (http://www.dna.affrc.go.jp/search/jp/) 4. 蛋 白 質 立 体 構 造 PDB (http://www.rcsb.org/pdb/index.html) MMDB (http://www.ncbi.nlm.nih.gov/structure/mmdb/mmdb.shtml) 5. 文 献 情 報 PubMed (http://www.ncbi.nlm.nih.gov/pubmed/) - 文 献 検 索 抄 録 閲 覧 ( 無 料 ) NACSIS Webcat (http://webcat.nii.ac.jp/) - 国 内 大 学 の 書 籍 文 献 所 蔵 検 索 ScienceDirect (http://www.sciencedirect.com) - 学 術 雑 誌 検 索 閲 覧 ( 有 料 ) EMBASE (http://www.embase.com) - 医 学 系 文 献 検 索 JDream ( 旧 Jois) (http://service.jst.go.jp/jdream/top2.html) - 和 文 誌 検 索 PubMedを 除 き 文 献 検 索 データベースは 一 般 に 有 料 であるが 大 学 図 書 館 との 契 約 が 成 立 していると キ ャンパス 内 からは 利 用 が 可 能 な 場 合 が 多 い 詳 細 は 図 書 館 カウンターで 尋 ねるとよい 26
Ⅶ-6.データベース 構 築 技 術 データベースの 基 本 構 成 は 右 図 のように なっており ユーザは 自 己 の 端 末 (クライ アント 機 )から ネットワークを 介 してサー バ 機 に 接 続 し データベースを 利 用 すること になる (1) インタフェイス 層 一 般 には ApacheなどのWebサーバプログラ ムがブラウザと 直 接 コンタクトする 提 供 さ れるWebページは 静 的 なものと 動 的 なものの 2 種 類 が 供 給 される 1 静 的 なWebページ : 通 常 のHTMLのみで 構 成 されたページで 常 に 決 められた 内 容 が 同 じように 送 出 される 2 動 的 なWebページ : (a) サーバ 側 に 置 かれたCGI サーブレットなどのアプリケーションプログラムの 使 用 により ブラウザからの 要 求 に 応 じた 文 書 がサーバ 側 で 動 的 に 生 成 され 送 出 される (b) JavaScriptなどを 用 いてWebページに 埋 め 込 まれたプログラムや サーバ 経 由 でブラウザ 側 に 送 られたアプレット あるいは ブラウザ 側 にインストールされたプラグインを ブラウザ 側 で 実 行 することによりユーザに 対 してインタラクティブに 応 答 する 能 力 を 持 ったWebページ (2)アプリケーション 層 動 的 なWebページを 実 現 するためのプログラムや これらからさらに 呼 び 出 されて 解 析 プログラムなどが 動 作 する 1CGIプログラム : Webサーバが Webブラウザからの 要 求 に 応 じて 動 的 に 文 書 を 作 成 して 送 出 する ためのプログラムを 起 動 する 仕 組 み データベースでは CGIの 言 語 としてPerlがよく 用 いら れているが その 後 継 であるRubyなど 新 しい 言 語 も 利 用 され 始 めている 2サーブレット : Webサーバ 上 で 実 行 される 部 品 化 されたJavaプログラムのこと 特 定 のOSやハー ドウェアに 依 存 することなく すべてのWebサーバ 上 で 稼 動 させることができる CGIなどとは 異 なり 一 度 呼 び 出 されるとメモリ 上 に 常 駐 するため 高 速 な 処 理 が 可 能 である また データ を 永 続 的 に 扱 うことができるため 複 数 のユーザ 間 で 情 報 を 共 有 することもできる 3PHP : 動 的 にWebページを 生 成 するWebサーバ 上 の 拡 張 機 能 または そこで 使 用 されるスクリプト 言 語 HTMLファイル 内 に 処 理 内 容 を 埋 め 込 み 処 理 結 果 に 応 じて 動 的 に 送 出 用 文 書 を 生 成 する 4アプレット : ネットワークを 通 じてWebブラウザにダウンロードされ ブラウザに 埋 め 込 まれて 実 行 されるJavaプログラムのこと Javaアプレットを 使 用 することにより HTMLで 記 述 された 静 的 なWebページでは 実 現 できない 動 的 な 表 現 が 可 能 となる 5プラグイン : アプリケーションソフトに 追 加 機 能 を 提 供 するための 小 さなプログラム 基 本 仕 様 として 搭 載 されている 機 能 だけでは 実 現 できない 動 画 や 高 品 質 の 音 声 の 再 生 など 様 々な 機 能 をプラグインの 追 加 によって 実 現 することができる (3)データベース 層 静 的 なWebページの 格 納 プログラムが 使 用 するデータの 格 納 あるいは 上 位 層 のプログラム 自 身 の 格 納 を 受 け 持 つ データベース 層 では データの 管 理 と 利 用 制 御 を 行 うソフトウェアとして 以 下 の2 種 類 が 動 作 している 1 OS 自 身 が 提 供 するファイル 管 理 システム 2 OS 上 で 動 作 可 能 なデータベース 管 理 システム(DBMS) 27
(4) ハードウェア 層 計 算 能 力 を 提 供 するコンピュータシステム スーパーコンピュータ 等 を 単 体 で 使 用 したり 複 数 のパソコ ン ワークステーションを 連 動 させたり 形 態 は 様 々であるが 十 分 な 動 作 速 度 と 安 定 した 稼 動 が 求 められ る Ⅶ-7.ファイル 形 式 生 物 データをコンピュータで 使 用 する 場 合 コンピュータが 処 理 できる 標 準 的 な 形 式 が 必 要 であり デー タを 書 式 に 従 ってテキスト 形 式 で 記 述 するのがもっとも 一 般 的 な 方 法 である これらのデータベースは エ ントリーと 呼 ばれる 単 位 が 集 まったものと 考 えることができ テキストファイルとして 保 存 配 布 されてい るが(フラットファイル 形 式 という) ファイルの 中 身 は 一 定 の 書 式 (フォーマット)に 従 って 構 造 化 され ている 配 列 解 析 を 行 う 場 合 のもっとも 単 純 なファイル 形 式 は FASTA 形 式 と 呼 ばれるもので 1 行 目 の 最 初 に > を 置 きその 後 に 物 質 名 などを 表 記 し 改 行 して2 行 目 以 降 に 配 列 を 記 述 したものである (いろいろなファイル 形 式 ) GenBank 形 式 マルチGenBank 形 式 fasta 形 式 マルチfasta 形 式 PIR 形 式 マルチPIR 形 式 EMBL 形 式 マルチEMBL 形 式 ABI 形 式 SCF 形 式 テキスト 形 式 など 28