データベース 統 合 に 関 わる 基 盤 技 術 開 発 TogoDB システム 概 説 書 平 成 26 年 4 月 24 日 大 学 共 同 利 用 機 関 法 人 情 報 システム 研 究 機 構 ライフサイエンス 統 合 データベースセンター
1. TogoDB 概 説 1.1. 開 発 目 的 生 命 科 学 では 多 種 多 様 なデータが 産 生 されているが その 多 くは 再 利 用 の 難 しい 論 文 の サプリメントとして PDF ファイルや Excel ファイルとして 公 開 されるにとどまるか デー タベースとして 公 開 する 手 段 をもたない 研 究 者 のもとに 秘 蔵 されている また 小 規 模 な データベースとして 公 開 される 場 合 も データベースが 本 来 備 えるべき 基 本 的 な 機 能 を 全 て 実 装 することが 困 難 なため 利 用 方 法 やライセンスが 分 かりにくく 十 分 に 活 用 されてい ないことが 多 い これらの 状 況 を 緩 和 しデータの 再 利 用 性 を 向 上 させるため ライフサイエンス 統 合 デー タベースセンター(DBCLS)では 表 形 式 のデータをアップロードするだけで 高 機 能 なデータ ベースを 簡 単 に 公 開 できる TogoDB システム[1]を 開 発 した 既 存 のデータベースでは そ れぞれが 同 じような 機 能 をスクラッチから 開 発 しており 開 発 費 維 持 費 がかかる 上 に 互 換 性 がないといった 問 題 点 があったが 高 機 能 で 再 利 用 性 の 高 いシステムを 提 供 する TogoDB の 利 用 により 標 準 化 低 コスト 化 を 実 現 し ライフサイエンスの 研 究 者 がデータ ベースのシステム 開 発 も 求 められるという 状 況 を 解 消 できる 1.2. 既 存 のデータベースに 見 られる 問 題 点 を 解 消 TogoDB では 既 存 のライフサイエンスのデータベースによく 見 られた 下 記 のような 問 題 点 やニーズの 解 決 を 念 頭 に 置 いて 開 発 を 行 った データベースのウェブサイトを 見 てもキーワードがわからず 検 索 できない 検 索 機 能 が 貧 弱 で 値 の 範 囲 指 定 や 正 規 表 現 などが 利 用 できずデータの 絞 り 込 みが 困 難 使 い 方 が 難 しく 多 数 の 検 索 結 果 を 閲 覧 するのに 手 間 がかかる データを 一 括 で 取 得 することができず 再 利 用 が 難 しい プログラムから 利 用 するための API がなく 検 索 などの 自 動 化 が 難 しい 他 のデータベースと 連 携 されていないためデータ 統 合 が 難 しい メタデータがなく 研 究 対 象 分 野 更 新 日 作 者 ライセンスなどが 不 明 完 成 までは 非 公 開 で 共 同 研 究 者 とのデータベース 開 発 を 進 めたい カスタマイズが 困 難 で 高 機 能 化 やウェブサイトへの 組 み 込 みなど 再 利 用 が 難 しい データベースの 構 築 やサーバの 維 持 に 時 間 やコストがかかる
1.3. データベース 構 築 事 例 TogoDB は JST のバイオサイエンスデータベースセンター(NBDC)で 生 命 科 学 系 データ ベースアーカイブ[2]では 各 研 究 機 関 から 寄 託 を 受 けたライフサイエンスデータベースに メタデータを 付 して 提 供 するサービスとして 利 用 されている 2. TogoDB の 特 徴 2.1. 基 本 的 な 機 能 TogoDB は 汎 用 的 な Web データベース 構 築 システムであり 利 用 者 は 表 形 式 のファイル を TogoDB システムにアップロードするだけで データ 一 覧 表 示 や 検 索 機 能 を 持 った Web データベース(Web アプリケーション)をインターネット 上 に 公 開 することができる 入 力 はカンマ 区 切 りの CSV 形 式 またはタブ 区 切 りの TSV 形 式 に 対 応 しており 手 元 のファ イルを 指 定 するか これらの 形 式 でデータが 取 得 できる URL を 指 定 して TogoDB のサーバ にアップロードする アップロードされたデータは 自 動 的 に 解 析 され カラム 名 やデータ 型 の 確 認 ( 必 要 であ
れば 修 正 )を 行 うだけですぐにデータベースの 構 築 と 公 開 を 行 うことができる データベ ースのカスタマイズや 公 開 非 公 開 の 指 定 データの 更 新 共 同 開 発 者 の 指 定 などは 随 時 行 うことができる 構 築 されたデータベースに 対 しては Web ブラウザから 以 下 の 機 能 を 実 行 することができる データの 一 覧 表 示 データの 詳 細 表 示 と 高 速 閲 覧 データのソート データの 検 索 データの 追 加 編 集 削 除 ユーザ 間 でのデータ 共 有 データベースのメタデータ 作 成 REST API によるデータ 検 索 RDF 化 で 用 いるオントロジーの 管 理 RDF, JSON, FASTA ファイルの 生 成 SPARQL 言 語 による RDF データの 検 索 DB
TogoDB では 検 索 前 からデータの 一 覧 が 常 に 表 示 されており それを 任 意 のカラムで 並 べ 替 えたり 検 索 条 件 によって 絞 り 込 むという 設 計 になっているため データベースの 中 身 が 分 からず 利 用 できないといった 問 題 は 生 じない また 一 覧 に 表 示 されているデータの 詳 細 表 示 を 上 下 キーだけで 次 々と 閲 覧 する 機 能 を 内 蔵 しており 検 索 によって 絞 りこまれた 数 百 件 のデータをソートした 順 に 閲 覧 する と いった 利 用 も 非 常 に 効 率 よく 行 える さらに このデータを CSV 形 式 で 一 括 してダウンロ ードする 機 能 も 提 供 されており 解 析 などでの 再 利 用 も 容 易 である
2.2. データベースの 更 新 一 度 作 成 したデータベースは その 内 容 の 追 加 修 正 削 除 が 可 能 で この 際 に 共 同 研 究 者 を 追 加 して 閲 覧 権 限 編 集 権 限 を 付 与 するといったユーザ 間 でのデータ 共 有 も 可 能 で ある 2.3. リンク 情 報 のカスタマイズ 生 命 科 学 のデータベースでは 表 の 中 に 他 のデータベースの ID を 含 む 場 合 も 多 いが こ れらの ID に 対 して リンク 先 の URL の 指 定 と ID 間 のセパレータの 指 定 を 行 うことがで きる これにより もともと ID だけしか 含 まれていない 表 データに 対 しても 外 部 データ ベースへリンクした 表 示 を 生 成 することができ ユーザの 利 便 性 を 向 上 できる 塩 基 配 列 の GenBank, EMBL, DDBJ アミノ 酸 配 列 の UniProt タンパク 質 立 体 構 造 の PDB 文
献 の PubMed 遺 伝 子 オントロジーの GO タンパク 質 モチーフの InterPro, Pfam RNA モチーフの Rfam 生 物 系 統 の Taxonomy など よく 使 われる 主 要 な 外 部 データベースは 選 択 するだけでリンク 先 が 指 定 できるようになっている なお ここで 指 定 した 外 部 デー タベースへのリンクは 後 述 の セマンティック ウェブ 対 応 の 項 目 にある RDF 生 成 の 際 にも 利 用 される 2.4. デザインのカスタマイズ 構 築 したデータベースは HTML, CSS, JavaScript を 任 意 に 編 集 し 柔 軟 にデザインをカ スタマイズすることができる HTML の 管 理 画 面 ではバナーやフッターなどの 埋 め 込 みは もちろんのこと データベースのカラム 名 とその 値 が 変 数 として 利 用 可 能 であるため デ フォルトの 表 形 式 での 表 示 に 縛 られることなく 任 意 のレイアウトでエントリを 表 示 する ことができる 使 用 する CSS もデータベースごとに 個 別 のものが 指 定 できるため TogoDB のヘッダを 非 表 示 にする 機 能 とあわせて オリジナルなデータベースとして 全 く 見 た 目 の 異 なるデザ インを 適 用 することも 容 易 に 実 現 できる さらに JavaScript を 使 用 することで データベ ースに 含 まれる 緯 度 経 度 の 値 から Google Map API による 地 図 表 示 を 行 うなど 高 度 なカ スタマイズを 自 由 に 行 うことができる
2.5. 外 部 サイトへの 埋 め 込 み TogoDB - <table id="togodb-dbname" style="display:none"></table> <script type="text/javascript" src="http://togodb.org/togodb/flexigrid/dbname.js?width=700&height=400"></script> 構 築 したデータベースは TogoDB のサイトから 閲 覧 できるだけでなく 任 意 のウェブサ
イトに 埋 め 込 むことも 可 能 である このためには HTML を 2 行 追 記 するだけでよく デー タベース 名 と 埋 め 込 みサイズを 指 定 すれば ページ 内 の HTML を 追 記 した 位 置 に 自 動 的 に 組 み 込 まれる これにより 独 自 ドメインで 運 用 されている 研 究 プロジェクトのウェブサ イトなどにも TogoDB で 作 成 したデータベースを 内 蔵 することができる この 機 能 を 上 記 のデザインのカスタマイズと 合 わせて 利 用 することにより 統 一 感 をもったウェブデー タベースの 運 用 が 容 易 に 実 現 できる 2.6. データベースのメタデータ TogoDB - DB DB W3C HCLS / BioDBCore / NBDC DB RDF DB BioHackathon を 通 じて W3C HCLS, BioDBcore, NBDC, DBCLS などのコミュニティ や 機 関 と 共 同 で 標 準 化 を 進 めているデータベースのメタデータを 指 定 する 管 理 画 面 を 有 し これにもとづいてデータベースの 説 明 著 作 権 者 ライセンスなどの 項 目 を 適 切 に 記 載 で きるようになっている TogoDB によるデータベースの 公 開 非 公 開 は 随 時 変 更 できるが 公 開 する 際 にはこれらのメタデータを 記 載 しておくことが 望 ましい なお 標 準 化 仕 様 で 求 められている データベースの URL やエントリ 数 更 新 日 利 用 可 能 なデータ 形 式 などは 自 明 であるため ユーザが 指 定 することなく TogoDB のシステム が 自 動 的 に 補 完 するようになっている
2.7. 検 索 REST API TogoDB で 構 築 したデータベースに 対 しては プログラムからの 利 用 を 容 易 にするための 高 機 能 な 検 索 用 REST API が 自 動 的 に 利 用 可 能 となる キーワード 検 索 では 該 当 するエ ントリを 取 得 するためのシンプルな API と Open Search の 仕 様 に 準 じて XML でデータ を 取 得 するための API が 提 供 される また 複 合 検 索 では 文 字 列 検 索 に 加 え 正 規 表 現 値 の 範 囲 指 定 ブーリアン 検 索 日 時 範 囲 指 定 などの 検 索 が 直 感 的 な REST API で 実 現 可 能 であり これらを 組 み 合 わせた 複 雑 な 検 索 条 件 も 容 易 に 表 現 することができる これにより 絞 り 込 んだ 結 果 に 対 する URL が 発 行 できるため ブックマークやウェブサイトからのリンク 研 究 者 間 でメールなどで のやりとりといった 応 用 も 可 能 となっている TogoDB - API TogoDB - SPARQL SPARQL result (JSON/XML) http://togodb.org/sparql/dbname TogoDB - Open Search Atom XML http://togodb.org/search/dbname/query TogoDB - http://togodb.org/db/dbname/query TogoDB - http://togodb.org/db/dbname?column="query " (string) http://togodb.org/db/dbname?column=/regexp/ (regular expression) http://togodb.org/db/dbname?column>value (numeric) http://togodb.org/db/dbname?column=true (boolean) http://togodb.org/db/dbname?column=yyyy-mm-dd-yyyy-mm-dd (date) http://togodb.org/db/dbname?col1="query"&col2=/regexp/&col3>yyyy-mm-dd 2.8. セマンティック ウェブ 対 応 TogoDB ではデータベースの 統 合 を 推 進 し 再 利 用 性 を 向 上 させるため セマンティック ウェブによるデータ 活 用 を 実 現 している 構 築 したデータベースは 自 動 的 に RDF 形 式 に 変 換 されトリプルストア 上 に 蓄 積 されるため 上 記 検 索 API に 加 えて SPARQL 検 索 も 可 能 となっている RDF データと SPARQL 検 索 の 利 用 により 他 のデータベースとのデータ 統 合 と 精 度 の 高 いデータ 検 索 を 行 うことができる なお SPARQL 検 索 の 利 用 可 否 は デ ータベースの 更 新 の 項 にあるデータベースの 公 開 非 公 開 と 連 動 している
表 形 式 のデータは サブジェクト( 主 語 )として 各 行 に 対 して ID を 振 り カラムをプロパ ティ( 述 語 ) セ ル の 値 を オ ブ ジ ェ クト( 目 的 語 )と 見 做 すことで RDF の 主 語 - 述 語 - 目 的 語 に 相 当 するトリプルを 生 成 することができる TogoDB の 管 理 画 面 では 任 意 のオントロジ ーを 利 用 して プロパティに 使 われる URI とオブジェクトのクラス 概 念 URI を 指 定 するこ とができる 独 自 のデータにおいては 既 存 のオントロジーでは 必 ずしも 概 念 を 表 現 しき れないことが 多 いため この 際 に 使 用 するオントロジー 自 体 を 作 成 してアップロードした り 管 理 画 面 上 で 自 由 に 記 述 編 集 するための 機 能 も 備 えている TogoDB - RDF RDF Property Class TogoDB では 表 形 式 のデータからデータベースを 構 築 すると 同 時 に 自 動 的 に RDF が 生 成 されるが 管 理 画 面 での 設 定 によりオントロジーを 利 用 したより 精 度 の 高 い RDF を 随 時 更 新 しながら 容 易 に 設 計 することができるため Linked Open Data 構 築 のためのプラット フォームとしても 活 用 することができる 特 に もともと TogoDB がウェブデータベースであることから サブジェクトのリソー ス URI に 対 してエントリの 情 報 を 表 示 するウェブページが 最 初 から 存 在 する 状 態 になって いることは データだけから RDF を 生 成 する 場 合 と 比 べて 有 利 な 点 である また リン ク 情 報 のカスタマイズ の 項 で 述 べたように セルの 値 が 外 部 リソースの ID である 場 合 リンク 機 能 によりリファレンス 先 の URI へと 書 き 換 えることも 自 動 的 に 行 われる
2.9. データセットのリリース 機 能 TogoDB で 構 築 されたデータベースは CSV 形 式 に 加 え セマンティック ウェブの RDF (XML, Turtle) 形 式 と 配 列 データを 含 む 場 合 は FASTA 形 式 でのダウンロードが 可 能 であ る デフォルトでは 全 項 目 がダウンロード 用 のファイルに 含 まれるが 管 理 画 面 から 指 定 したカラムの 情 報 だけを 含 むサブセットのデータセットを 作 りリリースすることも 可 能 と なっている また エントリの 追 加 修 正 を 行 った 場 合 リンク 情 報 などを 変 更 した 場 合 RDF 化 のた めのオントロジー 指 定 を 変 更 した 場 合 などには リリース 機 能 を 利 用 することにより 全 フ ァイルを 更 新 することができる この 時 SPARQL エンドポイントの 情 報 も 自 動 的 にアッ プデートされる TogoDB - RDFSPARQL RDF/XML, Turtle @prefix togodb: <http://togodb.org/ontology/antmossdb#>. <http://togodb.org/entry/antmossdb/1> togodb:number_registered "19761002/19761002-0001" ; togodb:date_collected "1961-02-10Z" ; togodb:latitude "54d 17m 0s S" ; togodb:longitude "36d 31m 0s W" ; togodb:taxonomy_class "[Musci]" ; togodb:taxonomy_sub_class "Bryidae" ; togodb:taxonomy_order "Grimmiales" ; togodb:taxonomy_family "Grimmiaceae" ; togodb:taxonomy_genus "Racomitrium" ; togodb:specific_epithet "austro-georgicum Par." ; togodb:variety "" ; SPARQL endpoint 3. リファレンス 1. TogoDB: http://togodb.org/ 2. 生 命 科 学 系 データベースアーカイブ: http://dbarchive.biosciencedbc.jp/